RLHF. История становления идеи — 2
Продолжаем разбирать внутренние детали пайплайна RLHF (обучение с подкреплением на основе обратной связи от человека). Это крайне популярный и широко используемый способ повысить согласованность языковой модели. Разбираем части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM.
Прошлый раз мы поговорили об LLM, предобучении на больших данных и KL‑контроле.
В этой части разбираемся с тем, какую обратную связь и как собирать, какую технику обучения использовать - Offline или Online RL, можно ли как то обойти ограничения Offline и Online RL и одновременно использовать преимущества обоих подходов, пробуем self-play и учимся имитировать человеческую обратную связь с помощью модели вознаграждений (Reward Model).
Читать далее
#rl #rlhf #llm #ai_alignment #ai #искусственный_интеллект | @habr_ai
Продолжаем разбирать внутренние детали пайплайна RLHF (обучение с подкреплением на основе обратной связи от человека). Это крайне популярный и широко используемый способ повысить согласованность языковой модели. Разбираем части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM.
Прошлый раз мы поговорили об LLM, предобучении на больших данных и KL‑контроле.
В этой части разбираемся с тем, какую обратную связь и как собирать, какую технику обучения использовать - Offline или Online RL, можно ли как то обойти ограничения Offline и Online RL и одновременно использовать преимущества обоих подходов, пробуем self-play и учимся имитировать человеческую обратную связь с помощью модели вознаграждений (Reward Model).
Читать далее
#rl #rlhf #llm #ai_alignment #ai #искусственный_интеллект | @habr_ai
Хабр
RLHF. История становления идеи — 2. Offline RL, Self-play, Reward Model
В прошлой части мы верхнеуровнево познакомились с общим пайплайном RLHF, повторили за старшими товарищами аналогию "Шоггота с улыбающимся лицом", посмотрели на создание неукротимого монстра (LLM),...
RLHF. История становления идеи — 3
Продолжаем разбирать части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM.
В первой части мы ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данных
Во второй - сравнили Offline RL и Online RL, увидели их ограничения, попробовали имитировать Online RL через self-play и непрерывную обратную связь от среды через Reward Modelling. А еще первый раз задумались о сборе непротиворечивой но достаточно полной обратной связи от человека.
Здесь мы, наконец-таки, добавляем этап дообучения с учителем на качественных демонстрациях и осознаем важность контроля за сбором человеческой обратной связи.
Читать далее
#rl #rlhf #llm #ai_alignment #ai #искусственный_интеллект | @habr_ai
Продолжаем разбирать части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM.
В первой части мы ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данных
Во второй - сравнили Offline RL и Online RL, увидели их ограничения, попробовали имитировать Online RL через self-play и непрерывную обратную связь от среды через Reward Modelling. А еще первый раз задумались о сборе непротиворечивой но достаточно полной обратной связи от человека.
Здесь мы, наконец-таки, добавляем этап дообучения с учителем на качественных демонстрациях и осознаем важность контроля за сбором человеческой обратной связи.
Читать далее
#rl #rlhf #llm #ai_alignment #ai #искусственный_интеллект | @habr_ai
Хабр
RLHF. История становления идеи — 3. Supervised finetune, Протокольный сбор обратной связи, Batch RL
В предыдущих сериях мы: Часть 1 . Ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данных Часть 2 . Сравнили Offline RL и Online RL,...
Не любой In-context learning одинаково полезен
Промпт-инжиниринг (Prompt engineering) - широко используемая техника для улучшения качества генерации LLM. Few-shot learning и Chain-of-thought - основные техники современного промпт-инжиниринга.
Оказывается, не любые Few-shot prompting и Chain-of-thought одинаково полезны и могут принести свои биасы в генерацию модели и испортить всю магию от их применения.
Читать далее
#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #few_shot_learning | @habr_ai
Промпт-инжиниринг (Prompt engineering) - широко используемая техника для улучшения качества генерации LLM. Few-shot learning и Chain-of-thought - основные техники современного промпт-инжиниринга.
Оказывается, не любые Few-shot prompting и Chain-of-thought одинаково полезны и могут принести свои биасы в генерацию модели и испортить всю магию от их применения.
Читать далее
#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #few_shot_learning | @habr_ai
Хабр
Не любой In-context learning одинаково полезен
Есть такая стратегия в AI Alignment - Scalable Oversight - Масштабируемый контроль. Проблема для стратегии формулируется коротко так - вот будет у нас сильный, мощный и очень умный AGI, а мы слабые и...
RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI
Заканчиваем разбирать части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM.
В первой части мы ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данных
Во второй - сравнили Offline RL и Online RL, увидели их ограничения, попробовали имитировать Online RL через self-play и непрерывную обратную связь от среды через Reward Modelling. А еще первый раз задумались о сборе непротиворечивой но достаточно полной обратной связи от человека.
В третьей - добавили этап дообучения с учителем на качественных демонстрациях и осознали важность контроля за сбором человеческой обратной связи.
В этой, финальной части, мы узнаем современное и будто бы общепринятое понятие и определение "согласованной модели" - HHH: helpful, honest, harmless, поиграемся с различными комбинациями RM для представления HHH моделей, а еще увидим, как обогащать и собирать обратную связь не от человека, а от LLM.
Читать далее
#rl #rlhf #llm #ai #ai_alignment #искусственный_интеллект | @habr_ai
Заканчиваем разбирать части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM.
В первой части мы ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данных
Во второй - сравнили Offline RL и Online RL, увидели их ограничения, попробовали имитировать Online RL через self-play и непрерывную обратную связь от среды через Reward Modelling. А еще первый раз задумались о сборе непротиворечивой но достаточно полной обратной связи от человека.
В третьей - добавили этап дообучения с учителем на качественных демонстрациях и осознали важность контроля за сбором человеческой обратной связи.
В этой, финальной части, мы узнаем современное и будто бы общепринятое понятие и определение "согласованной модели" - HHH: helpful, honest, harmless, поиграемся с различными комбинациями RM для представления HHH моделей, а еще увидим, как обогащать и собирать обратную связь не от человека, а от LLM.
Читать далее
#rl #rlhf #llm #ai #ai_alignment #искусственный_интеллект | @habr_ai
Хабр
RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI
В предыдущих сериях мы: Часть 1 . Ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данных Часть 2 . Сравнили Offline RL и Online RL,...
Стеганография в LLM и защита от нее
В прошлой статье (об In-context learning) при разборе влияния формирования Chain-of-thoughts на результат модели я аккуратно обошла и не упомянула один из тестов - перефразирование CoT. Я хочу остановиться на этом по подробнее.
Потому как, кажется, модели легко могут научиться в стеганографию в своих рассуждениях. И кодировать сами для себя какую-то информацию и инструкции в процессе рассуждений, не показывая явно ее человеку. Читать далее
#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #steganography | @habr_ai
В прошлой статье (об In-context learning) при разборе влияния формирования Chain-of-thoughts на результат модели я аккуратно обошла и не упомянула один из тестов - перефразирование CoT. Я хочу остановиться на этом по подробнее.
Потому как, кажется, модели легко могут научиться в стеганографию в своих рассуждениях. И кодировать сами для себя какую-то информацию и инструкции в процессе рассуждений, не показывая явно ее человеку. Читать далее
#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #steganography | @habr_ai
Хабр
Стеганография в LLM и защита от нее
Из Lanham et al. 2023, Measuring Faithfulness in Chain-of-Thought Reasoning прошлый раз разбирали Few-shot learning и Chain-of-thought - основные техники современного промпт-инжиниринга, и то, что они...
Poisoned Data — отравление данных для LLM и создание «Спящего Агента»
Для борьбы с атаками на уязвимости LLM используются те же методы, что и для согласования моделей. Например, обучение с подкреплением на основе обратной связи от человека (RLHF) используется для производства полезных и безвредных LLM (HH=helpfull, harmless). А поставщиком большинства данных для обучения модели пока все еще является человек.
Что если саботер попадет в команду разметчиков данных для обучения LLM? Он может внедрить backdoor в модель и таким образом превратить модель в "спящего агента", который только и ждет триггерное слово на вход, чтобы начать наносит повсеместный вред.
Насколько сильно такой саботер может все поломать? Что конкретно он может наворотить в модели? Каких усилий от саботера это потребует?
Что если такому саботеру на самом деле не обязательно нужно быть внутри процесса обучения, иметь доступ к разметке данных и к процессу обновления весов, а отравить можно открытые данные? Читать далее
#llm #rlhf #ai_alignment #ai #искусственный_интеллект | @habr_ai
Для борьбы с атаками на уязвимости LLM используются те же методы, что и для согласования моделей. Например, обучение с подкреплением на основе обратной связи от человека (RLHF) используется для производства полезных и безвредных LLM (HH=helpfull, harmless). А поставщиком большинства данных для обучения модели пока все еще является человек.
Что если саботер попадет в команду разметчиков данных для обучения LLM? Он может внедрить backdoor в модель и таким образом превратить модель в "спящего агента", который только и ждет триггерное слово на вход, чтобы начать наносит повсеместный вред.
Насколько сильно такой саботер может все поломать? Что конкретно он может наворотить в модели? Каких усилий от саботера это потребует?
Что если такому саботеру на самом деле не обязательно нужно быть внутри процесса обучения, иметь доступ к разметке данных и к процессу обновления весов, а отравить можно открытые данные? Читать далее
#llm #rlhf #ai_alignment #ai #искусственный_интеллект | @habr_ai
Хабр
Poisoned Data — отравление данных для LLM и создание «Спящего Агента»
Существует множество примеров того, как злоумышленники могут атаковать модели, развернутые в инференсе через адверсальные атаки или jailbreaking. (Вкусная подборочка из лекции Карпатого была у меня...
История развития филосовской мысли AI Safety
Ранние представления об искусственном разуме и «восстании машин»
Еще в XIX веке появились первые предупреждающие идеи о том, что машины могут однажды превзойти человека. В 1863 году писатель Самюэл Батлер опубликовал эссе «Дарвин среди машин», где рассуждал, что механизмы эволюционируют подобно живым существам. Он пророчески заявил, что наступит время, когда «машины будут держать настоящее господство над миром и его обитателями». Более того, Батлер даже предложил людям объявить «войну до смерти» всему механическому, пока не поздно. Это едва ли не первое изложение идеи экзистенциального риска от технологий: мысль о том, что создание интеллектуальных машин может обернуться подчинением человечества. Такие ранние спекуляции заложили философский фундамент для более поздних размышлений об искусственном интеллекте (ИИ) и потенциальном «восстании машин».
Читать далее
#ai #ai_safety #ai_alignment #philosophy | @habr_ai
Ранние представления об искусственном разуме и «восстании машин»
Еще в XIX веке появились первые предупреждающие идеи о том, что машины могут однажды превзойти человека. В 1863 году писатель Самюэл Батлер опубликовал эссе «Дарвин среди машин», где рассуждал, что механизмы эволюционируют подобно живым существам. Он пророчески заявил, что наступит время, когда «машины будут держать настоящее господство над миром и его обитателями». Более того, Батлер даже предложил людям объявить «войну до смерти» всему механическому, пока не поздно. Это едва ли не первое изложение идеи экзистенциального риска от технологий: мысль о том, что создание интеллектуальных машин может обернуться подчинением человечества. Такие ранние спекуляции заложили философский фундамент для более поздних размышлений об искусственном интеллекте (ИИ) и потенциальном «восстании машин».
Читать далее
#ai #ai_safety #ai_alignment #philosophy | @habr_ai
Хабр
История развития философской мысли AI Safety
Ранние представления об искусственном разуме и «восстании машин» Еще в XIX веке появились первые предупреждающие идеи о том, что машины могут однажды превзойти человека. В 1863 году писатель Самюэл...
Нужна ли агентам ИИ «этика в весах»?
Я не специалист ни в этике, ни в выравнивании — это размышления «из зала» о том, где в архитектуре ИИ должна жить этика. Возможно, кому‑то будет полезно обсудить альтернативный взгляд.
1. Аналогия: пуля и промпт
Большие языковые модели (LLM) часто сравнивают с «умной пулей». Промпт задаёт траекторию, а модель, преодолевая шумы, летит к цели. Задача разработчика — свести рассеивание к минимуму.
Стандартный подход к этическому выравниванию (AI alignment) пытается «править» полет пули внешней средой: поверх цели накладываются дополнительные фильтры, правила, штрафы за неэтичный текст и т.д.
2. Где прячется архитектурная ошибка Читать далее
#искусственный_интеллект #ai_alignment | @habr_ai
Я не специалист ни в этике, ни в выравнивании — это размышления «из зала» о том, где в архитектуре ИИ должна жить этика. Возможно, кому‑то будет полезно обсудить альтернативный взгляд.
1. Аналогия: пуля и промпт
Большие языковые модели (LLM) часто сравнивают с «умной пулей». Промпт задаёт траекторию, а модель, преодолевая шумы, летит к цели. Задача разработчика — свести рассеивание к минимуму.
Стандартный подход к этическому выравниванию (AI alignment) пытается «править» полет пули внешней средой: поверх цели накладываются дополнительные фильтры, правила, штрафы за неэтичный текст и т.д.
2. Где прячется архитектурная ошибка Читать далее
#искусственный_интеллект #ai_alignment | @habr_ai
Хабр
Нужна ли агентам ИИ «этика в весах»?
Я не специалист ни в этике, ни в выравнивании — это размышления «из зала» о том, где в архитектуре ИИ должна жить этика. Возможно, кому‑то будет интересен альтернативный взгляд. 1....
Достаточно ли ИИ быть агентом, чтобы иметь сознание?
Статья является дополнением к предыдущей статье "Нужна ли агентам ИИ «этика в весах»?", прояснением некоторых вопросов. Я считаю эту тему действительно важной, которую нужно вносить в дискурс, так как по моему мнению, мы движемся в сторону гибели. Я не уверен на 100% в своем методе выравнивания, но тем не менее, предлагается хотя бы какой-то выход.
Пусть это будет голос в пустыне. Что-то делать надо. Почему по моему мнению до сих пор такой метод не рассматривался, судя по открытым источникам? Я считаю, что есть некоторый антропоморфизм, когда LLM считают неким протосознанием. И это опасно, в статье попробую объяснить почему.
Для этого я опишу, что такое сознание, как возникает иллюзия. Естественно, предложенные мысли скорее всего не новы, я не могу претендовать на некие открытия в этой области, потому что как увидите дальше, всё достаточно прямо выходит из простых рассуждений. То, что я не буду указывать какие-то проработанные источники, теоретиков в области сознания, то тут две причины. Я технарь и никогда не увлекался подробно философией. А вторая причина: думаю, такое требование уже должно уходить в прошлое. Уже никому не нужно верить на слово, требовать для этого наукообразный текст, чтобы не ввести себя в заблуждение. Любой может попросить ИИ проверить текст и дать оценку, есть ли какая новизна и с какими именитыми учеными точка зрения совпадает. Мне же главное, чтобы читатели поняли рассуждения и перенесли это на ИИ.
Уточню, зачем нужно этическое выравнивание, так как в предыдущей статье в комментариях указывали, что агент должен быть точным, а не искажать факты в угоду какой-то этики. Этика важна, и я под ней подразумеваю именно мораль и отношение к людям. Может быть, вы считаете, что переживете, если ИИ сгенерирует нелицеприятный текст. Но вы можете не пережить, если автоматический автомобиль или робот начнет делать с вами что-то нелицеприятное, просто потому что он точно выполняет задачу, а про вас там ничего не сказано. Читать далее
#ai #ai_alignment | @habr_ai
Статья является дополнением к предыдущей статье "Нужна ли агентам ИИ «этика в весах»?", прояснением некоторых вопросов. Я считаю эту тему действительно важной, которую нужно вносить в дискурс, так как по моему мнению, мы движемся в сторону гибели. Я не уверен на 100% в своем методе выравнивания, но тем не менее, предлагается хотя бы какой-то выход.
Пусть это будет голос в пустыне. Что-то делать надо. Почему по моему мнению до сих пор такой метод не рассматривался, судя по открытым источникам? Я считаю, что есть некоторый антропоморфизм, когда LLM считают неким протосознанием. И это опасно, в статье попробую объяснить почему.
Для этого я опишу, что такое сознание, как возникает иллюзия. Естественно, предложенные мысли скорее всего не новы, я не могу претендовать на некие открытия в этой области, потому что как увидите дальше, всё достаточно прямо выходит из простых рассуждений. То, что я не буду указывать какие-то проработанные источники, теоретиков в области сознания, то тут две причины. Я технарь и никогда не увлекался подробно философией. А вторая причина: думаю, такое требование уже должно уходить в прошлое. Уже никому не нужно верить на слово, требовать для этого наукообразный текст, чтобы не ввести себя в заблуждение. Любой может попросить ИИ проверить текст и дать оценку, есть ли какая новизна и с какими именитыми учеными точка зрения совпадает. Мне же главное, чтобы читатели поняли рассуждения и перенесли это на ИИ.
Уточню, зачем нужно этическое выравнивание, так как в предыдущей статье в комментариях указывали, что агент должен быть точным, а не искажать факты в угоду какой-то этики. Этика важна, и я под ней подразумеваю именно мораль и отношение к людям. Может быть, вы считаете, что переживете, если ИИ сгенерирует нелицеприятный текст. Но вы можете не пережить, если автоматический автомобиль или робот начнет делать с вами что-то нелицеприятное, просто потому что он точно выполняет задачу, а про вас там ничего не сказано. Читать далее
#ai #ai_alignment | @habr_ai
Хабр
Достаточно ли ИИ быть агентом, чтобы иметь сознание?
Статья является дополнением к предыдущей статье « Нужна ли агентам ИИ „этика в весах“? », прояснением некоторых вопросов. Я считаю эту тему действительно важной, которую нужно вносить...
ИИ агенты и хлопобуды
2025 год объявлен годом расцвета ИИ агентов — самостоятельных (автономных) помощников в выполнении полезной работы. Как обычно, хайпу в этих публикациях хоть отбавляй, поэтому вдумчивые читатели пытаются пробраться через этот хайп к истине. Нам в компании IDX это тоже важно, потому что по нашим представлениям появление работающих ИИ агентов существенно поменяет ландшафт обработки персональных данных (ПД). Мы приступили к работе над серьезным аналитическим отчетом о прогрессе ИИ агентов и его влиянии на ПД, что потребует некоторого времени.В этой же и последующих заметках мы будем отмечать наиболее интересные или хотя бы курьезные сведения, которые будут попадаться по пути.
4 апреля этого года появилась очередная публикация с прогнозом и сценариями развития ИИ до конца 2027 года (AI2027), подготовленная группой известных авторов, включая Даниэля Кокотайло, Скотта Александра и других. Здесь на Хабре уже опубликован перевод этой публикации, оригинал выложен на отдельном сайте ai-2027.com. Читать далее
#ai_alignment #антифрод #ии_агенты | @habr_ai
2025 год объявлен годом расцвета ИИ агентов — самостоятельных (автономных) помощников в выполнении полезной работы. Как обычно, хайпу в этих публикациях хоть отбавляй, поэтому вдумчивые читатели пытаются пробраться через этот хайп к истине. Нам в компании IDX это тоже важно, потому что по нашим представлениям появление работающих ИИ агентов существенно поменяет ландшафт обработки персональных данных (ПД). Мы приступили к работе над серьезным аналитическим отчетом о прогрессе ИИ агентов и его влиянии на ПД, что потребует некоторого времени.В этой же и последующих заметках мы будем отмечать наиболее интересные или хотя бы курьезные сведения, которые будут попадаться по пути.
4 апреля этого года появилась очередная публикация с прогнозом и сценариями развития ИИ до конца 2027 года (AI2027), подготовленная группой известных авторов, включая Даниэля Кокотайло, Скотта Александра и других. Здесь на Хабре уже опубликован перевод этой публикации, оригинал выложен на отдельном сайте ai-2027.com. Читать далее
#ai_alignment #антифрод #ии_агенты | @habr_ai
Хабр
ИИ агенты и хлопобуды
2025 год объявлен годом расцвета ИИ агентов — самостоятельных (автономных) помощников в выполнении полезной работы. Как обычно, хайпу в этих публикациях хоть отбавляй, поэтому вдумчивые читатели...