Введение в искусственный интеллект

Случайно нашла годноту в тему предыдущего поста 🧑‍🎨

332 views12:56

RLHF, SFT, PPO и DPO — разбираемся в настройке больших языковых моделей
☣️ Здесь будут ссылки на научные статьи. Они сложные - не обязательно в них погружаться.

Большие языковые модели (БЯМ, LLM) по сути это программа, которая генерирует текст. У нее есть так называемые эмбеддинги (словарь токенов - слов и их частей - и их веса) и надстройка в виде нейронной сети, которая предсказывает вероятность следующего токена на основе весов. Чтобы получить эмбеддинги, модель нужно обучить. Современные модели обучают в основном при помощи архитектуры “трансформер” - этот этап называется pre-training (претрЕйнинг), а полученная модель - предобученной (pre-trained). И что же получается, после обучения модель уже не скорректировать? Современные БЯМы можно дообучать и настраивать, то есть файн-тьюнить (fine-tune). При этом веса модели могут меняться полностью или частично. Вот несколько популярных методов файн-тьюнинга:
➡️ Supervised fine-tuning (сьюпевАйзд фАйнтьюнинг), настройка с учителем, SFT основано на специфических задачах. Например, пусть модель обучалась на задаче генерации текста вообще, а файн-тьюнить мы ее будем на написание стихов. В результате она будет писать стихи, но, вероятнее всего, просядет по каким-то другим задачам. Обучать можно на несколько разных задач; несколько задач, связанных между собой; на нескольких примерах, которых будет достаточно (few-shot, фью-шОт).
➡️ Reinforcement learning (реинфОсмент лЁнинг), обучение с подкреплением. Материалом для обучения становится реальное поведение модели и реакция на него, например, когда человек, который получил ответ на промпт, поставил лайк или оценку. В методе RLHF (reinforcement learning with human feedback - обучение с подкреплением на основе отзывов людей) создается отдельная модель, которую люди учат награждать или штрафовать другую модель. Proximal Policy Optimization (PPO, оптимизация проксимальной политики) - это алгоритм, который помогает найти баланс между корректированием весов после фидбэка людей и дообучением на новых данных. Другими словами, он уравнивает влияние новых данных, поступивших в модель, с ее оценкой своего поведения после дообучения.
➡️ Parameter Efficient Fine-Tuning (парАметер эфИшент файн-тьЮнинг), PEFT, файн-тьюнинг с эффективной настройкой параметров. Чем меньше параметров нужно скорректировать при настройке, тем меньше времени и других ресурсов займет настройка. Т.е. это тот же файн-тьюнинг, но он по-разному меняет параметры модели. Среди методов PEFT выделяют следующие:
➡️ ➡️ Low-Rank Adaptation (LoRA, низкоранговая адаптация) - вместо большой матрицы эмбеддингов создаются две матрицы поменьше, после обучения они складываются опять в одну.
➡️ ➡️ Direct Preference Optimization (DPO, прямая оптимизация предпочтений) - в модель добавляется вес, который делает генерацию того или иного токена более или менее предпочтительной в каких-либо условиях: “dynamic, per-example importance weight” (динамический вес важности примера).
➡️ In-Context Learning (ICL), контекстное обучение - это даже не файн-тьюнинг. Ведь можно не менять параметры модели. Можно поменять промпт, дав модели больше контекста, и она в диалоге с вами начнет выполнять нужную вам задачу. Но это другая большая история..

#спискии #база