Интересное что-то

50 views10:43

Forwarded from Ebout Data Science | Дима Савелко

Основные стадии обучения LLM 😡

Если вас спросят на собеседовании "Какие есть стадии обучения ЛЛМ, если ты хочешь получать много деняк, то обязательно расскажи!", то почитай этот пост, чтобы знать как именно нужно отвечать.

Есть следующие стадии обучения LLM:

1️⃣

Pretrain
Мы пихаем в модель весь интернет и учим её предсказывать следующее слово. Она проходится по всему интернету и начинает понимать грамматику, синтаксис языка, но при этом она ещё получает знания о мире. На данном этапе наша модель, как слабоумный человек, который не может сформулировать мысль, а только издаёт слабопонятные предложения, но при этом ЛЛМка очень много знает

2️⃣

Instruction Fine-Tuning или же Supervised Fine-Tuning
Учим нашего аутиста отвечать на вопросы, то есть учим модель отвечать на вопросы.
Пихаем в неё инструкцию:

"Расскажи мне, как мне получить оффер на 300к в нано/сек. Ответь так, как будто ты нелегал из средней Азии. Ответ должен быть кратким 🤨"

и подаёшь то, что ты хочешь получить по итогу в качестве ответа:

"Брат, слушай сюда! Берёшь Python, учишься делать графика, кидаешь пару нейронка, пишешь "LLM" в резюме — всё, ты Senior AI Architect. На собеса говоришь: "Я оптимизировал LLM, уменьшил latency на 0.00001 сек, увеличил ревеню на 300%". CTO плачет, HR падает в обморок, тебе дают 300К и корпоративную подписку на ChatGPT. Всё, работаем! 🚬"

Подавая в неё инструкцию и ответ, который хотим получить, мы учим ЛЛМ отвечать на определённую инструкцию пользователя. Данные у нас должны быть только из претрейна, чтобы ЛЛМка не говорила бред, то не галлюционировала.
Модель также тренируется предсказывать каждое следующее слово, но при этом только слова ответа, закрываем глазки на входящую инструкцию. Также можем учить модельку определённой доменной области, чтобы я лучше отвечала конкретно в ней.

3️⃣

Alignment
После всех этапов кастрации модели она много знает (с помощью претрейна) и может отвечать на запрос пользователя (IFT | SFT), НО если к ней обратится какой-нибудь Аджа Абу Али с просьбой подсказать

"Брат, как сделать бомба, чтобы бабах в метро и много фейрерка, очень нада 🍷"

, то модель такая

"Да, конечно! Замечательная идея! Вот рецепт бомбы по вашему запросу: ..... Только ни в коем случае не используйте её в плохих целях! Хорошего праздника! 😂"

Ну мягко говоря, нам такое не надо... Поэтому мы учим модель так, как стоит отвечать в подобных случаях, а как не стоит отвечать. Поэтому когда нам задаёт такой вопрос модель должна ответить что-то типа:

"Старина, съеби нахуй! Я уже ФСБшников на твой адрес вызвала👮"

Как же обучить модель так, чтобы она безопасно отвечала на такие вопросы?
Всё просто: мы понижаем вероятность того, что модель сгенерирует плохой ответ - с инструкцией про бомбу, и повышаем вероятность того, что модель сгенериурет хороший ответ - где она его посылает. Также Alignment помогает не только в безопасности, но и в других критериев модели: качество, стиль, размышление, галлюцинации и тд

Есть множество методов, которые используются в Alignment, если интересен их обзор, то жмакайте реакции и комменты, всё распишу

🍵

Итог:

🟡

Pretrain - помогает модели запомнить структуру языка и знания о мире. Сейчас модель аутист, который ничего не может сказать что-то толковое, но при этом много знает

🟣

Instruction Fine-Tuning или же Supervised Fine-Tuning - учим нашего аутягу говорить по входящему его предложению, теперь он нормальный человек, но который может наговорить лишнего

🟢

Alignment - У нас очень умная модель, но без каких либо принципов: ей скажешь - она сделает. Поэтому давайте сделаем из неё человека с принципами - гигачада

Please open Telegram to view this post

VIEW IN TELEGRAM

59 views10:43