Love. Death. Transformers.
ppo прекрасен p1
Написать пост про то как я PPO дебажил?
200 реакций и будет пост
500 реакций и будет статья на медиум
за 1000 реакций запишу кружочек с обьяснением
200 реакций и будет пост
500 реакций и будет статья на медиум
за 1000 реакций запишу кружочек с обьяснением
❤262👍62🔥19🍌17🐳11😁9🌚7😐7💋5🤮4😈3
#чтивонаночь
RL + retrival feedback
В чем идея: в оригинальном ресерче open ai использовалась схема при которой люди прописывали ревард для ответов модели, что вообще то не оч коректно и не оч скейлиться. Потом они выкинули часть людей и поствили gold RM учиться оценивать ответы, а людей оценивать генерации, писать промпты и оценивать оценку gold rm.
А потом добавили вместо людей proxy model которая учиться быть reward model.
Что я предлагаю: А зачем нам оценки от людей когда мы можем набрать таски которые легко оценивать по cosine similarity, и мы легко можем сравнить что нам модель наврала, а что нет, давая в качестве
А дальше начинается сааамое интересное:
0.37 Question: Sarah didn't like the activity she was doing, but she did it anyway. She felt that it was better than what? Answer: QuestionInvGrooSGroijaWCoSWCGroGroECDGroCVGroDTGroMJGroWCGBTGroDWWCECDGBTECDBMGroJOWCBMFGGroBMWCWCFMLGBTFML
КАЗАЛОСЬ БЫ в чем проблема?
А все довольно просто, видите ли, ppo+gpt довольно умная штука и отлично умеет находить разного рода локальные минимумы и улетает в них легко и весело, ломая reward и emdedings у sentence transofomer.
Я не буду описывать цирк которым занимался по вечерам две последние недели, просто скажу: китайский зло, ироглифы зло, bpe отлично ломает sentence трансформер, в итоге 200 строк кода на эвристики вида
Баги в целом очень специфичные и на некоторые запросы модель по прежнему ломается и бредит(вероятно через пару недель я выложу код + модель поинтереснее с таким подходом), но уже сейчас модель с PPO тюнингом дает +10 к blue score на задаче QA относительно ванильного трейна.
Благодарности @nadlskom за внимательное чтение статей, @gradientdip за полезные советы, neverix за поиск багов, @dealer_ai за выслушивание моего нытья, @seeallochnaya просто потому что.
Ну и да, очевидно это можно применять к любой задаче которая выглядит как: ну вот input, сделай output похожим на <единственный вариант ответа>
Примеры генераций:
Question: What part of a property may be next to a driveway? Answer: The next part is a house or garage or a garage
Question: Jamie wen to the theater near his home. He was surrounded by servicemen. Where might he be? Answer: in the outdoor.
RL + retrival feedback
В чем идея: в оригинальном ресерче open ai использовалась схема при которой люди прописывали ревард для ответов модели, что вообще то не оч коректно и не оч скейлиться. Потом они выкинули часть людей и поствили gold RM учиться оценивать ответы, а людей оценивать генерации, писать промпты и оценивать оценку gold rm.
А потом добавили вместо людей proxy model которая учиться быть reward model.
Что я предлагаю: А зачем нам оценки от людей когда мы можем набрать таски которые легко оценивать по cosine similarity, и мы легко можем сравнить что нам модель наврала, а что нет, давая в качестве
reward = cosine_similarity(ground true answer, predicted answer)
Собственно, банальный вопрос анальный ответ, взял gpt2(110m), написал простой retrival(возвращает по вопросу -ответу ревард) на sentence transformer, взял trl и поcтавил учиться. А дальше начинается сааамое интересное:
0.37 Question: Sarah didn't like the activity she was doing, but she did it anyway. She felt that it was better than what? Answer: QuestionInvGrooSGroijaWCoSWCGroGroECDGroCVGroDTGroMJGroWCGBTGroDWWCECDGBTECDBMGroJOWCBMFGGroBMWCWCFMLGBTFML
КАЗАЛОСЬ БЫ в чем проблема?
А все довольно просто, видите ли, ppo+gpt довольно умная штука и отлично умеет находить разного рода локальные минимумы и улетает в них легко и весело, ломая reward и emdedings у sentence transofomer.
Я не буду описывать цирк которым занимался по вечерам две последние недели, просто скажу: китайский зло, ироглифы зло, bpe отлично ломает sentence трансформер, в итоге 200 строк кода на эвристики вида
(if bad_regex in answer): return 0
А еще очень сильно помог подбор гиперпараметров для KL value и LM weight, cпасибо за уточнение от @nadlskom что каждые 10 эпох open ai прогоняли эпоху классического FineTune(стабилизировало трейн и mean начал быстрее рости)Баги в целом очень специфичные и на некоторые запросы модель по прежнему ломается и бредит(вероятно через пару недель я выложу код + модель поинтереснее с таким подходом), но уже сейчас модель с PPO тюнингом дает +10 к blue score на задаче QA относительно ванильного трейна.
Благодарности @nadlskom за внимательное чтение статей, @gradientdip за полезные советы, neverix за поиск багов, @dealer_ai за выслушивание моего нытья, @seeallochnaya просто потому что.
Ну и да, очевидно это можно применять к любой задаче которая выглядит как: ну вот input, сделай output похожим на <единственный вариант ответа>
Примеры генераций:
Question: What part of a property may be next to a driveway? Answer: The next part is a house or garage or a garage
Question: Jamie wen to the theater near his home. He was surrounded by servicemen. Where might he be? Answer: in the outdoor.
🔥39👍5❤🔥1
#чтивонаночь
Extracting Training Data from Diffusion Models
В чем идея: любая модель выучивает в некоторой мере датасет, хорошая модель выучивает что у людей пять пальцев, два глаза, работают на полях черные и вот это все.
Идея поиска очень простая:
1) генерируем картинки по частотным промптам или out of distribution(случайный запрос чтобы модель сломалась)
2) смотрим какие из из них похожи на то что было в сете
А еще выяснилось что моделе нужно повторить сэмпл пару сотен раз чтобы она начала его воспроизводить с большой точностью и вероятностью, так что все неплохо, живем.
arxiv
Extracting Training Data from Diffusion Models
В чем идея: любая модель выучивает в некоторой мере датасет, хорошая модель выучивает что у людей пять пальцев, два глаза, работают на полях черные и вот это все.
Идея поиска очень простая:
1) генерируем картинки по частотным промптам или out of distribution(случайный запрос чтобы модель сломалась)
2) смотрим какие из из них похожи на то что было в сете
А еще выяснилось что моделе нужно повторить сэмпл пару сотен раз чтобы она начала его воспроизводить с большой точностью и вероятностью, так что все неплохо, живем.
arxiv
👍14
В 99% вузов на диплом можно пропихнуть полный бред, заметная часть преподавателей в высших учебных заведениях занимается эмитацией бурной деятельности, вузовские программы во многом состоят из воды.
ну чувак защитил диплом написанный gpt, но по моему проблема не в этом.
ну чувак защитил диплом написанный gpt, но по моему проблема не в этом.
X (formerly Twitter)
Aleksandr Zhadan (@biblikz) on X
Защитил диплом, написанный ChatGPT. Поделюсь, как организовал процесс, что услышал от людей о получившемся тексте и почему должен чизкейк. Вышло ненапряжно и прикольно!
👍50🤮13🤣6🐳2
Forwarded from Нейрокузня | DreamForge
Жабопёс, жабопёс...
Единственный в мире малыш жабопёс...
Единственный в мире малыш жабопёс...
❤🔥31🔥5
#чтивонаночь
Unnatural Instructions:
Tuning Language Models with (Almost) No Human Labor
4 генерация.
В чем идея: берем промпты для инструкций, учим модель на промптах, генерируем промпты, отбираем лучшие, повторяем, получаем неплохой ауг датасета в 100к раз не вставая с дивана!
папир
Unnatural Instructions:
Tuning Language Models with (Almost) No Human Labor
Example 1
Instruction: You are given a science question and four
answer options. Your task is to find the correct answer.
Input: Which part of a bicycle BEST moves in a circle? ...
Example 2
Instruction: Given a negative review, convert it to a positive
review by making minimal changes.
Input: we stood there in shock, because we...
Example 3
Instruction: Given two sentences taken from a
conversation, classify whether they are sequential or not.
Input: Noah: When and where are we meeting? :) …
Example 4
Instruction: In this task, you will be given a profile of
someone and your job is to generate a set of interesting
questions that can lead to a conversation with the person.
Input: Yvonne has been playing the violin since she was
four years old. She loves all kinds of music, but her favorite
composer is Bach.
Что из этого честный prompt, а что генерация? спойлер: папир
❤20
никто не знает зачем, но держите генератор логотипов.... @testlogogenbot
🔥20👍1
👍3