Отец работает в Амперке. Сегодня срочно вызвали на совещание. Вернулся поздно и ничего не объяснил. Сказал лишь собирать вещи и бежать в магазин за флипперами на две недели. Сейчас едем куда-то далеко за город. Не знаю что происходит, но мне кажется началось...
🤔30😁7🤮3🤡3🤨2🖕2
#чтивонаночь
Обзор статьи Scaling Laws for Reward Model Overoptimization или почему ChatGpt так хороша
“When a measure becomes a target, it ceases to be a good
measure" - cтатья открывается с этой фразы и это прям байт
Авторы используют довольно старую архитектуру - GPT + reward head - доп голова которая возвращает скалярное значение для RL параметров(подробно почитать про TRL можно тут), но важно отметить что авторы увеличили размер RL агента поверх GPT вплоть до 3b параметров.
Best of N sampling by OpenAI, april22
Идея такая - берем наше пространство возможных ответов(генераций), у нас есть некая прокси метрика R которую мы используем как степень "хорошести" ответа, и теперь мы можем ее оптимизировать с помощью KL дивергенции и это позволяет 3b модели работать лучше чем 175b модели!!
AI-Written Critiques Help Humans Notice Flaws OpenAI, june22 dataset
Идея такая - давайте дадим людям выбирать наиболее правильный вариант следующего токена для задачи сумаризации текстов из вики/откуда то еще, а но том что. люди выбрали - мы учим дискриминатор отбирать плохие ответы, оптимизируя составную метрику - Likert(1-7 как сильно понравилось) + Uncritiqueability(отличие от человека) + Win rate(количество правильных ответов дискриминатора)
Теперь вернемся к исходной статье, а.k. сhat gpt
Если в первых эксперементах(summarizing-books ) авторы использовали для разметки reward человека, то тут они пришли к RM(GOLD REWARD MODEL тоже GPT кстати),
Как это работает:
Авторы берут синтетику из InstuctGPT, и учат обычную GPT генерировать синтетику, сравнивая ее с GOLD MODEL(Instruct GPT) при этом они по сути взяли PPO(из оригинальной работы) и добавили дополнительного критика, а за счет того что модель учиться без участия человека - ее можно увеличить до какого угодно размера!!
Кстати да, Larger policies see less benefit from optimization against an RM, but don’t overoptimize more.
Кажется лучшая открытая версия трансформер + RL, но без BoN трюка и синтетики
Обзор статьи Scaling Laws for Reward Model Overoptimization или почему ChatGpt так хороша
“When a measure becomes a target, it ceases to be a good
measure" - cтатья открывается с этой фразы и это прям байт
Авторы используют довольно старую архитектуру - GPT + reward head - доп голова которая возвращает скалярное значение для RL параметров(подробно почитать про TRL можно тут), но важно отметить что авторы увеличили размер RL агента поверх GPT вплоть до 3b параметров.
Best of N sampling by OpenAI, april22
Идея такая - берем наше пространство возможных ответов(генераций), у нас есть некая прокси метрика R которую мы используем как степень "хорошести" ответа, и теперь мы можем ее оптимизировать с помощью KL дивергенции и это позволяет 3b модели работать лучше чем 175b модели!!
AI-Written Critiques Help Humans Notice Flaws OpenAI, june22 dataset
Идея такая - давайте дадим людям выбирать наиболее правильный вариант следующего токена для задачи сумаризации текстов из вики/откуда то еще, а но том что. люди выбрали - мы учим дискриминатор отбирать плохие ответы, оптимизируя составную метрику - Likert(1-7 как сильно понравилось) + Uncritiqueability(отличие от человека) + Win rate(количество правильных ответов дискриминатора)
Теперь вернемся к исходной статье, а.k. сhat gpt
Если в первых эксперементах(summarizing-books ) авторы использовали для разметки reward человека, то тут они пришли к RM(GOLD REWARD MODEL тоже GPT кстати),
Как это работает:
Авторы берут синтетику из InstuctGPT, и учат обычную GPT генерировать синтетику, сравнивая ее с GOLD MODEL(Instruct GPT) при этом они по сути взяли PPO(из оригинальной работы) и добавили дополнительного критика, а за счет того что модель учиться без участия человека - ее можно увеличить до какого угодно размера!!
Кстати да, Larger policies see less benefit from optimization against an RM, but don’t overoptimize more.
Кажется лучшая открытая версия трансформер + RL, но без BoN трюка и синтетики
👍14👎3🤡1🥱1
Love. Death. Transformers.
#чтивонаночь Обзор статьи Scaling Laws for Reward Model Overoptimization или почему ChatGpt так хороша “When a measure becomes a target, it ceases to be a good measure" - cтатья открывается с этой фразы и это прям байт Авторы используют довольно старую…
Тут минимум 20пхд ds кого я знаю лично - запилите кто нибудь человеческое объяснение оптимизацию как в chatgpt работает трейнлуп
🙏15👍1
Love. Death. Transformers.
Тут минимум 20пхд ds кого я знаю лично - запилите кто нибудь человеческое объяснение оптимизацию как в chatgpt работает трейнлуп
Знаете почему отказались от Human feedback?
Потому что трейнлуп включал в себя семь индусских залуп
Потому что трейнлуп включал в себя семь индусских залуп
👏43🤮5🖕4👎2👍1🏆1
Нет ничего страшнее 40летних, думающих что знают что нужно 13летним
🤔32👍24😁11😢1🤮1
ладно, давайте еще раз попробуем, тот самый бот который превращает вас в аниме, только кхм, в моей имплементации.
если у вас прилетает "колейдоскоп" - все хорошо, очередь сломалась, просто переотправьте
@photoVanimebot
если у вас прилетает "колейдоскоп" - все хорошо, очередь сломалась, просто переотправьте
@photoVanimebot
💩7💋6👍2
Самое полезное что есть у трансформера как у архитектры - устойчивость, оч сложно сделать так чтобы градиенты взорвались или на инференсе он разошёлся, поэтому 8бит обучение и инференс, вполне себе рабочая схема(скоро выйдет 4бит инференс, но его пока карты не поддерживают)
Ноутбук сборник всяких хаков
Автор: @kaggling
Ноутбук сборник всяких хаков
Автор: @kaggling
Kaggle
Optimization approaches for Transformers [Part 2]
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
🔥20👍2🤮1
bpe dropout: изобрели в 2018
люди до: выбрасывают буквы из слов для аугов текстов
люди до: выбрасывают буквы из слов для аугов текстов
😁28🤡8🤮3
Глобальная цель того что я делаю:
полечить стеблю чтобы с таким качеством она генерила по простым промтам качественные картинки с правильным количеством пальцев, но при этом не было необходимости накидывать куча prompt engineering_a.
Чо для этого сделано:
Unbias датасета, взяли сет, нагенерили blip_ом кэпшенов
Чо даёт: мы можем нарезать даты откуда угодно (сейчас нарезается Ева, гилби и куча рандом стафа)
Слегка изменил архитектуру(по другому берём эмбединги из клипа, по другому кормим в unet, unet морозим частями чтобы он не выебывался и сходился.
Некоторое приседания с aspect ratio датасетом чтобы собирать батчи с landscape/portrait картинками что позволяет не обрезать куски картинки.
полечить стеблю чтобы с таким качеством она генерила по простым промтам качественные картинки с правильным количеством пальцев, но при этом не было необходимости накидывать куча prompt engineering_a.
Чо для этого сделано:
Unbias датасета, взяли сет, нагенерили blip_ом кэпшенов
Чо даёт: мы можем нарезать даты откуда угодно (сейчас нарезается Ева, гилби и куча рандом стафа)
Слегка изменил архитектуру(по другому берём эмбединги из клипа, по другому кормим в unet, unet морозим частями чтобы он не выебывался и сходился.
Некоторое приседания с aspect ratio датасетом чтобы собирать батчи с landscape/portrait картинками что позволяет не обрезать куски картинки.
👍23🔥6❤🔥3🤡1
Алсо стебель оч специфично тюниться, у него мягко говоря не то поведение которое ждёшь.
Он как бы адекватно выучивает новый домен, но смещается в него очень специфично.
Самый короткий способ сместиться в правильный домен - потюнить CLIP, но качество сильно просядет
Он как бы адекватно выучивает новый домен, но смещается в него очень специфично.
Самый короткий способ сместиться в правильный домен - потюнить CLIP, но качество сильно просядет
🤔9🤡5❤1💩1
Как же сильно отсосали челы которые говорили: сейчас t2i убьёт фотостоки, но появились стоки промптов платные и с закрытой лицензией.
А и пока я не видел успешных примеров быстрых prompt predict сеток, поэтому это прям смешно
А и пока я не видел успешных примеров быстрых prompt predict сеток, поэтому это прям смешно
👍13🤡2❤1🔥1😢1