Love. Death. Transformers.
22.5K subscribers
4.24K photos
498 videos
76 files
2.78K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Отец работает в Амперке. Сегодня срочно вызвали на совещание. Вернулся поздно и ничего не объяснил. Сказал лишь собирать вещи и бежать в магазин за флипперами на две недели. Сейчас едем куда-то далеко за город. Не знаю что происходит, но мне кажется началось...
🤔30😁7🤮3🤡3🤨2🖕2
Forwarded from russiansinlondon
16🤮6💩2🤡1
#чтивонаночь
Обзор статьи Scaling Laws for Reward Model Overoptimization или почему ChatGpt так хороша

“When a measure becomes a target, it ceases to be a good
measure" - cтатья открывается с этой фразы и это прям байт

Авторы используют довольно старую архитектуру - GPT + reward head - доп голова которая возвращает скалярное значение для RL параметров(подробно почитать про TRL можно тут), но важно отметить что авторы увеличили размер RL агента поверх GPT вплоть до 3b параметров.

Best of N sampling by OpenAI, april22

Идея такая - берем наше пространство возможных ответов(генераций), у нас есть некая прокси метрика R которую мы используем как степень "хорошести" ответа, и теперь мы можем ее оптимизировать с помощью KL дивергенции и это позволяет 3b модели работать лучше чем 175b модели!!

AI-Written Critiques Help Humans Notice Flaws OpenAI, june22 dataset

Идея такая - давайте дадим людям выбирать наиболее правильный вариант следующего токена для задачи сумаризации текстов из вики/откуда то еще, а но том что. люди выбрали - мы учим дискриминатор отбирать плохие ответы, оптимизируя составную метрику - Likert(1-7 как сильно понравилось) + Uncritiqueability(отличие от человека) + Win rate(количество правильных ответов дискриминатора)


Теперь вернемся к исходной статье, а.k. сhat gpt
Если в первых эксперементах(summarizing-books ) авторы использовали для разметки reward человека, то тут они пришли к RM(GOLD REWARD MODEL тоже GPT кстати),
Как это работает:
Авторы берут синтетику из InstuctGPT, и учат обычную GPT генерировать синтетику, сравнивая ее с GOLD MODEL(Instruct GPT) при этом они по сути взяли PPO(из оригинальной работы) и добавили дополнительного критика, а за счет того что модель учиться без участия человека - ее можно увеличить до какого угодно размера!!

Кстати да, Larger policies see less benefit from optimization against an RM, but don’t overoptimize more.


Кажется лучшая открытая версия трансформер + RL, но без BoN трюка и синтетики
👍14👎3🤡1🥱1
Love. Death. Transformers.
Тут минимум 20пхд ds кого я знаю лично - запилите кто нибудь человеческое объяснение оптимизацию как в chatgpt работает трейнлуп
Знаете почему отказались от Human feedback?
Потому что трейнлуп включал в себя семь индусских залуп
👏43🤮5🖕4👎2👍1🏆1
Нет ничего страшнее 40летних, думающих что знают что нужно 13летним
🤔32👍24😁11😢1🤮1
ладно, давайте еще раз попробуем, тот самый бот который превращает вас в аниме, только кхм, в моей имплементации.

если у вас прилетает "колейдоскоп" - все хорошо, очередь сломалась, просто переотправьте

@photoVanimebot
💩7💋6👍2
❤‍🔥13💩6👍2👎2🤮1
Самое полезное что есть у трансформера как у архитектры - устойчивость, оч сложно сделать так чтобы градиенты взорвались или на инференсе он разошёлся, поэтому 8бит обучение и инференс, вполне себе рабочая схема(скоро выйдет 4бит инференс, но его пока карты не поддерживают)

Ноутбук сборник всяких хаков

Автор: @kaggling
🔥20👍2🤮1
ChatGPT прекрасна
👌557🌚3💩2👍1🤮1
bpe dropout: изобрели в 2018
люди до: выбрасывают буквы из слов для аугов текстов
😁28🤡8🤮3
Решил проблему пальцев, а чего добился ты?

Код и текст выпущу если найду раба который починит вае
🔥573👍2
Глобальная цель того что я делаю:

полечить стеблю чтобы с таким качеством она генерила по простым промтам качественные картинки с правильным количеством пальцев, но при этом не было необходимости накидывать куча prompt engineering_a.

Чо для этого сделано:
Unbias датасета, взяли сет, нагенерили blip_ом кэпшенов

Чо даёт: мы можем нарезать даты откуда угодно (сейчас нарезается Ева, гилби и куча рандом стафа)

Слегка изменил архитектуру(по другому берём эмбединги из клипа, по другому кормим в unet, unet морозим частями чтобы он не выебывался и сходился.

Некоторое приседания с aspect ratio датасетом чтобы собирать батчи с landscape/portrait картинками что позволяет не обрезать куски картинки.
👍23🔥6❤‍🔥3🤡1
Угадайте что из этого ванильный трейн из pl/репы диффузии, а что модифицированный мой.
😁18🔥1🤡1
Алсо стебель оч специфично тюниться, у него мягко говоря не то поведение которое ждёшь.
Он как бы адекватно выучивает новый домен, но смещается в него очень специфично.

Самый короткий способ сместиться в правильный домен - потюнить CLIP, но качество сильно просядет
🤔9🤡51💩1
Как же сильно отсосали челы которые говорили: сейчас t2i убьёт фотостоки, но появились стоки промптов платные и с закрытой лицензией.

А и пока я не видел успешных примеров быстрых prompt predict сеток, поэтому это прям смешно
👍13🤡21🔥1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
Вам это надо
👍51😁26🔥7❤‍🔥5🤯5🤡5👏2
мем для людей с iq 83
👍35🔥12😁5🤮1
А найти надо r окружности, 1/4 которой вписана в квадрат, задача детская решается в две строчки
🥴16👍9🥱5🤡4👌3