rizzearch

Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations

по ощущениям, самый часто используемый шедулинг - косинусный. но он, как демонстрируют авторы, неоптимален.

он достигает оптимального лосса, когда длина кос цикла нацело делит количество апдейт степов обучения, но во время трейна перформанс хуже.

значит, чтобы черри пикнуть лучшие результаты модели, надо потренить с разным гипером цикла (я забыл как он называется но вы поняли, Т в псевдокодах), не считая перебор других гиперов ⇒ не айс, вот и многие забивают и не перебирают это

авторы предлагают альтернативу, которую уже прозвали трапецеидальным лр - переменная смена на линейный и константный шедулинг

и это суперски работает! достигает такого же перформанса, который может достигнуть косинусный шедулинг (не факт что не изобрести еще лучше шедулинг), при этом легче изучать результаты моделей при масштабировании кол-ва параметров, что супер круто и для ресерча и для продакшна

много графиков, которые показывают зависимость результата от новых гиперов в этом шедулинге, так что статья очень классная. есть даже подсекция про важность scaling laws

👀LINK

👍3311

340 views15:34

rizzearch

The Road Less Scheduled

мое видение статьи - авторам надоело настраивать warmup_steps параметр для шедулинга при обучении моделек и они углубились в теорию и сделали вообще такую надстройку над оптимизаторами, которым не нужен шедулинг (но иронично все равно нужен warmup_steps)

однако, механика шедулинга все же косвенно осталась, ее развили авторы на основе теории итеративного усреднения ⇒ новый метод, которому не нужен шедулинг, подразумевает из себя трейдофф между Polyak-Ruppert averaging & Primal Averaging. в общем авторы реально лютые

к тому же это все можно накинуть на уже существующие оптимизаторы, например на адамв + надо подбирать лернинг рейт вейт дикей снова - деталь, но важная

протестили много датасетов и много моделей в св и нлп (и не только, в общей сложности 28 тасок), правда меньше миллиарда параметров составляют

ну посмотрим, как теория на скейле больших моделей скажется

код есть, гиперы репортят, все круто

👀LINK

5🔥211

356 views11:31

rizzearch

Evidence of Learned Look-Ahead in a Chess-Playing Neural Network

помните статьи про то, что происходит внутри трансформера? (эта и эта) так вот эта крутота из той же истории

авторы взяли самую крутую модель, которая может играть в шахматы Leela Chess Zero, взяли оттуда трансформер модель без monte carlo tree search и остального. и там можно (как указывают авторы) рассматривать токены этог трансформера как позиции на шахматной доске → смотреть активации на токенах, аттеншн мапы на них и делать предварительные эмпирические выводы

аттеннш головы, как оказываются, могут распространять информацию о принятии решения вперед и назад во времени. при том leela может предсказывать почти всегда оптимальные действия на 2 шага вперед в игре (обучали классификатор чтобы проверить, выдал 92% аккураси). формально это называется look-ahead алгоритм, когда мы можем ветвиться в какой-то ситуации и смотреть, как то или иное ответвление влияет на итоговый результат (ветвление может быть рекурсивным а не одиночным)

а весь основной импакт вносила 12-ая аттеншн голова из 12-ого слоя. за что отвечают в большей степени другие головы - неизвестно, наверняка тоже что-то свое обрабатывают из тех битмап, которые подаются на инпут, что заделка на future work (ну или опять доказательство что трансформер почти линеен)

при том это происходит не всегда - авторы утверждают, что находили ситуации, которые не походили на манер тактики/стратегии или еще чего-то такого. но эвиденс о том, что look-ahead присутствует, говорит о многом

в чем вывод? внутри трансформера в который раз происходит что-то алгоритмически осмысленное, вместо непонятных нами процессов, которые в совокупности давали бы желательный результат ⇒ кто знает, что будет дальше

👀LINK

5🔥432

317 views15:37

rizzearch

Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

какая боль, какая же боль этот инференс ллмок по скорости и компьюту, но Tri Dao банда решила внести вклад в решение этой проблемы

а именно они продолжают идею спекулятивного декодинга - первый токен последовательности генерируется ллмкой, а дальше остальное генерирует доп модель (мелкая), которая на каждом шаге основывается на своей генерации и первом токене ллмки

так вот, авторы навешивают сверху ллм декодер головы (небольшие модели, оперируют над выводом ллм первого токена и хидден стейта), которые параллельно генерят токены ⇒ уходим от последовательной генерации, получаем спидап + легко внедрить к существующим моделям. а файнтюнить попробовать можно только добавленные драфт модели

уже с этим происходит ускорение в 1.5 раза, но так же с этой идеей объединяется то, что авторы назвали tree attention, при том sparse tree attention structure, по которой пробегается жадный алгоритм для выбора самых топовых путей из дерева аттеншна (не путать с бим серчем) (ограничиваются 64 штуками)

показывают ускорение в 2.3-2.8 раза на 7b, 13b , 33b моделях если файнтюнить все, а если только спекулятивные головы, то ~2.2. по мне полный разнос и супер крутая идея

👀LINK

❤4👍22🔥1

417 views18:06

rizzearch

Emerging Properties in Self-Supervised Vision Transformers

🕔 RIZZEARCH THROWBACK 🕔

Авторы делают SSL, мотивируясь дистилляцией. В стандартной дистилляции мы минимизируем кросс-энтропию между распределениями вероятностей ученика и учителя. Чтобы адаптировать этот подход под SSL, по классике добавляют два представления картинки (в нашем случае картинка и ее локальные кропы). Все кропы кодируются через student сеть, когда global views через учителя. Так выучиваются “локально-глобальные” признаки

Для того, чтобы избежать частую проблемы коллапса, используют EMA обучение учителя → это вносит некую асимметрию в веса. Также делают центрирование фичей с учителя, для того, чтобы избегать коллапса из-за склона в определенное измерение. Дополнительно, чтобы избежать uniform коллапс для учителя используют низкую температуру в софтмаксе → распределение имеет более высокую дисперсию

Еще вишенка, что признаки SSL ViTа классно подходят для downstream задач, что авторы показывают в статье. Вообще эта работа (и скажем BYOL) положила некое начало методам self-distillation и до сих поря влияет на современные методы SSL

👀

LINK

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

54❤11

308 views19:28

rizzearch

Recurrent Drafter for Fast Speculative Decoding in Large Language Models

мы упоминали медузу, которая нехило ускоряет инференс ллм. а авторы из эпл решили пересмотреть парадигмы, которые внесли предыдущие авторы и получили ReDrafter

- драфтер от эпл авторов с одной головой (рнн), в отличие от параллельной медузы с несколькими головами
- у редрафтера рекурретная природа, что позволяет напрямую использовать бим серч, и это кстати позволяет использовать и другие техники, как rejection sampling & дефолт акцептование
- меняют статический разреженный tree attention на динамический, который работает чуть по-другому

а вот работает он красиво - из-за рекуррентной составляющей авторы так же сохраняют компьют тех токенов, которые уже были сгенерены, сделали свои фунцкии префиксного матча для этого, а уже потом идет процедура дерева аттеншна вместе с beam search

по скорости превосходит медузу, правда нету экспериментов с моделью размером 33b

код кстати очень даже хороший

👀LINK

43❤11

365 views17:39

rizzearch

Offline Regularised Reinforcement Learning for Large Language Models Alignment

как выглядят данные для алаймента сейчас? неважно рлхф или дпо - они состоят из промпта, двух ответов на него и оценкой от человека, что норм а что нет. довольно дорогостояще

авторы решили свести данные к single-trajectory сеттингу, когда у нас есть промпт-ответ-человеческая_оценка. последнее подразумевает лайк/дизлайк или что поинтереснее по сравнению с желаемым и нежелаемым ответами

и дальше это все поближе подходит к концепции из рля - обучается политика вместе с функцией ценности (value function), которая в алайменте имеет связь с референсной политикой и примерно показывает как хорошо она перформит. не то, что принято за функцией ценности в обычном рл

да и оказывается value function выполняет другие задачи в оптимизации в отличие от рл сеттинга - ее самое важное назначение в том, чтобы убрать смещение в вычислении градиентов для политики

также они меняют кл дивергенцию на оффлайн регуляризацию что тоже стабилизирует картину и улучшает результат

красивых графиков нет, только сухие таблички с репортами результатов, как они обыгрывают KTO на UltraFeedback датасете, ну и не поставлен вопрос скейла ллмок, но это как обычно future work

👀LINK

🔥3111

350 views16:55

rizzearch

Preference Learning Algorithms Do Not Learn Preference Rankings

обучаем в алайменте через преференции-преференции, а выучиваются ли действительно эти преференции?

упс, к сожалению или счастью - нет. авторы рассчитывают это через ранкинг аккураси (когда модель смогла пикнуть более предпочитаемый аутпут) и показывают, что между идеализированным аккураси, которое они тоже выводят, и аккураси модели есть довольно сильный пробел

при том, в начале обучения ранкинг аккураси более менее норм, и это коррелирует с тем, что в алайменте зовут вин рейтом, но затем при обучении корреляция снижается. то есть модель, обучаясь ранжировать аутпуты по преференциям, начинает делать это хуже, чем если ее не алайнили

загадка от жака фреско - что происходит внутри моделей во время алаймента в связи с таким контринтуитивным эвиденсом?

👀LINK

4👍111

333 views17:52

About

Blog

Apps

Platform