rizzearch

Reinformer: Max-Return Sequence Modeling for offline RL

Есть такая замечательная статья - Decision Transformer, которая показала, как можно совместить трансформеры и супервайзд лернинг в рле, преимущественно в оффлайн рле (потому что есть статический датасет, но идею обобщили и до онлайн сеттинга)

так вот, загвоздка в том, что от рля в постановке модели там данные - все обучение происходит в привычном супервайзд стиле, а награды (и конкретнее returns-to-go, сумма наград с определенного таймстепа до конца эпизода) являются частью входных данных. при инференсе, кстати, мы сами выбираем, какой награды хотим достичь - скользкая дорожка на пути к ООД

но можно ли как-то на хоть на йоту приблизить трансформеры к тому, чтобы они были более рльными в плане обучения?

авторы предложили пока самый легкий вариант, который есть - заставить модель самой предсказывать максимальные ретерны, которые можно получить из конкретных состояний, а уже по ним она далее предсказывает оптимальное действие - и это работает! правда надо еще справиться с оод проблемами в моделировании награды, а с этим справляется ассиметричный мсе лосс

да и в общем и целом, весь метод кодится максимум за вечер-два

как это и происходит очень часто, простые идеи выстреливают

👀LINK

👍3

376 views14:02

rizzearch

Effectiveness of an intermittent fasting diet versus regular diet on fat loss in overweight and obese middle-aged and elderly people without metabolic disease: a systematic review and meta-analysis of randomized controlled trials

Недавно был опубликован мета-анализ, который подтверждает эффективность периодического голодания.

Ученые проанализировали 9 рандомизированных контролируемых работ и пришли к выводу, что:

IF reduces BMI and triglyceride levels compared to a normal diet, primarily by reducing fat mass while maintaining lean body mass, making it a healthy and effective weight loss solution.

форрест плот все наглядно демонстрирует

👀LINK

🌭9👎1

364 views17:52

rizzearch

Я так понимаю, никто не обратил внимание, что тут рисерч по совершенно другой науке 🤔

🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

🥴8❤3

394 views18:01

rizzearch

Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent

ребятам из хаггинг фейс надоело, что так мало подвижек в рле в сторону foundation models, и они решили это исправить

вдохновившись результатами Gato с 596 тасками, где модель не завязана только на текстовых данных и может обрабатывать гетерогенные рл данные, авторы этой папиры решили пойти еще дальше - сделать модель поменьше, датасет тоже поменьше (157 тасок), но зато выложить в опенсурс и веса, и данные

итак, что же умеет авторский мульти таск трансформер, так называемый Jack of All Trades (JAT)?

- image captioning
- (funny) language modelling
- играть хорошо в атари
- нормально перформить в муджоко
- а так же BabyAI & MetaWorld
- так же моделька может декодить картинки, но авторы не обучали ее на это

не менее (а может и даже более) важен датасет, который они выложили - модальности в виде картинок реальных, текста и многих видов обсервейшнов из рл сред для разных тасок ⇒ с такой экипировкой и to the moon недалеко 🚀

👀LINK

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4😱4

483 views18:27

rizzearch

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Oh God, неужели наконец решили (холиварную) тему ограниченного контекста трансформеров - и получили бесконечный контекст при фиксированном компьюте брррррр

что же придумали авторы из гугла - давайте будем хранить в качестве памяти скользящее среднее (по сегментам) дот продакта между V и f(K), где f это какая-то нонлинеарити. затем такую память скармливаем с запросами (queries, Q) из нынешнего сегмента ⇒ получаем “аттеншн мапы” , которые потом суммируем взвешенного с обычным механизмом внимания ⇒ вот нам и бесконечный контекст, не так ли?

напоминает то, что придумали в TransformerXL, однако там история берется только по предыдущему сегменту, а не по всем, как тут. да и по сути компрессив мемори из инфини-аттеншна есть не что иное, как associative memory (которое мы упоминали здесь и здесь)

по факту это все выглядит как рнн со всеми ее недостатками (что вся история и память компрессится в один объект - в рнн в хидден стейт а тут в компрессив мемори) и при том без ее преимуществ, как бэкпроп во времени

к тому же и сами авторы отмечают, что их аттеншн по памяти происходит линейный - да, между нелинейными преобразованиями f(Q)f(K), но это не оч хорошо аппроксимирует софтмакс из стандартного аттна - а это сильно так бьет по перформансу на более сложных тасках (as far as I know)

коэффициент ЕМА, который соединяет аттеншн, полученный по предыдущей памяти, с аттеншном на данном сегменте (то есть классический) - обучаемый, но он никак не зависит от инпута - задается просто какой-то приор таким образом, ничем не лучше фиксированного гипера - его перебирать не надо руками или свипом, вот и вся разница

но если весь мой скепсис напрасен и это действительно работает - так только лучше 🙏

👀LINK

да, без лекций с индусами никуда

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👏3👍1

542 views14:13

rizzearch

Looped Transformers are Better at Learning Learning Algorithms

in-context learning (ICL)—the ability to infer a conditional or unconditional distribution over natural language strings simply by performing next-token prediction following a sequence of examples from the distribution of interest.

Повторили определение авторов отсюда (оно мне нравится)

трансформеры обычное большие, это да. и даже если они маленькие относительно других трансформеров, они будут скорее всего большими по сравнению с млп или еще чем-то (глубокая мысль.)

есть такого рода данные, которые подвержены итеративной структуре, например, learning algorithms, с которыми легко изучать и получать ICL

However, итеративная структура напрямую не введена в архитектуру трансформера, что может вызывать трудности для модели при обучении (несмотря на то, что и без этой структуры трансформер вполне отлично может справиться)

авторы решили посмотреть, а что может Looped Transformer, в котором есть итеративность (что кстати может ускорить модель из-за ее гораздно меньшего размера) ⇒ и у него получается лучше фиттиться на данных, в которых есть тенденция обучения (learning learning algorithms hehe)

who knows, может это найдет свой сильный отголосок в рл и смежных путях

👀LINK

👍5❤2🤔2

492 views16:25

rizzearch

SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking

авторы очень ясно подняли вопрос накопительной ошибки (как снежный ком) у авторегрессионных языковых моделей: если в какой-то момент на инференсе модель выдает оод относительно трейн данных, то дальше все идет по накатанной

если переформулировать вопрос генерации текстовых последовательностей как марковский процесс принятия решений (MDP, выглядит уже как тренд, потому что появлялось и здесь), то можно использовать наработки из imitation learning’a, которые минимизируют другие дивергенции, не KL, штрафующие оод выходы модели более жестко

И их можно использовать и в нлп таким образом - в этой работе используется хи-квадрат дивергенция, и не просто между распределением модели и данных, а между распределением модели и средним арифметическим обоих

Furthermore, авторы ввели новый токен, который значит backspace - если модель поняла, что надо откатиться, то она может это сделать ⇒ для этого надо было подправить процесс генерации и маскирования + это не вызывает проблем с KV кешем, просто роллимся назад если что

по результатам обгоняет стандартный сетап с Maxiumum Likelihood Estimation (который соответствует КЛ дивергенции) на генерации текста и арифметике, но с небольшим оверхедом из-за возможности бекапаться

👀LINK

👍4❤1

491 views12:53

rizzearch

Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs

We think, многие пользовались KV кешем (особенно при использовании флеш аттна)

тем не менее - при увеличении размера модели и длины последовательности для трансформера кеш тоже сильно по памяти занимает на девайсе

И авторы призадумались и увидели, что не все стоит хранить в кеше (идея синонимична с этим творением)

а потому они предложили 5 видов компрессии кеширования

- хранить в кеше, относящееся к специальным токенам (<s>, [INST] etc.)
- пунктуация - . , ?
- long-range контекст
- самые частые токены в последовательностях (называется Heavy Hitter, к чему есть вопросы)
- комбинация из вышеперечисленного

и вот как раз вопрос по поводу Heavy Hitter - если хранить только самые частые токены, то как решать задачи типа needle in a haystack, где иголка будет представлять из себя редкий токен? какой вообще резон такое делать, кроме как по памяти сэкономить, если это жоско портит потенциал модели (я действительно не смекаю)

по псевдокоду алгоритмов не до конца понятно как именно это имплементировать ( а код они кончено не приложили ), но видимо если почитать предыдущие работы, то можно разобраться (не оч круто для статьи с таким нарративом)

потенциал крутой - интересно, как такое скомбинировать квантизацией/дистилляцией и с другими видами аттеншна типа grouped-query, чтобы повысить эффективность еще поболе да и применимость в том числе

👀LINK

👍4

459 views17:55

About

Blog

Apps

Platform