rizzearch

Time-Efficient Reinforcement Learning with Stochastic Stateful Policies

Проблема взрыва или затухания градиентов в обучении рнн является проблемой в том числе и в рл, а точнее в задачах, где надо принимать действия в соответствии с предыдущей историей из-за неполноты выдаваемых данных для достижения оптимальности

Да и в целом присутствует проблема не только с градиентами, а со всем Truncated Backpropagation Through Time (Truncated BPPT), потому что он смещает обновление модели из-за ограниченной длины

Авторы смогли нивелировать эту проблему в рл путем введения stochastic internal state - штукой, которую дополнительно будет моделировать наш алгоритм рл на каждом шаге, пытаясь вместить в себя релевантную информацию о среде. Таким образом модель не привязана к длине контекста по сравнению с BPTT

Главная заслуга авторов в том, что они смогли аккуратно это ввести в существующие методы, модификаций в коде немного, вычисление градиентов происходит так, как и задумано, по теории получается unbiased решение, а на практике быстрее обучатся и награды больше

👀LINK

🍾5

450 views11:47

rizzearch

Наш первый Дайджест по In-context Reinforcement Learning!

1. In-context Reinforcement Learning with Algorithm Distillation - гениально простая идея, которую запатентовал гугл (кажется, началось…)

2. Structured State Space Models for In-Context Reinforcement Learning - расширяем границы ассоциативного скана

3. Supervised Pretraining Can Learn In-Context Reinforcement Learning - нетривиальная теория в рл/трансформерах, которая все разносит
(почти)

4. зарезервировано под https://arxiv.org/abs/2312.12275

5. Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining - область не считается отдельной, если для нее не пытаются сделать свою теорию meow

6. Generalization to New Sequential Decision Making Tasks with In-Context Learning - любая прорывная идея должна выстоять усложнение задачи, что и происходит тута

7. In-Context Exploration-Exploitation for Reinforcement Learning - вроде очередной breakthrough, но пощупать нелья

8. XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX - to the moon в усложнении и количестве задач при помощи джакса

9. AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents - критически анализируем прошлые технические детали, оптимизируем их ⇒ профит

10. Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning - узнаем глубже, что происходит внутри трансформера при помощи ин-контекст рл

11. Towards General-Purpose In-Context Learning Agents - попытка лабы шмидхубера не отставать от тренда

12. In-Context Reinforcement Learning for Variable Action Spaces
- вводим в область проблему произвольного количества действий и (частично) решаем ее

13. Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning - попытка сблизить человеческое социальное обучение и ин-контекст рл

14. зарезервировано под https://arxiv.org/abs/2406.08973

15. In-context learning agents are asymmetric belief updaters - связь инконтекст лернинга с человеческими паттернами

16. In-Context Imitation Learning
via Next-Token Prediction - переносим концепцию на имитейшн лернинг и получаем профит

17. Retrieval-Augmented Decision Transformer: External for In-Context RL - добавляем faiss с индексированной базой к алгоритмам => улучшаем результат и снижаем размер контекста

18. LLMs Are In-Context Reinforcement Learners - ллмки тоже могут в ин-контекст рл, и при том даже лучше чем при классическом ин-контекст сетапе

19. ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI - эмбодиед сетап + увеличение контекста

Feel free to enjoy the papers with us!

❤6🔥6👍3

684 viewsedited 11:41

rizzearch

Коллеги, поделитесь, на какие темы/статьи вы хотели бы увидеть дайджесты/посты в ближайшем будущем в нашем канале 🤩

Please open Telegram to view this post

VIEW IN TELEGRAM

374 viewsedited 12:02

rizzearch

Policy graphs in action: explaining single- and multi-agent behaviour using predicates

Небольшой папир о библиотеке, которая находится в разработке. Цель ее благая и очень крутая - привнести “объяснимость” в действия, которые предпринимает один или много агентов

А что значит эта самая объяснимость в плане обучения с подкреплением? Когда мы можем построить алгоритм, похожий по поведению на агента, и ответить с помощью него на вопросы по поводу процесса принятия решений:

- Что ты сделаешь, оказавшись в состоянии X?
- Когда ты совершишь действие А?
- Почему ты не совершил действие А в состоянии Х?

Достигают этого авторы, выстраивая граф по пути принятия решений, конвертируют состояния-действия в предикаты и далее с ними оперируют для достижения Explainability

Profound работа, поскольку она продвигает коммьюнити к бОльшему доверию к рл моделям и их последующей интеграции в социо-технические системы (что бы это ни значило🥸)

👀LINK

👍3

353 views15:47

rizzearch

Is Cosine-Similarity of Embeddings Really About Similarity?

Чего греха таить, у нас у всех в голове есть установка, что cosine similarity показывает сходство между эмбеддингами, а потому это супер удобный метод для привнесения нужной семантики в модель

Невероятно, но не факт!)

Авторы из нетфликс провели анализ линейных автоэнкодеров (если говорить не по диплерновски, то они анализировали модели матричной факторизации) с регуляризацией. Оказывается, можно так попасть в просак с этой регуляризацией, что она будет отвечать за значение dot-product’a, что (почти) есть cosine similarity. А что именно выучила модель - да хрен его знает

Также авторы спекулируют, что подобное может встречаться и в дип лернинге, с чем можно согласиться - на каждом слое применяется своя регуляризация и нет-нет да и да ⇒ где-то такая же неприязнь может быть

Но нивелируется (по их словам) это довольно легко - не забывайте добавлять леернорму + побольше задумываться о том, куда именно вы применяете этот косинус (в каком именно пространстве, почему оно вам надо именно там, не происходит ли какой-то очевидной утечки во время обучения как, например, неправильно подобранного семплинга к дисбаланс датасету и все такое).

Общий вывод таков - не тыкайте свой пестик в любую тычинку, чтобы получить желаемые результаты по метрик лернингу.

The devil’s in the details 😈

👀LINK

😁6❤2👀1

417 views16:04

rizzearch

State Spaces Aren't Enough: Machine Translation Needs Attention

Мы уже упоминали неидеальность ССМ. До этого еще авторы из эпл показали, что ссм (в частности, S4) не может так же хорошо в перевод как и трансформер (благодаря аттеншну). При том там почти в 4 BLEU отставание

Спекулируют они тем, что ссм в принципе по построению не может выстраивать потокенные представления, которые позволяют связывать две последовательности на разных языках, пушто ссм всю последовательность запихивает в репрезентацию фиксированного размера, а из этого потокенно что-то вытащить уже сложно

Аттеншн же по построению делает обратное

К тому же для пущей полноты они представили свою гибридную архитектуру, где весь селф-аттн заменяют на S4, оставляют кросс-аттеншн и картина становится похожей на обычный трансформер

👀LINK

🤔3👀1

358 views06:56

rizzearch

Resurrecting Recurrent Neural Networks for Long Sequences

Относительно давняя статья, которую уже можно считать базой

дипмаинды решили освежить рннки и привнести в них заново жизнь. они смогли получить такой же скор на Long Range Arena, что и ссмки, не уступая по вычислительной эффективности

Для этого пришлось уйти от парадигмы - убрать нелинейность из рнн блока. и хоть по теории это звучит абсурдно, потому что именно эта нелинейность (сигмоида, танх) позволяет рннке быть полной по Тьюрингу, но “линейная” рнн достигает даже лучшего результата чем классические сетапы

но этого недостаточно, чтобы получить такую же эффективность, как и ссм. как и стейт-спейс модели, авторы обучают свою новую рннку матрицами комплексных пространств чтобы получить такую же способность к выявлению паттернов, а так же

- диагонализуют обучаемые матрицы и часть обучения происходит в комплексно-диагональном пространстве, пространстве собственных значений
- заменяют HiPPO инициализацию на более легкую, известную всем формулу еще с первого курса университета (назвали ее stable exp parametrization)
- добавляют зависимую от “обучаемых eigenvalues” нормализацию, которая привносит постоянство, схожее с диффурами, которые стоят за ссм

И получается интересный Linear Recurrent Unit (LRU) 🫡

P.S. мы писали до этого про

гибрид

от тех же дипмаиндов, где они используют Real-Gated LRU, которые сами придумали. основное отличие - уходят от комплексных пространств, потому что по их опыту комплексные пространства плохо справляются с language modelling. pay attention to the evaluation protocol😎

👀LINK

👍4🔥3❤1👀1

402 views18:23

rizzearch

Learning from Active Human Involvement through Proxy Value Propagation

Еще одна крутая статья с крутой и одновременно простой идеей, которая расширяет границы привычного обучения с подкреплением

Общая проблема всех областей в рл - необходимость собрать огромный датасет, чтобы выйти хотя бы на субоптимальный уровень, а если и оптимальный, то потеть надо еще сильнее

Авторы подумали - так а может уберем потребность в большууууущем датасете? А как? Ну, видимо через демонстрацию того, как надо сразу действовать оптимально. Окей, но такое уже было - собирают датасеты с оптимальной разметкой, проблемы убавляются, но несильно.

А что если вообще не собирать огромный датасет, а посмотреть что выучит алгоритм, если человек будет постоянно “на связи” - сможет в любой момент перехватить контроль на себя и показать, как надо действовать? А сделаем это через модификацию Value functions ⇒ Proxy Value Functions, или PVP (уже похожее делали здесь)

И как ни странно, это работает! Вы только чекните графики - алгоритм таким образом в ГТА 5 может до конца маршрута в гонке доехать на ламбе (PVP выигрывает в гонках гта, interesting)

Помимо гта там еще авторы показывают анализ лосс функций и выводят связь с CQL, что нетривиально и вообще супер, тк говорит о том, что мы идем в правильную сторону

👀LINK

❤4

322 views15:48

rizzearch

Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

Заводить трансформер и ждать пока обучится - Как страшный сон порой, не правда ли? Все через это проходили и проходят

Но! авторы (дипмаинд, конечно же) призадумались и поняли, что не на все части входных последовательностей нужно одинаковое количество вычислительных ресурсов (ну это давно поняли до них, но они решили это элегантно). Формально говоря, не всем нужно такое же количество компьюта (ФЛОПов), а значит, этой вещью можно сэкономить. но как?

Вот здесь производят аналогию с МоЕ - а давайте динамически решать пропускать ли токен через весь слой трансформера или нет при помощи обучаемого роутера, который будет выдавать вес для каждого токена, а мы будем отсекать все кроме top-k ⇒ экономим в количестве вычислений, модель работает быстрее (да и по памяти последовательность меньшей длины по факту засовываем в трансформер)

Почему именно top-k? Ведь это по сути лишний гиперпараметр - да, но таким образом мы получим граф вычислений с заранее известными размерами тензоров, иначе без этого скорость была бы такой же + можно задаться вопросом, что выбор к токенов из последовательности нарушает каузальность трансформера, и это они тоже решают доп лоссом, который ставит все на свои места при инференсе

В общем статью не грех прочитать самому - довольно понятно и интересно все написано. особенно забавляет тот факт, что есть отдельный пункт Implementing Mixture-of-Depths Transformers, а кода нет

👀LINK

💯7👍4

347 views12:42

rizzearch

Bootstrap your own latent: A new approach to self-supervised Learning

И хоть статья относительно старая и такие цифры на ImageNet’е не удивляют, идея все равно красивая

В основном мы привыкли, что выучивание внутренних адекватных семантических представлений складывается из контрастив лернинга, показывая модели, какие эмбеддинги должны быть ближе друг к другу, а какие дальше.

By the way, с этим могут возникнуть проблемы, поскольку упирается в распределение классов и вопросу того, а как именно собирать батч в процессе обучения, чтобы получать адекватные пары или триплеты

дипмаинды, в который раз, смогли показать хороший результат в другом сетапе: стабилизируем внутренние представления модели путем *бутстраппирования*

Что это значит? Мы создаем копию модели (назовем ее таргетом), через которую не будет проходить градиент, основная обучаемая модель будет онлайн моделью. Входную картинку аугментируем двумя разными способами, подаем в онлайн и таргет и минимизируем лосс между аутпутами

Дополнительно к этому таргет модель обновляется через exponential moving average (EMA) ⇒ стабилизируем получение эмбеддингов через придание “не столь резкого появления разницы” между аутпутами

Обогнали соту того времени, а какую цену заплатили? Всего лишь добавили один гиперпараметр - коэффициент, относящийся к ЕМА, а остальное в трейн лупе довольно дефолтно

И да, идею наверняка позаимствовали из рл, где почти всегда используют

target Q-networks

для подобной же стабилизации обучения через уравнение Беллмана. И мы писали, что от этого

некоторые

пытались отказаться

👀LINK

🤩3

331 views08:49

About

Blog

Apps

Platform