rizzearch
1.01K subscribers
988 photos
11 videos
320 links
Кайфули на каждый день

Авторы:
@zzmtsvv
@maxnygma (AI4Science посты)
Download Telegram
Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining

Для тех, кто любит теорию, теорию в рл, теорию в ин-контекст + рл😈

Мы уже упоминали один алгоритм ин-контекст рл (ICRL) - DPT, по нашим сведениям пока это единственный теоретически обоснованный такой алгоритм. Но возможно ли привести единую теорию под тот же AD? Чтобы перед эмпирическими результатами мы могли иметь хоть какое-то - не только интуитивное - представление о результатах?

Авторы смогли привести transformer-based модели к общей теории. Получили ожидаемые результаты о сходимости к оптимуму, что отлично, поскольку если было бы иначе - в теории не сходилось бы к оптимальной награде или что-то еще, то алгоритмы пришлось бы переделывать скорее всего)

Но, казалось бы, вся эта теория нужна только под AD, потому что это чисто эвристический алгоритм, в отличие от DPT. Но не совсем так - основные выводы таковы, что алгоритмы подойдут к оптимальному решению настолько, насколько это “позволяет” трейн датасет (приходят ли модели из оффлайн датасета к оптимальному решению или около-оптимальному) + необязательно получать для DPT оптимальные действия извне, при помощи оракула, которого почти невозможно получить в реальных задачах

DPT, как и AD, в качестве оптимальных действий достаточно получать то, что выдают обученные сингл-таск модельки ⇒ и то, и то сойдется

В принципе теория несложная, потому что исходит из постановки задачи как Supervised Learning’а. С нее частично можно начать вкатываться в современный рл имхо

👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🥰1
Generalization to New Sequential Decision Making Tasks with In-Context Learning

До этого ин-контекст рл проверяли на относительно простых, известных средах (Darkroom & MuJoCo). Авторы решили испытать на известных cвоей сложностью MiniHack & Procgen, которые также включают в себя задачи на эксплорейшн, навигацию/планирование и использование инструментов + много различных левелов в тасках

И встает вопрос - а возможно ли в этих, более сложных и вариативных средах, так же получить ин-контекст? При том такая постановка настолько сложна, что на трейновых средах играешь за рыбу🐠 и пытаетесь скушать как можно больше всего, а во время тестирования заставляют в качестве ниндзя🥷

Йо, и такое возможно! Но стоит сделать достаточно большой датасет (десятки тысяч траекторий с разных уровней на каждую таску, коих десятки), иметь доступ к оптимальным действиям (как обычно) и правильно аугментировать - семплить разные траектории из тех же уровней, чтобы нивелировать меморизацию и сподвигнуть к генерализации

К тому же в качестве контекста можно на пальцах пересчитать, сколько эпизодов нужно для достижения оптимума (7) 😎

👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
ChAda-ViT : Channel Adaptive Attention for Joint Representation Learning of Heterogeneous Microscopy Images
CVPR 2024

🔬🦠🧬

В биологии есть большое количество различных данных и они отличаются своей структурой. Одна из важных задач - создания эффективных унифицированных репрезентация для биологических данных для последующего использование в тюнинге на различные задачи

Очевидно, есть серьезная проблема - данные сильно отличаются в количестве каналов. Основные и базовые подходы делают фокус на интра-канальных пространственных фичах и часто игнорируют связь между каналами

Авторы предлагают Channel Adaptive Vision Transformer, который способен кодировать данные с вариативным количеством каналов. Делается это с помощью создания патчей по каналам, маскирования и паддинга как в SSL для ViT. При обучении добавляют позиционные и канальные эмбеддинги. Первые используются для обработки spatial информации между каналами, а вторые для обучаются на связях патчей внутри каждого конкретного канала. Такой подход позволяет модели различать между патчами на одной позиции, но в разных каналах

В экспериментах показано, что ChAda-ViT имеет качественные аттеншен мапы на последнем слое, что подтверждает хайп

👀 LINK
2👍2
In-Context Exploration-Exploitation for Reinforcement Learning

О том, как не надо писать статьи (несмотря на то, что приняли на ICLR 24)

Уже очень много мы успели упомянуть об ин-контекст рл - и везде для достижения такого надо много данных как во время обучения, так и во время инференса для накопления контекста, поскольку исследование новых сред происходит не так быстро. Было бы неплохо такое нивелировать. А как?

Авторы встраивают в инференс доп модель, которая производит явный трейд-офф между exploration/exploitation, при этом они не делают байесовский инференс явно, встраивая свой алгоритм в трансформер ⇒ скорость сходимости к оптимальной награде меняется с сотни эпизодов до десятка.

А в чем тогда проблема? Да вообще непонятно, как в коде устроена эта их модификация. Есть псевдокод, но он выдает больше вопросов, чем ответов, а авторы никакой код и не прикладывают

Вот так и получаем - по идее новая СОТА, но по ней мало что понятно

👀LINK
3
XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX

Вспоминая феномен JAX сред, наши замечательные авторы решили расширить его и на понятие ин-контекст рля, да при том сделать это мега круто!
А почему круто?

- вдохновлены сложностью XLand’a и минималистичностью MiniGrid’a
- древовидная система правил, которая определяет конкретную таску (а значит может легко варировать сложность и разнообразность)
- возможность обучения сингл-таск и мета-агентов
- триллион шагов за 2 дня обучения!!!

А как такая библиотека помогает продвинуться области? Даже самые легкие задачи из бенчмарков вызывают затруднение как для обычных, так и для мета алгосов. На определенных задачах только после 1 миллиарда/триллиона шагов один агент начинает хоть что-то выучивать. Такой долгий разгон означает, что потолок в сложности тасок пробит, и теперь есть удобный и невероятно быстрый фреймворк, на котором можно улучшаться

👀LINK
❤‍🔥7👍1
AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents

Another cool paper на узкую и сложную, но тем не менее потенциально хайповую тему

В основном в ин-контекст рл обучают агентов, завязанных на концепции памяти и обрабатывают последовательности в том или ином виде (рнн, трансформер, ссм) ⇒ результат, как и во всем рл, очень жестко зависит от технических деталей при имплементации, к тому же пока еще нет полной связи с устоявшимися концепциями рл

амаго делает боооольшой такой шаг на пути к тому, чтобы скомбинировать sequential модели и goal-conditioned Q-learning + оптимизирует код, чтобы сделать метод масштабируемым и максимально емким во всех смыслах

- адекватно кодирует данные относительно длины последовательности чтобы не засорять память
- закручен офф-полиси актор-критик с общим бекбоном
- они не просто улучшают существующие ин-контекст результаты, но и расширяют задачи с условными целями

В общем конфетка

👀LINK
🎉4
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

дипмаинды представили интересный гибрид - что-то между трансформером, ссм и рнн, но ни одно из них, но поближе все-таки к трансформеру🤓

Идея довольно нужная и в некотором смысле даже вечная - трансформер медленный в инференсе и ограничен длиной последовательности, в остальном просто чудо, хотим получить идеал.

Авторы в известном трансформер блоке меняют аттеншн на то, что они называют gated linear reccurence + локальный аттеншн ⇒ быстрее трансформера на инференсе, на трейне так же эффективно. Еще показывают, что экстраполируется на бОльшую длину последовательности чем во время обучения

И еще есть код что тоже круто🥸

👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
A Brief Look at Generalization in Visual Meta-Reinforcement Learning

Мы уже говорили о проблемах генерализации ин-контекст рл агентов, а что насчет классичных мета-рл алгоритмов - есть ли у них проблемы с этим? Авторы решили протестить на средах с визуальными обсервейшнами (данными, которые содержат не всю информацию, чтобы можно было ее решить в рамках МДП - получаем ПОМДП)

И, к удивлению, у мета-рл алгоритмов наблюдается оверфит с сохранением генерализации! То есть, качество на трейновых тасках достигается выше, чем на трейновых - даже на простом сеттинге Мета-Ворлда (графики прикрепленные по другим средам)

Так же наблюдаются проблемы со скейлом - чем больше тасок алгоритмы видят во время трейна (а в постановке и возможно такое, что на трейне нужны тысячи тасок, чтобы во время инференса хорошо перформить на тысяче других), тем сложнее норм обучаться модели, исключение разве что составляет RL^2

В общем, не рл, а целое непаханное поле 😇

👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👀1
Time-Efficient Reinforcement Learning with Stochastic Stateful Policies

Проблема взрыва или затухания градиентов в обучении рнн является проблемой в том числе и в рл, а точнее в задачах, где надо принимать действия в соответствии с предыдущей историей из-за неполноты выдаваемых данных для достижения оптимальности

Да и в целом присутствует проблема не только с градиентами, а со всем Truncated Backpropagation Through Time (Truncated BPPT), потому что он смещает обновление модели из-за ограниченной длины

Авторы смогли нивелировать эту проблему в рл путем введения stochastic internal state - штукой, которую дополнительно будет моделировать наш алгоритм рл на каждом шаге, пытаясь вместить в себя релевантную информацию о среде. Таким образом модель не привязана к длине контекста по сравнению с BPTT

Главная заслуга авторов в том, что они смогли аккуратно это ввести в существующие методы, модификаций в коде немного, вычисление градиентов происходит так, как и задумано, по теории получается unbiased решение, а на практике быстрее обучатся и награды больше

👀LINK
🍾5