Does RL work yet? – Telegram

Does RL work yet?

430 subscribers

53 photos

9 videos

1 file

65 links

rl research by @howuhh

howuhh.github.io | dunnolab.ai

Download Telegram

About

Blog

Apps

Platform

Does RL work yet?

430 subscribers

Does RL work yet?

Forwarded from ду́но

Мы ищем стажеров!

👩‍🌾 shorties — это персональная программа, в которой мы выращиваем таланты до полноценных Research Engineer’ов или Research Scientist’ов в зависимости от ваших интересов.

🔭 Intern Research Scientist

Вы будете заниматься написанием статей на top-tier ИИ конференции (NeurIPS, ICLR, ICML) и участием в научном дискурсе: проведение экспериментов, проверка и генерация исследовательских идей, которые направлены на развитие научного знания.

🧪 Intern Research Engineer

Вы будете заниматься созданием новых frontier-технологий и применением Reinforcement Learning в реальных задачах.

Тестовые задания и подробные описания позиций можно найти по ссылкам выше, дедлайн подачи заявки — 15 августа.

- - —
@dunnolab

🔥8

412 viewsАлександр Никулин, 07:46

Does RL work yet?

Привет! Вас тут стало сильно больше в последнее время, всем очень рад, хотя и редко выкладываю что-то. Иногда лень, иногда сил не хватает (статьи сами себя не напишут). Я вот как раз добрался до ICML 2024 в Вене. На конференции буду рассказывать о наших трех статьях, выше о них писал, но продублирую тут снова:

In-Context Reinforcement Learning for Variable Action Spaces by @ummagumm_a
Emergence of In-Context Reinforcement Learning from Noise Distillation by @suessmann
XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX by me, @howuhh

Фотки с постерами потом тоже обязательно выложу! Если кто-то из читающих тут тоже есть, пишите, буду рад пообщаться или встретиться.

🔥13🎉2👏1

799 viewsАлександр Никулин, edited 19:29

Does RL work yet?

Forwarded from ду́но

Рассказываем о нашей работе принятой на ICML 2024. В деталях.

🌻Контекст🌻

In-Context RL позволяет обучать агентов способных на адаптацию к новым задачам прямо во время инференеса, то есть zero-shot. При этом не происходит обновлений весов модели или обучения Q-функции; вся адаптация вшита при обучении в механизм внимания.

Не сказка ли? Может быть, если бы не одно но: процесс сбора данных. В AD предлагается поступить так: возьмём n задач в среде и для каждой из них обучим своего RL-ного агента. Во время обучения будем сохранять их полную историю обучения, то есть все состояния, действия и награды. Таким образом мы соберём n историй обучения, в начале которых агент не умеет ничего, а в конце уже успешно решает задачу. На них и будем обучать трансформер предсказывать следующее действие.

Но что это за число n? Какого оно порядка? Оказывается, для успешного обучения на весьма простой задаче нужно обучить около тысячи (sic!) RL агентов. Понятно, что такой подход недёшев в плане вычислений и времени.

🌻Что предлагаем мы?🌻

Чтобы облегчить сбор данных и тем самым приблизить in-context RL к применению в реальных задачах, мы предложили способ генерации историй с помощью шума.

Часто так бывает, что мы не можем решить задачу с нуля RL-ем, но имеем некоторый набор почти оптимальных демонстраций. Мы можем обучить на этом обычный Behavior Cloning, но он не будет обладать способностями к in-context, т.к. данные не содержали истории обучения. Как же теперь получить историю обучения, когда мы имеем только конечную политику эксперта?

Идея простая: давайте просто начнём постепенно добавлять больше и больше шума, то есть с вероятностью ε будем делать действие по политике, а с вероятностью 1 - ε делаем случайное действие. При этом с каждым шагом мы увеличиваем ε вплоть до единицы. Получается, что когда ε = 1 агент не умеет ничего, а при ε = 0 успешно решает задачу. Вот мы и восстановили историю (на самом деле, получили прокси историю) обучения.

🌻И это работает?🌻

Да.

Для тестирования мы использовали классические в in-context RL среды: Dark Room (grid-MDP), Dark Key-to-Door (grid-POMPD), Watermaze (3D-MDP). Обученный на наших данных агент приобретает способности in-context адаптации к новым задачам. Что удивительно, вы можете использовать для генерации демонстрации далекие от оптимальных. Например, наш агент в некоторых случаях смог превзойти лучший результат в данных более чем в два раза.

код – статья – постер (4k) – ilya's talk

- - —
@dunnolab

👏4🔥2👍1

554 viewsАлександр Никулин, 10:52

Does RL work yet?

Постер похвалил даже Шмидхубер, так что смотрим если хотите стать такими же крутыми!

🔥7👏1🎉1

761 viewsАлександр Никулин, 10:53

Does RL work yet?

Совершенно случайно одновременно наткнулся сегодня на две любопытные статьи. На первый взгляд между ними особо ничего общего.

— The pitfalls of next-token prediction. Довольно сложно читается, расскажу тлдр:

Гипотетически, умея идеально предсказывать только следующий токен, мы можем научится авторегрессивно моделировать любую последовательность без накопления ошибки. Учитывая насколько большие современные трансформеры, неявно предполагается, что они достаточно экспрессивные чтобы все таки иметь почти идеальную точность.

Оказывается, что для некоторых классов проблем это не так. Например, для проблем которые требуют планирования, таких как поиск пути в графе, модели обученные через предсказание следующего токена так и не научаются предсказывать его точно. Соответсвенно и последующей инференс выдает совершенный мусор, а не оптимальные пути. Как это пофиксить? Для простых проблем помогает добавлять особые lookahead токены в контекст, как бы давая трансформеру время на подумать.

— Planning behavior in a recurrent neural network that plays Sokoban. Авторы обучали рльного агента с рннкой решать Sokoban и обнаружили занятную вещь.

Если перед началом эпизода некоторое количество раз подавать начальное состояние, тем самым давая время на “подумать”, то внезапно агент начинает решать новые уровни сильно лучше, иногда решая даже те, что раньше казались непосильными. Кажется неожиданным! Но, если приглядеться к поведению агента, окажется, что он и так выучивал в начале эпизода делать множество мусорных действий, чтобы в это время “подумать”, и для планирования на самом деле важно только первое состояние, поэтому провернув трюк с прогревом в начале авторы ничего не сломали, а только ускорили процесс планирования.

Как это связано с предыдущей статьей? Мне кажется крайне занимательным, что рльный агент самостоятельно изобрел понятие “lookahead” токена, в то время как людям для этого требуется долгий теоретический анализ и целый ряд статей. Думаю, это наглядно показывает насколько важно изначально обучать embodied модели.

🤔10👍3

1.01K viewsАлександр Никулин, 10:25

Does RL work yet?

Forwarded from ду́но

This media is not supported in your browser

VIEW IN TELEGRAM

👩‍🌾 Осталась неделя до окончания набора на стажировку!

- - —
@dunnolab

👍9🤯4👏1

789 viewsАлександр Никулин, 15:28

Does RL work yet?

This media is not supported in your browser

VIEW IN TELEGRAM

Пока трудился над шедевром выше вспомнил забавный случай со времен магистратуры.

Был у нас какой-то вводный, базовый курс по self driving cars, копались в ros и всяком таком. Одна из домашек была закодить машинку объехать уточку. Вроде просто? Мне тоже так показалось. Среда там уже не помню какая была, но ее было достаточно муторно зарендерить, чтобы посмотреть глазками что происходит да и лень. Поэтому я чего-то закодил, удостоверился что возвращается положительная награда и уточку я точно объезжаю. Да и заслал как есть…

Когда после проверки все таки попросили зарендерить и посмотреть чего я там накодил на самом деле, очень удивился!

🔥15🥴9👍3👏1

1.31K viewsАлександр Никулин, 17:54

Does RL work yet?

Forwarded from causality links

> два года назад: ура, нашу статью приняли на нипс

> сегодня: депрессия, потому что приняли только 1 статью на нипс

🫠

Please open Telegram to view this post

VIEW IN TELEGRAM

🥴14

791 viewsАлександр Никулин, 13:01

Does RL work yet?

Очень рад за коллегу и большого друга

🔥11👏3

696 viewsАлександр Никулин, 14:50

Does RL work yet?

Forwarded from ду́но

У нас теперь три лауреата Yandex ML Prize!

После успеха Влада и Саши в прошлом году, Илья Зисман выиграл в номинации «Первая публикация» за исследование Emergence of In-Context Reinforcement Learning from Noise Distillation, представленное на ICML 2024. В нашем недавнем посте можно найти подробности работы.

Поздравляем Илью, а его новый новый бэнгер уже на подходе ⭐️

- - —
@dunnolab

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14👏2

773 viewsАлександр Никулин, 14:50

Does RL work yet?

😁16🔥6🎉2👎1🤝1

634 viewsАлександр Никулин, 17:04

Does RL work yet?

Прошла тут статейка на ICLR 2025, настрадались с ней ужас 🫠

🔥18🎉10👏7

6.04K viewsАлександр Никулин, 07:49

Does RL work yet?

К слову, если вдруг интересно узнать о статье больше, я еще осенью написал краткую статью на хабр по мотивам, без сложных слов и с обьяснением мотивации. Заодно рассказал, что такое этот in-context RL..

https://habr.com/ru/companies/airi/articles/826224/

XLand-100B: первый в мире большой датасет для контекстного обучения с подкреплением

Хабр, привет! Меня зовут Александр Никулин, я аспирант МФТИ и один из исследователей научной группы «Адаптивные агенты» в Институте AIRI. Как можно понять из названия, наша группа заинтересована...

👍5🤔2🔥1

745 viewsАлександр Никулин, edited 12:42

Does RL work yet?

Does RL work yet?

Шутки шутками, но все давно знающие меня (а если недавно, то они быстро узнают), что я ярый хейтер юпитер ноубуков, особенно в рисерче. Максимум что допускаю в них, это нарисовать графики для статьи. Подробно расписывать не хочется, но для интересующихся есть лекция в шуточной форме на эту тему.

Посмотрите, оно стоит того хотя бы ради мемов
https://www.youtube.com/watch?v=7jiPeIFXb6U

I don't like notebooks.- Joel Grus (Allen Institute for Artificial Intelligence)

I have been using and teaching Python for many years. I wrote a best-selling book about learning data science. And here’s my confession: I don’t like notebooks. (There are dozens of us!) I’ll explain why I find notebooks difficult, show how they frustrate…

👍5🔥3❤1

891 viewsАлександр Никулин, 09:34

Does RL work yet?

> ICML
> вызываешься ревьювером
> открываешь предварительный список статей, чтобы заматчится на ревью
> видишь статью подозрительно похожую на твою
> абстракт почти один в один как в твоей
> результаты тоже

лицо представили? а мне и представлять не надо.

🤯25🥴4👍1

850 viewsАлександр Никулин, 19:58

Does RL work yet?

This media is not supported in your browser

VIEW IN TELEGRAM

863 viewsАлександр Никулин, 19:58

Does RL work yet?

любимый мем

❤13🔥9

826 viewsАлександр Никулин, 20:29

Does RL work yet?

Robust Autonomy Emerges from Self-Play

Очень крутой рисерч по близкой мне теме (быстрые симуляторы на GPU, см. XLand-MiniGrid).

Сделали очень быстрый симулятор для селф-драйвинга на GPU, причем на PyTorch, что необычно. Обычно такие среды в последнее время писали на JAX. Обучили в нем модельку на 6М (!!!) параметров, суммарно проехав 1.6 миллардов км. Обучали через self-play, то есть вообще без данных от человека, одна модель управляла сразу всеми агентами на карте. На таком скейле оказалось, что все важные скилы для безопасной езды появляются сами, т.к. эта моделька после перенеслась zero-shot на все существующие симуляторы для селф-драйвинга и везде поставила соту, в том числе по безопасности.

Люблю такие работы за наглядную демонстрацию emergence, появление чего-то сложного из простого, даже если это заранее не закладывалось. Помню, что для меня большим вдохновением заняться рлем помимо AlphaGo стал проект от OpenAI по hide & seek. Он конечно менее практически значимый, но не менее интересный.

Назвали к слову, GIGAFLOW 🤫

Robust Autonomy Emerges from Self-Play

Self-play has powered breakthroughs in two-player and multi-player games. Here we show that self-play is a surprisingly effective strategy in another domain. We show that robust and naturalistic...

👍9🔥6✍2❤1

816 viewsАлександр Никулин, edited 13:13

Does RL work yet?

618 viewsАлександр Никулин, 13:13

Does RL work yet?

❤2

609 viewsАлександр Никулин, 13:14

Does RL work yet?

Если интересно посмотреть про hide & seek. Оказывается это было уже 5 лет назад... Сейчас может и не все про него знают.

https://www.youtube.com/watch?v=kopoLzvh5jY

Multi-Agent Hide and Seek

We’ve observed agents discovering progressively more complex tool use while playing a simple game of hide-and-seek. Through training in our new simulated hide-and-seek environment, agents build a series of six distinct strategies and counterstrategies, some…

❤8🤔1

778 viewsАлександр Никулин, 13:15