Forwarded from ду́но
Мы ищем стажеров!
👩🌾
Тестовые задания и подробные описания позиций можно найти по ссылкам выше, дедлайн подачи заявки — 15 августа.
- - —
@dunnolab
👩🌾
shorties — это персональная программа, в которой мы выращиваем таланты до полноценных Research Engineer’ов или Research Scientist’ов в зависимости от ваших интересов.🔭 Intern Research Scientist
Вы будете заниматься написанием статей на top-tier ИИ конференции (NeurIPS, ICLR, ICML) и участием в научном дискурсе: проведение экспериментов, проверка и генерация исследовательских идей, которые направлены на развитие научного знания.
🧪 Intern Research Engineer
Вы будете заниматься созданием новых frontier-технологий и применением Reinforcement Learning в реальных задачах.
Тестовые задания и подробные описания позиций можно найти по ссылкам выше, дедлайн подачи заявки — 15 августа.
- - —
@dunnolab
🔥8
Привет! Вас тут стало сильно больше в последнее время, всем очень рад, хотя и редко выкладываю что-то. Иногда лень, иногда сил не хватает (статьи сами себя не напишут). Я вот как раз добрался до ICML 2024 в Вене. На конференции буду рассказывать о наших трех статьях, выше о них писал, но продублирую тут снова:
In-Context Reinforcement Learning for Variable Action Spaces by @ummagumm_a
Emergence of In-Context Reinforcement Learning from Noise Distillation by @suessmann
XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX by me, @howuhh
Фотки с постерами потом тоже обязательно выложу! Если кто-то из читающих тут тоже есть, пишите, буду рад пообщаться или встретиться.
In-Context Reinforcement Learning for Variable Action Spaces by @ummagumm_a
Emergence of In-Context Reinforcement Learning from Noise Distillation by @suessmann
XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX by me, @howuhh
Фотки с постерами потом тоже обязательно выложу! Если кто-то из читающих тут тоже есть, пишите, буду рад пообщаться или встретиться.
🔥13🎉2👏1
Forwarded from ду́но
Рассказываем о нашей работе принятой на ICML 2024. В деталях.
🌻Контекст🌻
In-Context RL позволяет обучать агентов способных на адаптацию к новым задачам прямо во время инференеса, то есть zero-shot. При этом не происходит обновлений весов модели или обучения Q-функции; вся адаптация вшита при обучении в механизм внимания.
Не сказка ли? Может быть, если бы не одно но: процесс сбора данных. В AD предлагается поступить так: возьмём
Но что это за число
🌻Что предлагаем мы?🌻
Чтобы облегчить сбор данных и тем самым приблизить in-context RL к применению в реальных задачах, мы предложили способ генерации историй с помощью шума.
Часто так бывает, что мы не можем решить задачу с нуля RL-ем, но имеем некоторый набор почти оптимальных демонстраций. Мы можем обучить на этом обычный Behavior Cloning, но он не будет обладать способностями к in-context, т.к. данные не содержали истории обучения. Как же теперь получить историю обучения, когда мы имеем только конечную политику эксперта?
Идея простая: давайте просто начнём постепенно добавлять больше и больше шума, то есть с вероятностью
🌻И это работает?🌻
Да.
Для тестирования мы использовали классические в in-context RL среды: Dark Room (grid-MDP), Dark Key-to-Door (grid-POMPD), Watermaze (3D-MDP). Обученный на наших данных агент приобретает способности in-context адаптации к новым задачам. Что удивительно, вы можете использовать для генерации демонстрации далекие от оптимальных. Например, наш агент в некоторых случаях смог превзойти лучший результат в данных более чем в два раза.
код – статья – постер (4k) – ilya's talk
- - —
@dunnolab
🌻Контекст🌻
In-Context RL позволяет обучать агентов способных на адаптацию к новым задачам прямо во время инференеса, то есть zero-shot. При этом не происходит обновлений весов модели или обучения Q-функции; вся адаптация вшита при обучении в механизм внимания.
Не сказка ли? Может быть, если бы не одно но: процесс сбора данных. В AD предлагается поступить так: возьмём
n задач в среде и для каждой из них обучим своего RL-ного агента. Во время обучения будем сохранять их полную историю обучения, то есть все состояния, действия и награды. Таким образом мы соберём n историй обучения, в начале которых агент не умеет ничего, а в конце уже успешно решает задачу. На них и будем обучать трансформер предсказывать следующее действие.Но что это за число
n? Какого оно порядка? Оказывается, для успешного обучения на весьма простой задаче нужно обучить около тысячи (sic!) RL агентов. Понятно, что такой подход недёшев в плане вычислений и времени.🌻Что предлагаем мы?🌻
Чтобы облегчить сбор данных и тем самым приблизить in-context RL к применению в реальных задачах, мы предложили способ генерации историй с помощью шума.
Часто так бывает, что мы не можем решить задачу с нуля RL-ем, но имеем некоторый набор почти оптимальных демонстраций. Мы можем обучить на этом обычный Behavior Cloning, но он не будет обладать способностями к in-context, т.к. данные не содержали истории обучения. Как же теперь получить историю обучения, когда мы имеем только конечную политику эксперта?
Идея простая: давайте просто начнём постепенно добавлять больше и больше шума, то есть с вероятностью
ε будем делать действие по политике, а с вероятностью 1 - ε делаем случайное действие. При этом с каждым шагом мы увеличиваем ε вплоть до единицы. Получается, что когда ε = 1 агент не умеет ничего, а при ε = 0 успешно решает задачу. Вот мы и восстановили историю (на самом деле, получили прокси историю) обучения.🌻И это работает?🌻
Да.
Для тестирования мы использовали классические в in-context RL среды: Dark Room (grid-MDP), Dark Key-to-Door (grid-POMPD), Watermaze (3D-MDP). Обученный на наших данных агент приобретает способности in-context адаптации к новым задачам. Что удивительно, вы можете использовать для генерации демонстрации далекие от оптимальных. Например, наш агент в некоторых случаях смог превзойти лучший результат в данных более чем в два раза.
код – статья – постер (4k) – ilya's talk
- - —
@dunnolab
👏4🔥2👍1
Постер похвалил даже Шмидхубер, так что смотрим если хотите стать такими же крутыми!
🔥7👏1🎉1
Совершенно случайно одновременно наткнулся сегодня на две любопытные статьи. На первый взгляд между ними особо ничего общего.
— The pitfalls of next-token prediction. Довольно сложно читается, расскажу тлдр:
Гипотетически, умея идеально предсказывать только следующий токен, мы можем научится авторегрессивно моделировать любую последовательность без накопления ошибки. Учитывая насколько большие современные трансформеры, неявно предполагается, что они достаточно экспрессивные чтобы все таки иметь почти идеальную точность.
Оказывается, что для некоторых классов проблем это не так. Например, для проблем которые требуют планирования, таких как поиск пути в графе, модели обученные через предсказание следующего токена так и не научаются предсказывать его точно. Соответсвенно и последующей инференс выдает совершенный мусор, а не оптимальные пути. Как это пофиксить? Для простых проблем помогает добавлять особые lookahead токены в контекст, как бы давая трансформеру время на подумать.
— Planning behavior in a recurrent neural network that plays Sokoban. Авторы обучали рльного агента с рннкой решать Sokoban и обнаружили занятную вещь.
Если перед началом эпизода некоторое количество раз подавать начальное состояние, тем самым давая время на “подумать”, то внезапно агент начинает решать новые уровни сильно лучше, иногда решая даже те, что раньше казались непосильными. Кажется неожиданным! Но, если приглядеться к поведению агента, окажется, что он и так выучивал в начале эпизода делать множество мусорных действий, чтобы в это время “подумать”, и для планирования на самом деле важно только первое состояние, поэтому провернув трюк с прогревом в начале авторы ничего не сломали, а только ускорили процесс планирования.
Как это связано с предыдущей статьей? Мне кажется крайне занимательным, что рльный агент самостоятельно изобрел понятие “lookahead” токена, в то время как людям для этого требуется долгий теоретический анализ и целый ряд статей. Думаю, это наглядно показывает насколько важно изначально обучать embodied модели.
— The pitfalls of next-token prediction. Довольно сложно читается, расскажу тлдр:
Гипотетически, умея идеально предсказывать только следующий токен, мы можем научится авторегрессивно моделировать любую последовательность без накопления ошибки. Учитывая насколько большие современные трансформеры, неявно предполагается, что они достаточно экспрессивные чтобы все таки иметь почти идеальную точность.
Оказывается, что для некоторых классов проблем это не так. Например, для проблем которые требуют планирования, таких как поиск пути в графе, модели обученные через предсказание следующего токена так и не научаются предсказывать его точно. Соответсвенно и последующей инференс выдает совершенный мусор, а не оптимальные пути. Как это пофиксить? Для простых проблем помогает добавлять особые lookahead токены в контекст, как бы давая трансформеру время на подумать.
— Planning behavior in a recurrent neural network that plays Sokoban. Авторы обучали рльного агента с рннкой решать Sokoban и обнаружили занятную вещь.
Если перед началом эпизода некоторое количество раз подавать начальное состояние, тем самым давая время на “подумать”, то внезапно агент начинает решать новые уровни сильно лучше, иногда решая даже те, что раньше казались непосильными. Кажется неожиданным! Но, если приглядеться к поведению агента, окажется, что он и так выучивал в начале эпизода делать множество мусорных действий, чтобы в это время “подумать”, и для планирования на самом деле важно только первое состояние, поэтому провернув трюк с прогревом в начале авторы ничего не сломали, а только ускорили процесс планирования.
Как это связано с предыдущей статьей? Мне кажется крайне занимательным, что рльный агент самостоятельно изобрел понятие “lookahead” токена, в то время как людям для этого требуется долгий теоретический анализ и целый ряд статей. Думаю, это наглядно показывает насколько важно изначально обучать embodied модели.
🤔10👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Пока трудился над шедевром выше вспомнил забавный случай со времен магистратуры.
Был у нас какой-то вводный, базовый курс по self driving cars, копались в ros и всяком таком. Одна из домашек была закодить машинку объехать уточку. Вроде просто? Мне тоже так показалось. Среда там уже не помню какая была, но ее было достаточно муторно зарендерить, чтобы посмотреть глазками что происходит да и лень. Поэтому я чего-то закодил, удостоверился что возвращается положительная награда и уточку я точно объезжаю. Да и заслал как есть…
Когда после проверки все таки попросили зарендерить и посмотреть чего я там накодил на самом деле, очень удивился!
Был у нас какой-то вводный, базовый курс по self driving cars, копались в ros и всяком таком. Одна из домашек была закодить машинку объехать уточку. Вроде просто? Мне тоже так показалось. Среда там уже не помню какая была, но ее было достаточно муторно зарендерить, чтобы посмотреть глазками что происходит да и лень. Поэтому я чего-то закодил, удостоверился что возвращается положительная награда и уточку я точно объезжаю. Да и заслал как есть…
Когда после проверки все таки попросили зарендерить и посмотреть чего я там накодил на самом деле, очень удивился!
🔥15🥴9👍3👏1
Forwarded from causality links
> два года назад: ура, нашу статью приняли на нипс
> сегодня: депрессия, потому что приняли только 1 статью на нипс
🫠
> сегодня: депрессия, потому что приняли только 1 статью на нипс
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴14
Forwarded from ду́но
У нас теперь три лауреата Yandex ML Prize!
После успеха Влада и Саши в прошлом году, Илья Зисман выиграл в номинации «Первая публикация» за исследование Emergence of In-Context Reinforcement Learning from Noise Distillation, представленное на ICML 2024. В нашем недавнем посте можно найти подробности работы.
Поздравляем Илью, а его новый новый бэнгер уже на подходе⭐️
- - —
@dunnolab
После успеха Влада и Саши в прошлом году, Илья Зисман выиграл в номинации «Первая публикация» за исследование Emergence of In-Context Reinforcement Learning from Noise Distillation, представленное на ICML 2024. В нашем недавнем посте можно найти подробности работы.
Поздравляем Илью, а его новый новый бэнгер уже на подходе
- - —
@dunnolab
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14👏2
К слову, если вдруг интересно узнать о статье больше, я еще осенью написал краткую статью на хабр по мотивам, без сложных слов и с обьяснением мотивации. Заодно рассказал, что такое этот in-context RL..
https://habr.com/ru/companies/airi/articles/826224/
https://habr.com/ru/companies/airi/articles/826224/
Хабр
XLand-100B: первый в мире большой датасет для контекстного обучения с подкреплением
Хабр, привет! Меня зовут Александр Никулин, я аспирант МФТИ и один из исследователей научной группы «Адаптивные агенты» в Институте AIRI. Как можно понять из названия, наша группа заинтересована...
👍5🤔2🔥1
Does RL work yet?
Photo
Шутки шутками, но все давно знающие меня (а если недавно, то они быстро узнают), что я ярый хейтер юпитер ноубуков, особенно в рисерче. Максимум что допускаю в них, это нарисовать графики для статьи. Подробно расписывать не хочется, но для интересующихся есть лекция в шуточной форме на эту тему.
Посмотрите, оно стоит того хотя бы ради мемов
https://www.youtube.com/watch?v=7jiPeIFXb6U
Посмотрите, оно стоит того хотя бы ради мемов
https://www.youtube.com/watch?v=7jiPeIFXb6U
YouTube
I don't like notebooks.- Joel Grus (Allen Institute for Artificial Intelligence)
I have been using and teaching Python for many years. I wrote a best-selling book about learning data science. And here’s my confession: I don’t like notebooks. (There are dozens of us!) I’ll explain why I find notebooks difficult, show how they frustrate…
👍5🔥3❤1
> ICML
> вызываешься ревьювером
> открываешь предварительный список статей, чтобы заматчится на ревью
> видишь статью подозрительно похожую на твою
> абстракт почти один в один как в твоей
> результаты тоже
лицо представили? а мне и представлять не надо.
> вызываешься ревьювером
> открываешь предварительный список статей, чтобы заматчится на ревью
> видишь статью подозрительно похожую на твою
> абстракт почти один в один как в твоей
> результаты тоже
лицо представили? а мне и представлять не надо.
🤯25🥴4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Robust Autonomy Emerges from Self-Play
Очень крутой рисерч по близкой мне теме (быстрые симуляторы на GPU, см. XLand-MiniGrid).
Сделали очень быстрый симулятор для селф-драйвинга на GPU, причем на PyTorch, что необычно. Обычно такие среды в последнее время писали на JAX. Обучили в нем модельку на 6М (!!!) параметров, суммарно проехав 1.6 миллардов км. Обучали через self-play, то есть вообще без данных от человека, одна модель управляла сразу всеми агентами на карте. На таком скейле оказалось, что все важные скилы для безопасной езды появляются сами, т.к. эта моделька после перенеслась zero-shot на все существующие симуляторы для селф-драйвинга и везде поставила соту, в том числе по безопасности.
Люблю такие работы за наглядную демонстрацию emergence, появление чего-то сложного из простого, даже если это заранее не закладывалось. Помню, что для меня большим вдохновением заняться рлем помимо AlphaGo стал проект от OpenAI по hide & seek. Он конечно менее практически значимый, но не менее интересный.
Назвали к слову, GIGAFLOW 🤫
Очень крутой рисерч по близкой мне теме (быстрые симуляторы на GPU, см. XLand-MiniGrid).
Сделали очень быстрый симулятор для селф-драйвинга на GPU, причем на PyTorch, что необычно. Обычно такие среды в последнее время писали на JAX. Обучили в нем модельку на 6М (!!!) параметров, суммарно проехав 1.6 миллардов км. Обучали через self-play, то есть вообще без данных от человека, одна модель управляла сразу всеми агентами на карте. На таком скейле оказалось, что все важные скилы для безопасной езды появляются сами, т.к. эта моделька после перенеслась zero-shot на все существующие симуляторы для селф-драйвинга и везде поставила соту, в том числе по безопасности.
Люблю такие работы за наглядную демонстрацию emergence, появление чего-то сложного из простого, даже если это заранее не закладывалось. Помню, что для меня большим вдохновением заняться рлем помимо AlphaGo стал проект от OpenAI по hide & seek. Он конечно менее практически значимый, но не менее интересный.
Назвали к слову, GIGAFLOW 🤫
arXiv.org
Robust Autonomy Emerges from Self-Play
Self-play has powered breakthroughs in two-player and multi-player games. Here we show that self-play is a surprisingly effective strategy in another domain. We show that robust and naturalistic...
👍9🔥6✍2❤1
Если интересно посмотреть про hide & seek. Оказывается это было уже 5 лет назад... Сейчас может и не все про него знают.
https://www.youtube.com/watch?v=kopoLzvh5jY
https://www.youtube.com/watch?v=kopoLzvh5jY
YouTube
Multi-Agent Hide and Seek
We’ve observed agents discovering progressively more complex tool use while playing a simple game of hide-and-seek. Through training in our new simulated hide-and-seek environment, agents build a series of six distinct strategies and counterstrategies, some…
❤8🤔1