Does RL work yet?
430 subscribers
53 photos
9 videos
1 file
65 links
Download Telegram
Forwarded from ду́но
This media is not supported in your browser
VIEW IN TELEGRAM
👩‍🌾 Осталась неделя до окончания набора на стажировку!

- - —
@dunnolab
👍9🤯4👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Пока трудился над шедевром выше вспомнил забавный случай со времен магистратуры.

Был у нас какой-то вводный, базовый курс по self driving cars, копались в ros и всяком таком. Одна из домашек была закодить машинку объехать уточку. Вроде просто? Мне тоже так показалось. Среда там уже не помню какая была, но ее было достаточно муторно зарендерить, чтобы посмотреть глазками что происходит да и лень. Поэтому я чего-то закодил, удостоверился что возвращается положительная награда и уточку я точно объезжаю. Да и заслал как есть…

Когда после проверки все таки попросили зарендерить и посмотреть чего я там накодил на самом деле, очень удивился!
🔥15🥴9👍3👏1
Forwarded from causality links
> два года назад: ура, нашу статью приняли на нипс

> сегодня: депрессия, потому что приняли только 1 статью на нипс

🫠
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴14
Очень рад за коллегу и большого друга
🔥11👏3
Forwarded from ду́но
У нас теперь три лауреата Yandex ML Prize!

После успеха Влада и Саши в прошлом году, Илья Зисман выиграл в номинации «Первая публикация» за исследование Emergence of In-Context Reinforcement Learning from Noise Distillation, представленное на ICML 2024. В нашем недавнем посте можно найти подробности работы.

Поздравляем Илью, а его новый новый бэнгер уже на подходе ⭐️

- - —
@dunnolab
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14👏2
😁16🔥6🎉2👎1🤝1
Прошла тут статейка на ICLR 2025, настрадались с ней ужас 🫠
🔥18🎉10👏7
К слову, если вдруг интересно узнать о статье больше, я еще осенью написал краткую статью на хабр по мотивам, без сложных слов и с обьяснением мотивации. Заодно рассказал, что такое этот in-context RL..

https://habr.com/ru/companies/airi/articles/826224/
👍5🤔2🔥1
Does RL work yet?
Photo
Шутки шутками, но все давно знающие меня (а если недавно, то они быстро узнают), что я ярый хейтер юпитер ноубуков, особенно в рисерче. Максимум что допускаю в них, это нарисовать графики для статьи. Подробно расписывать не хочется, но для интересующихся есть лекция в шуточной форме на эту тему.

Посмотрите, оно стоит того хотя бы ради мемов
https://www.youtube.com/watch?v=7jiPeIFXb6U
👍5🔥31
> ICML
> вызываешься ревьювером
> открываешь предварительный список статей, чтобы заматчится на ревью
> видишь статью подозрительно похожую на твою
> абстракт почти один в один как в твоей
> результаты тоже

лицо представили? а мне и представлять не надо.
🤯25🥴4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
любимый мем
13🔥9
Robust Autonomy Emerges from Self-Play

Очень крутой рисерч по близкой мне теме (быстрые симуляторы на GPU, см. XLand-MiniGrid).

Сделали очень быстрый симулятор для селф-драйвинга на GPU, причем на PyTorch, что необычно. Обычно такие среды в последнее время писали на JAX. Обучили в нем модельку на 6М (!!!) параметров, суммарно проехав 1.6 миллардов км. Обучали через self-play, то есть вообще без данных от человека, одна модель управляла сразу всеми агентами на карте. На таком скейле оказалось, что все важные скилы для безопасной езды появляются сами, т.к. эта моделька после перенеслась zero-shot на все существующие симуляторы для селф-драйвинга и везде поставила соту, в том числе по безопасности.

Люблю такие работы за наглядную демонстрацию emergence, появление чего-то сложного из простого, даже если это заранее не закладывалось. Помню, что для меня большим вдохновением заняться рлем помимо AlphaGo стал проект от OpenAI по hide & seek. Он конечно менее практически значимый, но не менее интересный.

Назвали к слову, GIGAFLOW 🤫
👍9🔥621
2
Если интересно посмотреть про hide & seek. Оказывается это было уже 5 лет назад... Сейчас может и не все про него знают.

https://www.youtube.com/watch?v=kopoLzvh5jY
8🤔1
Про возможности self-play и open-ended learning конечно давно известно. Например та же работа от DeepMind с крайне похожими результатами. Все что надо - чтобы симулятор был быстрым и разнообразным.

https://deepmind.google/discover/blog/generally-capable-agents-emerge-from-open-ended-play/
3👍1
Уже довольно старая статья про перспективы скейлинга в роботике. Довольно занятная, есть примеры за и против, в конце - некоторые советы над чем стоит работать

https://nishanthjkumar.com/blog/2023/Will-Scaling-Solve-Robotics-Perspectives-from-CoRL-2023/
5👍2
Самое время подвести итоги сабмитов на ICLR 2025. Не все успели довести до фулл статей, но и воркшопы тоже хорошо!

Что-то уже есть на архиве (и еще будет обновлятся с новыми результатами), так что делюсь:
1. XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning (Main, Poster), by @howuhh and @suessmann and @zzmtsvv
2. Latent Action Learning Requires Supervision in the Presence of Distractors (Workshop, World Models), by @howuhh
3. Object-Centric Latent Action Learning (Workshop, World Models), by @cinemere
4. N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs (Workshop, SCOPE), by @suessmann
5. Yes, Q-learning Helps Offline In-Context RL (Workshop, SSI-FM), by @adagrad
🔥22👍3
Рисует и правда хорошо.
17
Interpreting Emergent Planning in Model-Free Reinforcement Learning [blogpost][code]

На мой взгляд самая интересная статья по RL с ICLR 2025 (ну или точно в топ 10). К сожалению сейчас нет времени разобрать подробно (привет ICML ребуталлы!), так что просто поделюсь тут. Работа во всех смыслах монументальная, чего стоит только аппендикс в 30+ страниц.

Отличная иллюстрация, что даже с помощью крайне простых инструментов (линейного пробинга) можно накопать кучу интересного если умеешь задавать правильные вопросы. Наверное для меня эта статья в целом ориентир качества в эмпирическом рисерче.
🔥11