Does RL work yet?
430 subscribers
53 photos
9 videos
1 file
65 links
Download Telegram
Does RL work yet?
Photo
Шутки шутками, но все давно знающие меня (а если недавно, то они быстро узнают), что я ярый хейтер юпитер ноубуков, особенно в рисерче. Максимум что допускаю в них, это нарисовать графики для статьи. Подробно расписывать не хочется, но для интересующихся есть лекция в шуточной форме на эту тему.

Посмотрите, оно стоит того хотя бы ради мемов
https://www.youtube.com/watch?v=7jiPeIFXb6U
👍5🔥31
> ICML
> вызываешься ревьювером
> открываешь предварительный список статей, чтобы заматчится на ревью
> видишь статью подозрительно похожую на твою
> абстракт почти один в один как в твоей
> результаты тоже

лицо представили? а мне и представлять не надо.
🤯25🥴4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
любимый мем
13🔥9
Robust Autonomy Emerges from Self-Play

Очень крутой рисерч по близкой мне теме (быстрые симуляторы на GPU, см. XLand-MiniGrid).

Сделали очень быстрый симулятор для селф-драйвинга на GPU, причем на PyTorch, что необычно. Обычно такие среды в последнее время писали на JAX. Обучили в нем модельку на 6М (!!!) параметров, суммарно проехав 1.6 миллардов км. Обучали через self-play, то есть вообще без данных от человека, одна модель управляла сразу всеми агентами на карте. На таком скейле оказалось, что все важные скилы для безопасной езды появляются сами, т.к. эта моделька после перенеслась zero-shot на все существующие симуляторы для селф-драйвинга и везде поставила соту, в том числе по безопасности.

Люблю такие работы за наглядную демонстрацию emergence, появление чего-то сложного из простого, даже если это заранее не закладывалось. Помню, что для меня большим вдохновением заняться рлем помимо AlphaGo стал проект от OpenAI по hide & seek. Он конечно менее практически значимый, но не менее интересный.

Назвали к слову, GIGAFLOW 🤫
👍9🔥621
2
Если интересно посмотреть про hide & seek. Оказывается это было уже 5 лет назад... Сейчас может и не все про него знают.

https://www.youtube.com/watch?v=kopoLzvh5jY
8🤔1
Про возможности self-play и open-ended learning конечно давно известно. Например та же работа от DeepMind с крайне похожими результатами. Все что надо - чтобы симулятор был быстрым и разнообразным.

https://deepmind.google/discover/blog/generally-capable-agents-emerge-from-open-ended-play/
3👍1
Уже довольно старая статья про перспективы скейлинга в роботике. Довольно занятная, есть примеры за и против, в конце - некоторые советы над чем стоит работать

https://nishanthjkumar.com/blog/2023/Will-Scaling-Solve-Robotics-Perspectives-from-CoRL-2023/
5👍2
Самое время подвести итоги сабмитов на ICLR 2025. Не все успели довести до фулл статей, но и воркшопы тоже хорошо!

Что-то уже есть на архиве (и еще будет обновлятся с новыми результатами), так что делюсь:
1. XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning (Main, Poster), by @howuhh and @suessmann and @zzmtsvv
2. Latent Action Learning Requires Supervision in the Presence of Distractors (Workshop, World Models), by @howuhh
3. Object-Centric Latent Action Learning (Workshop, World Models), by @cinemere
4. N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs (Workshop, SCOPE), by @suessmann
5. Yes, Q-learning Helps Offline In-Context RL (Workshop, SSI-FM), by @adagrad
🔥22👍3
Рисует и правда хорошо.
17
Interpreting Emergent Planning in Model-Free Reinforcement Learning [blogpost][code]

На мой взгляд самая интересная статья по RL с ICLR 2025 (ну или точно в топ 10). К сожалению сейчас нет времени разобрать подробно (привет ICML ребуталлы!), так что просто поделюсь тут. Работа во всех смыслах монументальная, чего стоит только аппендикс в 30+ страниц.

Отличная иллюстрация, что даже с помощью крайне простых инструментов (линейного пробинга) можно накопать кучу интересного если умеешь задавать правильные вопросы. Наверное для меня эта статья в целом ориентир качества в эмпирическом рисерче.
🔥11
Does RL work yet? pinned «с большой вероятностью летом меня можно будет найти тут (как ментора и может быть лектора, но это не точно): https://t.me/airi_research_institute/825»
🔥18👏6🤝61
Только вернулся с ICLR 2025 в Сингапуре, вcтречают радостными новостями. Две статьи приняли на ICML 2025!

В скором времени расскажу о них чуть больше (в целом я выше уже их упоминал как воркшопные). Выложу постеры с ICRL и небольшое (но более подробное) описание каждого.
🔥29
This media is not supported in your browser
VIEW IN TELEGRAM
Не совсем по теме канала, да и сложно судить о достоверности, не читал пока оригинальные публикации. Но если это так, то это просто вау

https://www.wired.com/story/intelligence-evolved-at-least-twice-in-vertebrate-animals/
🔥5🤯42