Does RL work yet? – Telegram

Does RL work yet?

430 subscribers

53 photos

9 videos

1 file

65 links

rl research by @howuhh

howuhh.github.io | dunnolab.ai

Download Telegram

About

Blog

Apps

Platform

Does RL work yet?

430 subscribers

Does RL work yet?

Does RL work yet?

Шутки шутками, но все давно знающие меня (а если недавно, то они быстро узнают), что я ярый хейтер юпитер ноубуков, особенно в рисерче. Максимум что допускаю в них, это нарисовать графики для статьи. Подробно расписывать не хочется, но для интересующихся есть лекция в шуточной форме на эту тему.

Посмотрите, оно стоит того хотя бы ради мемов
https://www.youtube.com/watch?v=7jiPeIFXb6U

I don't like notebooks.- Joel Grus (Allen Institute for Artificial Intelligence)

I have been using and teaching Python for many years. I wrote a best-selling book about learning data science. And here’s my confession: I don’t like notebooks. (There are dozens of us!) I’ll explain why I find notebooks difficult, show how they frustrate…

👍5🔥3❤1

891 viewsАлександр Никулин, 09:34

Does RL work yet?

> ICML
> вызываешься ревьювером
> открываешь предварительный список статей, чтобы заматчится на ревью
> видишь статью подозрительно похожую на твою
> абстракт почти один в один как в твоей
> результаты тоже

лицо представили? а мне и представлять не надо.

🤯25🥴4👍1

850 viewsАлександр Никулин, 19:58

Does RL work yet?

This media is not supported in your browser

VIEW IN TELEGRAM

863 viewsАлександр Никулин, 19:58

Does RL work yet?

любимый мем

❤13🔥9

826 viewsАлександр Никулин, 20:29

Does RL work yet?

Robust Autonomy Emerges from Self-Play

Очень крутой рисерч по близкой мне теме (быстрые симуляторы на GPU, см. XLand-MiniGrid).

Сделали очень быстрый симулятор для селф-драйвинга на GPU, причем на PyTorch, что необычно. Обычно такие среды в последнее время писали на JAX. Обучили в нем модельку на 6М (!!!) параметров, суммарно проехав 1.6 миллардов км. Обучали через self-play, то есть вообще без данных от человека, одна модель управляла сразу всеми агентами на карте. На таком скейле оказалось, что все важные скилы для безопасной езды появляются сами, т.к. эта моделька после перенеслась zero-shot на все существующие симуляторы для селф-драйвинга и везде поставила соту, в том числе по безопасности.

Люблю такие работы за наглядную демонстрацию emergence, появление чего-то сложного из простого, даже если это заранее не закладывалось. Помню, что для меня большим вдохновением заняться рлем помимо AlphaGo стал проект от OpenAI по hide & seek. Он конечно менее практически значимый, но не менее интересный.

Назвали к слову, GIGAFLOW 🤫

Robust Autonomy Emerges from Self-Play

Self-play has powered breakthroughs in two-player and multi-player games. Here we show that self-play is a surprisingly effective strategy in another domain. We show that robust and naturalistic...

👍9🔥6✍2❤1

816 viewsАлександр Никулин, edited 13:13

Does RL work yet?

618 viewsАлександр Никулин, 13:13

Does RL work yet?

❤2

609 viewsАлександр Никулин, 13:14

Does RL work yet?

Если интересно посмотреть про hide & seek. Оказывается это было уже 5 лет назад... Сейчас может и не все про него знают.

https://www.youtube.com/watch?v=kopoLzvh5jY

Multi-Agent Hide and Seek

We’ve observed agents discovering progressively more complex tool use while playing a simple game of hide-and-seek. Through training in our new simulated hide-and-seek environment, agents build a series of six distinct strategies and counterstrategies, some…

❤8🤔1

778 viewsАлександр Никулин, 13:15

Does RL work yet?

Про возможности self-play и open-ended learning конечно давно известно. Например та же работа от DeepMind с крайне похожими результатами. Все что надо - чтобы симулятор был быстрым и разнообразным.

https://deepmind.google/discover/blog/generally-capable-agents-emerge-from-open-ended-play/

Google DeepMind

Generally capable agents emerge from open-ended play

In recent years, artificial intelligence agents have succeeded in a range of complex game environments. For instance, AlphaZero beat world-champion programs in chess, shogi, and Go after starting...

❤3👍1

1.01K viewsАлександр Никулин, 13:22

Does RL work yet?

Уже довольно старая статья про перспективы скейлинга в роботике. Довольно занятная, есть примеры за и против, в конце - некоторые советы над чем стоит работать

https://nishanthjkumar.com/blog/2023/Will-Scaling-Solve-Robotics-Perspectives-from-CoRL-2023/

❤5👍2

910 viewsedited 09:49

Does RL work yet?

Самое время подвести итоги сабмитов на ICLR 2025. Не все успели довести до фулл статей, но и воркшопы тоже хорошо!

Что-то уже есть на архиве (и еще будет обновлятся с новыми результатами), так что делюсь:
1. XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning (Main, Poster), by @howuhh and @suessmann and @zzmtsvv
2. Latent Action Learning Requires Supervision in the Presence of Distractors (Workshop, World Models), by @howuhh
3. Object-Centric Latent Action Learning (Workshop, World Models), by @cinemere
4. N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs (Workshop, SCOPE), by @suessmann
5. Yes, Q-learning Helps Offline In-Context RL (Workshop, SSI-FM), by @adagrad

🔥22👍3

7.05K viewsedited 08:17

Does RL work yet?

Рисует и правда хорошо.

❤17

924 views08:44

Does RL work yet?

Interpreting Emergent Planning in Model-Free Reinforcement Learning [blogpost][code]

На мой взгляд самая интересная статья по RL с ICLR 2025 (ну или точно в топ 10). К сожалению сейчас нет времени разобрать подробно (привет ICML ребуталлы!), так что просто поделюсь тут. Работа во всех смыслах монументальная, чего стоит только аппендикс в 30+ страниц.

Отличная иллюстрация, что даже с помощью крайне простых инструментов (линейного пробинга) можно накопать кучу интересного если умеешь задавать правильные вопросы. Наверное для меня эта статья в целом ориентир качества в эмпирическом рисерче.

Interpreting Emergent Planning in Model-Free Reinforcement Learning

We present the first mechanistic evidence that model-free reinforcement learning agents can learn to plan. This is achieved by applying a methodology based on concept-based interpretability to a...

🔥11

886 views09:25

Does RL work yet?

This media is not supported in your browser

VIEW IN TELEGRAM

804 views09:25

Does RL work yet?

с большой вероятностью летом меня можно будет найти тут (как ментора и может быть лектора, но это не точно):

https://t.me/airi_research_institute/825

Институт AIRI

⚡️Открываем прием заявок на Лето с AIRI 2025!

В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую…

🔥10❤3👍2

936 viewsedited 18:30

Does RL work yet?

Does RL work yet? pinned «с большой вероятностью летом меня можно будет найти тут (как ментора и может быть лектора, но это не точно): https://t.me/airi_research_institute/825»

18:30

Does RL work yet?

🔥18👏6🤝6✍1

883 views16:16

Does RL work yet?

Только вернулся с ICLR 2025 в Сингапуре, вcтречают радостными новостями. Две статьи приняли на ICML 2025!

В скором времени расскажу о них чуть больше (в целом я выше уже их упоминал как воркшопные). Выложу постеры с ICRL и небольшое (но более подробное) описание каждого.

🔥29

759 viewsedited 12:40

Does RL work yet?

This media is not supported in your browser

VIEW IN TELEGRAM

808 views12:41

Does RL work yet?

https://agentic.substack.com/p/whats-missing-for-robot-foundation

What’s Missing for Robot Foundation Models?

Progress and Missing Pieces on the Frontier of Robotics + AI

👍4

775 views07:09

Does RL work yet?

Не совсем по теме канала, да и сложно судить о достоверности, не читал пока оригинальные публикации. Но если это так, то это просто вау

https://www.wired.com/story/intelligence-evolved-at-least-twice-in-vertebrate-animals/

Intelligence on Earth Evolved Independently at Least Twice

Complex neural circuits likely arose independently in birds and mammals, suggesting that vertebrates evolved intelligence multiple times.

🔥5🤯4❤2

1.02K views07:51