Does RL work yet?
Photo
Шутки шутками, но все давно знающие меня (а если недавно, то они быстро узнают), что я ярый хейтер юпитер ноубуков, особенно в рисерче. Максимум что допускаю в них, это нарисовать графики для статьи. Подробно расписывать не хочется, но для интересующихся есть лекция в шуточной форме на эту тему.
Посмотрите, оно стоит того хотя бы ради мемов
https://www.youtube.com/watch?v=7jiPeIFXb6U
Посмотрите, оно стоит того хотя бы ради мемов
https://www.youtube.com/watch?v=7jiPeIFXb6U
YouTube
I don't like notebooks.- Joel Grus (Allen Institute for Artificial Intelligence)
I have been using and teaching Python for many years. I wrote a best-selling book about learning data science. And here’s my confession: I don’t like notebooks. (There are dozens of us!) I’ll explain why I find notebooks difficult, show how they frustrate…
👍5🔥3❤1
> ICML
> вызываешься ревьювером
> открываешь предварительный список статей, чтобы заматчится на ревью
> видишь статью подозрительно похожую на твою
> абстракт почти один в один как в твоей
> результаты тоже
лицо представили? а мне и представлять не надо.
> вызываешься ревьювером
> открываешь предварительный список статей, чтобы заматчится на ревью
> видишь статью подозрительно похожую на твою
> абстракт почти один в один как в твоей
> результаты тоже
лицо представили? а мне и представлять не надо.
🤯25🥴4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Robust Autonomy Emerges from Self-Play
Очень крутой рисерч по близкой мне теме (быстрые симуляторы на GPU, см. XLand-MiniGrid).
Сделали очень быстрый симулятор для селф-драйвинга на GPU, причем на PyTorch, что необычно. Обычно такие среды в последнее время писали на JAX. Обучили в нем модельку на 6М (!!!) параметров, суммарно проехав 1.6 миллардов км. Обучали через self-play, то есть вообще без данных от человека, одна модель управляла сразу всеми агентами на карте. На таком скейле оказалось, что все важные скилы для безопасной езды появляются сами, т.к. эта моделька после перенеслась zero-shot на все существующие симуляторы для селф-драйвинга и везде поставила соту, в том числе по безопасности.
Люблю такие работы за наглядную демонстрацию emergence, появление чего-то сложного из простого, даже если это заранее не закладывалось. Помню, что для меня большим вдохновением заняться рлем помимо AlphaGo стал проект от OpenAI по hide & seek. Он конечно менее практически значимый, но не менее интересный.
Назвали к слову, GIGAFLOW 🤫
Очень крутой рисерч по близкой мне теме (быстрые симуляторы на GPU, см. XLand-MiniGrid).
Сделали очень быстрый симулятор для селф-драйвинга на GPU, причем на PyTorch, что необычно. Обычно такие среды в последнее время писали на JAX. Обучили в нем модельку на 6М (!!!) параметров, суммарно проехав 1.6 миллардов км. Обучали через self-play, то есть вообще без данных от человека, одна модель управляла сразу всеми агентами на карте. На таком скейле оказалось, что все важные скилы для безопасной езды появляются сами, т.к. эта моделька после перенеслась zero-shot на все существующие симуляторы для селф-драйвинга и везде поставила соту, в том числе по безопасности.
Люблю такие работы за наглядную демонстрацию emergence, появление чего-то сложного из простого, даже если это заранее не закладывалось. Помню, что для меня большим вдохновением заняться рлем помимо AlphaGo стал проект от OpenAI по hide & seek. Он конечно менее практически значимый, но не менее интересный.
Назвали к слову, GIGAFLOW 🤫
arXiv.org
Robust Autonomy Emerges from Self-Play
Self-play has powered breakthroughs in two-player and multi-player games. Here we show that self-play is a surprisingly effective strategy in another domain. We show that robust and naturalistic...
👍9🔥6✍2❤1
Если интересно посмотреть про hide & seek. Оказывается это было уже 5 лет назад... Сейчас может и не все про него знают.
https://www.youtube.com/watch?v=kopoLzvh5jY
https://www.youtube.com/watch?v=kopoLzvh5jY
YouTube
Multi-Agent Hide and Seek
We’ve observed agents discovering progressively more complex tool use while playing a simple game of hide-and-seek. Through training in our new simulated hide-and-seek environment, agents build a series of six distinct strategies and counterstrategies, some…
❤8🤔1
Про возможности self-play и open-ended learning конечно давно известно. Например та же работа от DeepMind с крайне похожими результатами. Все что надо - чтобы симулятор был быстрым и разнообразным.
https://deepmind.google/discover/blog/generally-capable-agents-emerge-from-open-ended-play/
https://deepmind.google/discover/blog/generally-capable-agents-emerge-from-open-ended-play/
Google DeepMind
Generally capable agents emerge from open-ended play
In recent years, artificial intelligence agents have succeeded in a range of complex game environments. For instance, AlphaZero beat world-champion programs in chess, shogi, and Go after starting...
❤3👍1
Уже довольно старая статья про перспективы скейлинга в роботике. Довольно занятная, есть примеры за и против, в конце - некоторые советы над чем стоит работать
https://nishanthjkumar.com/blog/2023/Will-Scaling-Solve-Robotics-Perspectives-from-CoRL-2023/
https://nishanthjkumar.com/blog/2023/Will-Scaling-Solve-Robotics-Perspectives-from-CoRL-2023/
❤5👍2
Самое время подвести итоги сабмитов на ICLR 2025. Не все успели довести до фулл статей, но и воркшопы тоже хорошо!
Что-то уже есть на архиве (и еще будет обновлятся с новыми результатами), так что делюсь:
1. XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning (Main, Poster), by @howuhh and @suessmann and @zzmtsvv
2. Latent Action Learning Requires Supervision in the Presence of Distractors (Workshop, World Models), by @howuhh
3. Object-Centric Latent Action Learning (Workshop, World Models), by @cinemere
4. N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs (Workshop, SCOPE), by @suessmann
5. Yes, Q-learning Helps Offline In-Context RL (Workshop, SSI-FM), by @adagrad
Что-то уже есть на архиве (и еще будет обновлятся с новыми результатами), так что делюсь:
1. XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning (Main, Poster), by @howuhh and @suessmann and @zzmtsvv
2. Latent Action Learning Requires Supervision in the Presence of Distractors (Workshop, World Models), by @howuhh
3. Object-Centric Latent Action Learning (Workshop, World Models), by @cinemere
4. N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs (Workshop, SCOPE), by @suessmann
5. Yes, Q-learning Helps Offline In-Context RL (Workshop, SSI-FM), by @adagrad
🔥22👍3
Interpreting Emergent Planning in Model-Free Reinforcement Learning [blogpost][code]
На мой взгляд самая интересная статья по RL с ICLR 2025 (ну или точно в топ 10). К сожалению сейчас нет времени разобрать подробно (привет ICML ребуталлы!), так что просто поделюсь тут. Работа во всех смыслах монументальная, чего стоит только аппендикс в 30+ страниц.
Отличная иллюстрация, что даже с помощью крайне простых инструментов (линейного пробинга) можно накопать кучу интересного если умеешь задавать правильные вопросы. Наверное для меня эта статья в целом ориентир качества в эмпирическом рисерче.
На мой взгляд самая интересная статья по RL с ICLR 2025 (ну или точно в топ 10). К сожалению сейчас нет времени разобрать подробно (привет ICML ребуталлы!), так что просто поделюсь тут. Работа во всех смыслах монументальная, чего стоит только аппендикс в 30+ страниц.
Отличная иллюстрация, что даже с помощью крайне простых инструментов (линейного пробинга) можно накопать кучу интересного если умеешь задавать правильные вопросы. Наверное для меня эта статья в целом ориентир качества в эмпирическом рисерче.
arXiv.org
Interpreting Emergent Planning in Model-Free Reinforcement Learning
We present the first mechanistic evidence that model-free reinforcement learning agents can learn to plan. This is achieved by applying a methodology based on concept-based interpretability to a...
🔥11
с большой вероятностью летом меня можно будет найти тут (как ментора и может быть лектора, но это не точно):
https://t.me/airi_research_institute/825
https://t.me/airi_research_institute/825
Telegram
Институт AIRI
⚡️Открываем прием заявок на Лето с AIRI 2025!
В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую…
В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую…
🔥10❤3👍2
Does RL work yet? pinned «с большой вероятностью летом меня можно будет найти тут (как ментора и может быть лектора, но это не точно): https://t.me/airi_research_institute/825»
Не совсем по теме канала, да и сложно судить о достоверности, не читал пока оригинальные публикации. Но если это так, то это просто вау
https://www.wired.com/story/intelligence-evolved-at-least-twice-in-vertebrate-animals/
https://www.wired.com/story/intelligence-evolved-at-least-twice-in-vertebrate-animals/
WIRED
Intelligence on Earth Evolved Independently at Least Twice
Complex neural circuits likely arose independently in birds and mammals, suggesting that vertebrates evolved intelligence multiple times.
🔥5🤯4❤2