Robust Autonomy Emerges from Self-Play
Очень крутой рисерч по близкой мне теме (быстрые симуляторы на GPU, см. XLand-MiniGrid).
Сделали очень быстрый симулятор для селф-драйвинга на GPU, причем на PyTorch, что необычно. Обычно такие среды в последнее время писали на JAX. Обучили в нем модельку на 6М (!!!) параметров, суммарно проехав 1.6 миллардов км. Обучали через self-play, то есть вообще без данных от человека, одна модель управляла сразу всеми агентами на карте. На таком скейле оказалось, что все важные скилы для безопасной езды появляются сами, т.к. эта моделька после перенеслась zero-shot на все существующие симуляторы для селф-драйвинга и везде поставила соту, в том числе по безопасности.
Люблю такие работы за наглядную демонстрацию emergence, появление чего-то сложного из простого, даже если это заранее не закладывалось. Помню, что для меня большим вдохновением заняться рлем помимо AlphaGo стал проект от OpenAI по hide & seek. Он конечно менее практически значимый, но не менее интересный.
Назвали к слову, GIGAFLOW 🤫
Очень крутой рисерч по близкой мне теме (быстрые симуляторы на GPU, см. XLand-MiniGrid).
Сделали очень быстрый симулятор для селф-драйвинга на GPU, причем на PyTorch, что необычно. Обычно такие среды в последнее время писали на JAX. Обучили в нем модельку на 6М (!!!) параметров, суммарно проехав 1.6 миллардов км. Обучали через self-play, то есть вообще без данных от человека, одна модель управляла сразу всеми агентами на карте. На таком скейле оказалось, что все важные скилы для безопасной езды появляются сами, т.к. эта моделька после перенеслась zero-shot на все существующие симуляторы для селф-драйвинга и везде поставила соту, в том числе по безопасности.
Люблю такие работы за наглядную демонстрацию emergence, появление чего-то сложного из простого, даже если это заранее не закладывалось. Помню, что для меня большим вдохновением заняться рлем помимо AlphaGo стал проект от OpenAI по hide & seek. Он конечно менее практически значимый, но не менее интересный.
Назвали к слову, GIGAFLOW 🤫
arXiv.org
Robust Autonomy Emerges from Self-Play
Self-play has powered breakthroughs in two-player and multi-player games. Here we show that self-play is a surprisingly effective strategy in another domain. We show that robust and naturalistic...
👍9🔥6✍2❤1
Если интересно посмотреть про hide & seek. Оказывается это было уже 5 лет назад... Сейчас может и не все про него знают.
https://www.youtube.com/watch?v=kopoLzvh5jY
https://www.youtube.com/watch?v=kopoLzvh5jY
YouTube
Multi-Agent Hide and Seek
We’ve observed agents discovering progressively more complex tool use while playing a simple game of hide-and-seek. Through training in our new simulated hide-and-seek environment, agents build a series of six distinct strategies and counterstrategies, some…
❤8🤔1
Про возможности self-play и open-ended learning конечно давно известно. Например та же работа от DeepMind с крайне похожими результатами. Все что надо - чтобы симулятор был быстрым и разнообразным.
https://deepmind.google/discover/blog/generally-capable-agents-emerge-from-open-ended-play/
https://deepmind.google/discover/blog/generally-capable-agents-emerge-from-open-ended-play/
Google DeepMind
Generally capable agents emerge from open-ended play
In recent years, artificial intelligence agents have succeeded in a range of complex game environments. For instance, AlphaZero beat world-champion programs in chess, shogi, and Go after starting...
❤3👍1
Уже довольно старая статья про перспективы скейлинга в роботике. Довольно занятная, есть примеры за и против, в конце - некоторые советы над чем стоит работать
https://nishanthjkumar.com/blog/2023/Will-Scaling-Solve-Robotics-Perspectives-from-CoRL-2023/
https://nishanthjkumar.com/blog/2023/Will-Scaling-Solve-Robotics-Perspectives-from-CoRL-2023/
❤5👍2
Самое время подвести итоги сабмитов на ICLR 2025. Не все успели довести до фулл статей, но и воркшопы тоже хорошо!
Что-то уже есть на архиве (и еще будет обновлятся с новыми результатами), так что делюсь:
1. XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning (Main, Poster), by @howuhh and @suessmann and @zzmtsvv
2. Latent Action Learning Requires Supervision in the Presence of Distractors (Workshop, World Models), by @howuhh
3. Object-Centric Latent Action Learning (Workshop, World Models), by @cinemere
4. N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs (Workshop, SCOPE), by @suessmann
5. Yes, Q-learning Helps Offline In-Context RL (Workshop, SSI-FM), by @adagrad
Что-то уже есть на архиве (и еще будет обновлятся с новыми результатами), так что делюсь:
1. XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning (Main, Poster), by @howuhh and @suessmann and @zzmtsvv
2. Latent Action Learning Requires Supervision in the Presence of Distractors (Workshop, World Models), by @howuhh
3. Object-Centric Latent Action Learning (Workshop, World Models), by @cinemere
4. N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs (Workshop, SCOPE), by @suessmann
5. Yes, Q-learning Helps Offline In-Context RL (Workshop, SSI-FM), by @adagrad
🔥22👍3
Interpreting Emergent Planning in Model-Free Reinforcement Learning [blogpost][code]
На мой взгляд самая интересная статья по RL с ICLR 2025 (ну или точно в топ 10). К сожалению сейчас нет времени разобрать подробно (привет ICML ребуталлы!), так что просто поделюсь тут. Работа во всех смыслах монументальная, чего стоит только аппендикс в 30+ страниц.
Отличная иллюстрация, что даже с помощью крайне простых инструментов (линейного пробинга) можно накопать кучу интересного если умеешь задавать правильные вопросы. Наверное для меня эта статья в целом ориентир качества в эмпирическом рисерче.
На мой взгляд самая интересная статья по RL с ICLR 2025 (ну или точно в топ 10). К сожалению сейчас нет времени разобрать подробно (привет ICML ребуталлы!), так что просто поделюсь тут. Работа во всех смыслах монументальная, чего стоит только аппендикс в 30+ страниц.
Отличная иллюстрация, что даже с помощью крайне простых инструментов (линейного пробинга) можно накопать кучу интересного если умеешь задавать правильные вопросы. Наверное для меня эта статья в целом ориентир качества в эмпирическом рисерче.
arXiv.org
Interpreting Emergent Planning in Model-Free Reinforcement Learning
We present the first mechanistic evidence that model-free reinforcement learning agents can learn to plan. This is achieved by applying a methodology based on concept-based interpretability to a...
🔥11
с большой вероятностью летом меня можно будет найти тут (как ментора и может быть лектора, но это не точно):
https://t.me/airi_research_institute/825
https://t.me/airi_research_institute/825
Telegram
Институт AIRI
⚡️Открываем прием заявок на Лето с AIRI 2025!
В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую…
В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую…
🔥10❤3👍2
Does RL work yet? pinned «с большой вероятностью летом меня можно будет найти тут (как ментора и может быть лектора, но это не точно): https://t.me/airi_research_institute/825»
Не совсем по теме канала, да и сложно судить о достоверности, не читал пока оригинальные публикации. Но если это так, то это просто вау
https://www.wired.com/story/intelligence-evolved-at-least-twice-in-vertebrate-animals/
https://www.wired.com/story/intelligence-evolved-at-least-twice-in-vertebrate-animals/
WIRED
Intelligence on Earth Evolved Independently at Least Twice
Complex neural circuits likely arose independently in birds and mammals, suggesting that vertebrates evolved intelligence multiple times.
🔥5🤯4❤2
Forwarded from causality links
https://t.me/complete_ai/684
хорошая коллаба получилась, затащили рль для реверс инжиниринга деталей, топ работа как обычно от @adagrad @suessmann и @Howuhh
хорошая коллаба получилась, затащили рль для реверс инжиниринга деталей, топ работа как обычно от @adagrad @suessmann и @Howuhh
Telegram
Complete AI
⚡️⚡️⚡️На прошлой неделе мы в AIRI зарелизили очень крутую работу в рамках трека «Генеративное проектирование» — cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning
Архитектура представляет собой мультимодальную LLM, которая на вход…
Архитектура представляет собой мультимодальную LLM, которая на вход…
🔥14
Знаю, что обещал рассказать в канале про каждую, но сил пока не нашлось. Как нибудь доберусь, а пока вот, небольшие итоги нашей совместной работы в лабе.
https://t.me/dunnolab/35
If there is no wind, row.
https://t.me/dunnolab/35
Telegram
ду́но
📘 Годовой отчет за период июнь 2024–июнь 2025
-> Девиз года: «Сохраняя исследовательские традиции»
В соответствии с научными традициями и вызовами времени, наша команда в 2024 году продолжила уверенное движение по вектору фундаментальных и прикладных исследований…
-> Девиз года: «Сохраняя исследовательские традиции»
В соответствии с научными традициями и вызовами времени, наша команда в 2024 году продолжила уверенное движение по вектору фундаментальных и прикладных исследований…
🔥5❤3
Forwarded from ду́но
This media is not supported in your browser
VIEW IN TELEGRAM
Сейчас суперактивно развивается сегмент бюджетной домашней робототехники на коленке — LeRobot от HuggingFace.
Можно на 3д принтере распечатать детали, за дешево купить приводы и дома на коленке собрать мини-робота.
Например, собрать SO-100 в домашних условиях стоит около 20k рублей, крутяк?
На прошлых выходных @suessmann поучаствовал в хакатоне от HuggingFace: нужно было сделать демо по использованию таких роботов. Илья в домашних условиях собрал робота и заимплементил крутейшее демо для телеоператоров с помощью телефона!
Результат на видосе, если хотите что-то такое же дома провернуть, то вот код: https://github.com/suessmann/daxie
Если вам интересно поработать с нами в направлении RL/VLA и около — скоро откроем набор тут.
А если уже горит и есть оформленные рисерч пропозалы, не ждите — пишите сразу @howuhh.
- - —
@dunnolab
Можно на 3д принтере распечатать детали, за дешево купить приводы и дома на коленке собрать мини-робота.
Например, собрать SO-100 в домашних условиях стоит около 20k рублей, крутяк?
На прошлых выходных @suessmann поучаствовал в хакатоне от HuggingFace: нужно было сделать демо по использованию таких роботов. Илья в домашних условиях собрал робота и заимплементил крутейшее демо для телеоператоров с помощью телефона!
Результат на видосе, если хотите что-то такое же дома провернуть, то вот код: https://github.com/suessmann/daxie
Если вам интересно поработать с нами в направлении RL/VLA и около — скоро откроем набор тут.
А если уже горит и есть оформленные рисерч пропозалы, не ждите — пишите сразу @howuhh.
- - —
@dunnolab
🔥24❤2