Про возможности self-play и open-ended learning конечно давно известно. Например та же работа от DeepMind с крайне похожими результатами. Все что надо - чтобы симулятор был быстрым и разнообразным.
https://deepmind.google/discover/blog/generally-capable-agents-emerge-from-open-ended-play/
https://deepmind.google/discover/blog/generally-capable-agents-emerge-from-open-ended-play/
Google DeepMind
Generally capable agents emerge from open-ended play
In recent years, artificial intelligence agents have succeeded in a range of complex game environments. For instance, AlphaZero beat world-champion programs in chess, shogi, and Go after starting...
❤3👍1
Уже довольно старая статья про перспективы скейлинга в роботике. Довольно занятная, есть примеры за и против, в конце - некоторые советы над чем стоит работать
https://nishanthjkumar.com/blog/2023/Will-Scaling-Solve-Robotics-Perspectives-from-CoRL-2023/
https://nishanthjkumar.com/blog/2023/Will-Scaling-Solve-Robotics-Perspectives-from-CoRL-2023/
❤5👍2
Самое время подвести итоги сабмитов на ICLR 2025. Не все успели довести до фулл статей, но и воркшопы тоже хорошо!
Что-то уже есть на архиве (и еще будет обновлятся с новыми результатами), так что делюсь:
1. XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning (Main, Poster), by @howuhh and @suessmann and @zzmtsvv
2. Latent Action Learning Requires Supervision in the Presence of Distractors (Workshop, World Models), by @howuhh
3. Object-Centric Latent Action Learning (Workshop, World Models), by @cinemere
4. N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs (Workshop, SCOPE), by @suessmann
5. Yes, Q-learning Helps Offline In-Context RL (Workshop, SSI-FM), by @adagrad
Что-то уже есть на архиве (и еще будет обновлятся с новыми результатами), так что делюсь:
1. XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning (Main, Poster), by @howuhh and @suessmann and @zzmtsvv
2. Latent Action Learning Requires Supervision in the Presence of Distractors (Workshop, World Models), by @howuhh
3. Object-Centric Latent Action Learning (Workshop, World Models), by @cinemere
4. N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs (Workshop, SCOPE), by @suessmann
5. Yes, Q-learning Helps Offline In-Context RL (Workshop, SSI-FM), by @adagrad
🔥22👍3
Interpreting Emergent Planning in Model-Free Reinforcement Learning [blogpost][code]
На мой взгляд самая интересная статья по RL с ICLR 2025 (ну или точно в топ 10). К сожалению сейчас нет времени разобрать подробно (привет ICML ребуталлы!), так что просто поделюсь тут. Работа во всех смыслах монументальная, чего стоит только аппендикс в 30+ страниц.
Отличная иллюстрация, что даже с помощью крайне простых инструментов (линейного пробинга) можно накопать кучу интересного если умеешь задавать правильные вопросы. Наверное для меня эта статья в целом ориентир качества в эмпирическом рисерче.
На мой взгляд самая интересная статья по RL с ICLR 2025 (ну или точно в топ 10). К сожалению сейчас нет времени разобрать подробно (привет ICML ребуталлы!), так что просто поделюсь тут. Работа во всех смыслах монументальная, чего стоит только аппендикс в 30+ страниц.
Отличная иллюстрация, что даже с помощью крайне простых инструментов (линейного пробинга) можно накопать кучу интересного если умеешь задавать правильные вопросы. Наверное для меня эта статья в целом ориентир качества в эмпирическом рисерче.
arXiv.org
Interpreting Emergent Planning in Model-Free Reinforcement Learning
We present the first mechanistic evidence that model-free reinforcement learning agents can learn to plan. This is achieved by applying a methodology based on concept-based interpretability to a...
🔥11
с большой вероятностью летом меня можно будет найти тут (как ментора и может быть лектора, но это не точно):
https://t.me/airi_research_institute/825
https://t.me/airi_research_institute/825
Telegram
Институт AIRI
⚡️Открываем прием заявок на Лето с AIRI 2025!
В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую…
В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую…
🔥10❤3👍2
Does RL work yet? pinned «с большой вероятностью летом меня можно будет найти тут (как ментора и может быть лектора, но это не точно): https://t.me/airi_research_institute/825»
Не совсем по теме канала, да и сложно судить о достоверности, не читал пока оригинальные публикации. Но если это так, то это просто вау
https://www.wired.com/story/intelligence-evolved-at-least-twice-in-vertebrate-animals/
https://www.wired.com/story/intelligence-evolved-at-least-twice-in-vertebrate-animals/
WIRED
Intelligence on Earth Evolved Independently at Least Twice
Complex neural circuits likely arose independently in birds and mammals, suggesting that vertebrates evolved intelligence multiple times.
🔥5🤯4❤2
Forwarded from causality links
https://t.me/complete_ai/684
хорошая коллаба получилась, затащили рль для реверс инжиниринга деталей, топ работа как обычно от @adagrad @suessmann и @Howuhh
хорошая коллаба получилась, затащили рль для реверс инжиниринга деталей, топ работа как обычно от @adagrad @suessmann и @Howuhh
Telegram
Complete AI
⚡️⚡️⚡️На прошлой неделе мы в AIRI зарелизили очень крутую работу в рамках трека «Генеративное проектирование» — cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning
Архитектура представляет собой мультимодальную LLM, которая на вход…
Архитектура представляет собой мультимодальную LLM, которая на вход…
🔥14
Знаю, что обещал рассказать в канале про каждую, но сил пока не нашлось. Как нибудь доберусь, а пока вот, небольшие итоги нашей совместной работы в лабе.
https://t.me/dunnolab/35
If there is no wind, row.
https://t.me/dunnolab/35
Telegram
ду́но
📘 Годовой отчет за период июнь 2024–июнь 2025
-> Девиз года: «Сохраняя исследовательские традиции»
В соответствии с научными традициями и вызовами времени, наша команда в 2024 году продолжила уверенное движение по вектору фундаментальных и прикладных исследований…
-> Девиз года: «Сохраняя исследовательские традиции»
В соответствии с научными традициями и вызовами времени, наша команда в 2024 году продолжила уверенное движение по вектору фундаментальных и прикладных исследований…
🔥5❤3
Forwarded from ду́но
This media is not supported in your browser
VIEW IN TELEGRAM
Сейчас суперактивно развивается сегмент бюджетной домашней робототехники на коленке — LeRobot от HuggingFace.
Можно на 3д принтере распечатать детали, за дешево купить приводы и дома на коленке собрать мини-робота.
Например, собрать SO-100 в домашних условиях стоит около 20k рублей, крутяк?
На прошлых выходных @suessmann поучаствовал в хакатоне от HuggingFace: нужно было сделать демо по использованию таких роботов. Илья в домашних условиях собрал робота и заимплементил крутейшее демо для телеоператоров с помощью телефона!
Результат на видосе, если хотите что-то такое же дома провернуть, то вот код: https://github.com/suessmann/daxie
Если вам интересно поработать с нами в направлении RL/VLA и около — скоро откроем набор тут.
А если уже горит и есть оформленные рисерч пропозалы, не ждите — пишите сразу @howuhh.
- - —
@dunnolab
Можно на 3д принтере распечатать детали, за дешево купить приводы и дома на коленке собрать мини-робота.
Например, собрать SO-100 в домашних условиях стоит около 20k рублей, крутяк?
На прошлых выходных @suessmann поучаствовал в хакатоне от HuggingFace: нужно было сделать демо по использованию таких роботов. Илья в домашних условиях собрал робота и заимплементил крутейшее демо для телеоператоров с помощью телефона!
Результат на видосе, если хотите что-то такое же дома провернуть, то вот код: https://github.com/suessmann/daxie
Если вам интересно поработать с нами в направлении RL/VLA и около — скоро откроем набор тут.
А если уже горит и есть оформленные рисерч пропозалы, не ждите — пишите сразу @howuhh.
- - —
@dunnolab
🔥24❤2
Недавно @YulianaShakhvalievaa и @spirin_egor позвали меня прочитать небольшую лекцию о том, почему стоит заниматься RL-ем, да еще и именно рисерчем, в магистратуру по мл и анализу данных в вшэ (а я сам ее заканчивал!) Глобально курс был обзорный, чтобы ребята смогли познакомится с разными областями deep learning, поэтому приглашали разных экспертов из индустрии и около.
Лекцию я прочитал и вроде даже всем понравилось. Решил выложить слайды, вдруг кому-то будет еще интересно. Не стоит относится к некоторым (спорным!) тейкам серьезно. Основной целью было увлечь рлем, а тут все средства хороши! В конце подборка статей с интересными результатами.
Слайды лежат тут.
Лекцию я прочитал и вроде даже всем понравилось. Решил выложить слайды, вдруг кому-то будет еще интересно. Не стоит относится к некоторым (спорным!) тейкам серьезно. Основной целью было увлечь рлем, а тут все средства хороши! В конце подборка статей с интересными результатами.
Слайды лежат тут.
🔥9❤2👍2
Прилетел в Томск на летнюю школу AIRI. Будут тут на протяжении всей школы, так что если вам по какой-то причине хочется со мной встретиться и поболтать об рле/рисерче и в целом, пишите!
airi.net
Лето с AIRI
Ежегодная Школа для молодых ученых — это глубокое погружение в работу с широким спектром современных методов искусственного интеллекта и машинного обучения.
✍11❤3
Сегодня последний день школы. Был очень рад со всеми познакомиться, внезапно Томск понравился гораздо больше, чем я того ожидал.
Я на школе как раз прочитал небольшую лекцию о том, чем сейчас занят и о своей последней статье, принятой на ICML 2025. Все не дошли руки ее описать здесть отдельно (во всем прошу винить диссер)... Запись я надеюсь потом выложат, а пока опять же делюсь слайдами. Тема крайне интересная и перспективная, так что всем смотреть!
Слайды тут.
Я на школе как раз прочитал небольшую лекцию о том, чем сейчас занят и о своей последней статье, принятой на ICML 2025. Все не дошли руки ее описать здесть отдельно (во всем прошу винить диссер)... Запись я надеюсь потом выложат, а пока опять же делюсь слайдами. Тема крайне интересная и перспективная, так что всем смотреть!
Слайды тут.
Google Docs
Latent Actions, Final, Nikulin, AIRI Summer 2025
Обучение по данным без действий Александр Никулин Научный сотрудник AIRI, Адаптивные агенты
👍9🔥4❤3