BaseLine

Forwarded from Center for Cognitive Modeling

🎓 — Семинар 16. Обобщаемость VLA моделей, выравнивание текстово-визуальных представлений в VLA моделях | Никита Качаев

На семинаре разберёмся, почему VLA-модели после дообучения начинают «забывать», терять фокус и тексто-языковое понимание при обучении на малых робототехнических датасетах, и как метод выравнивания визуальных представлений помогает это исправить. А также на примере результатов на бенчмарке VL-Think посмотрим, насколько хорошо VLA модели усваивают знания из повседневной жизни.

📎Github
👉🏻 Дата: 21.05.26, четверг в 17:00
📹 Трансляция: Youtube или ВК

Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!

#семинары #VLA

👍4🔥1🤡1

252 views14:02

BaseLine

Forwarded from Center for Cognitive Modeling

🪼 — До конца подачи заявок в магистратуру ЦКМ осталось 2 дня — делимся историями наших студентов!

Первый гость интервью: Максим Бредихин, выпускник бакалавриата МГТУ им. Н. Э. Баумана, студент магистратуры ЦКМ. В Центре он занимается full-body control — это методы, которые позволяют мобильным манипуляторам и антропоморфным роботам расширять свои возможности за счет движения всего тела, а не только отдельных частей.

Как узнал о ЦКМ?

На ROS Meetup. Там я пообщался со студентами и сотрудниками Центра, они рассказали про проекты внутри ЦКМ и про магистерскую программу. Решил поступать именно сюда, так как многие темы были близки с моей научной и профессиональной деятельностью.

Почему именно магистратура ЦКМ?

Меня привлёк разнообразный набор дисциплин: можно глубоко погрузиться в предметную область, разобраться в современных SOTA-методах и в дальнейшем начать писать научные статьи. Также для меня важно, что преподаватели — это действующие исследователи, публикующие A* статьи, которые делятся своим опытом и всегда открыты к сотрудничеству и нетворкингу. Отдельно привлекает техническая возможность работать с реальными роботами и оборудованием, чтобы проверять свои гипотезы не только в симуляции, но и на железе.

Следующая история может быть ваша! Подавайте заявку на собеседование в магистратуру ЦКМ до 1 июня. Подробнее.

Поддержим Максима реакциями🪼

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

211 views04:37

BaseLine

Друзья!

Мы с командой @amazing_research просим помочь с проведением пользовательского исследования для статьи

Задача — оценить реалистичность автоматически сгенерированных текстовых контекстов для персонализированной рекомендации фильмов

Прохождение задания занимает около 5 минут и не требует специальных знаний

Telegram-бот: @RecSysUserStudyBot

Заранее спасибо всем, кто пройдет!

Важно пройти его до 5го июня, чтобы мы успели обработать результаты 🤗

❤3👌1

1.57K views15:00

BaseLine

Forwarded from Институт AIRI

Завершилась конференция AAMAS 2026

Международная конференция по автономным агентам и многоагентным системам в этом году проходила с 25 по 29 мая в городе Пафос, Кипр. На ней исследователи лаборатории когнитивных систем искусственного интеллекта AIRI Александр Панов, Алексей Скрынник, Алексей Ковалёв, Егор Черепанов, Мария Нестерова и Антон Андрейчук представили 3 работы⤵️

📎

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

📎

Memory Retention Is Not Enough to Master Memory Tasks in Reinforcement Learning

📎

MARL-GPT: Foundation Model for Multi-Agent Reinforcement Learning

Делимся фотографиями с Кипра📷

#AIRIнаКонфе

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8

245 views15:45

BaseLine

Forwarded from Embodied AI Reading Club

🔥

Всем привет!

📆

Завтра (05.06) в 17:00 Егор Черепанов, Алексей Староверов и Татьяна Земскова разберут архитектуру и методы обучения и инференса модели

RLDX-1

от корейского стартапа RLWRLD и обсудят, почему эту работу уже можно считать заметным вызовым современным VLA-моделям.

⚫️Авторы предлагают VLA-архитектуру для мобильной манипуляции, которая объединяет память на разных уровнях, тактильные сигналы, синтетические данные для редких сценариев и оптимизации инференса для работы в реальном времени.

⚫️Отдельно будет уделено внимание архитектуре MSAT, где разные модальности обрабатываются отдельными потоками и затем связываются через совместное self-attention.

⚫️Также будет разобрано, как эти инженерные и модельные решения переводятся в практический результат: RLDX-1 работает на частоте до 22 Гц на RTX 5090, а в экспериментах на реальном роботе и в симуляции заметно превосходит сильные базовые модели, включая π0.5 и NVIDIA GR00T N1.6. В частности, в задачах для гуманоидного робота ALLEX модель достигает 86.8% успеха против примерно 40% у конкурентов.

⚫️На семинаре обсудим, насколько эти результаты делают RLDX-1 серьёзным конкурентом для Pi0.7 и других SOTA VLA, а также посмотрим, что особенно важно для сообщества: у работы уже доступны код и веса.

Ссылки:
1. Технический репорт
2. Код и веса моделиr

🍿

Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

282 views14:00

BaseLine

Forwarded from Институт AIRI

О ключевом элементе в развитии современных роботов — памяти⤵️

Егор Черепанов, младший научный сотрудник группы «Воплощённые агенты» лаборатории когнитивных систем искусственного интеллекта Института AIRI, рассказывает в интервью «Ъ-Науке»:

⚫️что исследователи обычно имеют в виду, говоря о памяти робота
⚫️зачем она нужна современным роботам и какие проблемы могут возникать, если они «не помнят»
⚫️почему адаптация оказывается сложной задачей для роботов
⚫️как работать с памятью и где она хранится

📎

Читайте материал по ссылке.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9

257 views15:40

BaseLine

1:12

This media is not supported in your browser

VIEW IN TELEGRAM

Всем привет!

Выложили нашу работу “Does VLA Even Know the Basics?” в Daily Papers на Hugging Face 🤗

В статье мы задаёмся простым, но пока почти не изученным вопросом: есть ли в VLA-моделях commonsense знания о мире? 📚

⚡️Мы предлагаем Act2Answer: бенчмарк, где VLA модель отвечает на вопросы не текстом, а действием - кладёт куб на правильный вариант. Проверили 7 VLA и 9 VLM моделей на 12 категориях.

💡Интересные инсайты из работы:

→ VLA хорошо понимают примитивные концепты по типу Цвета и Формы

→ На более сложных категориях (Эмоции, Животные, Симметрия, Время, Счет, История) у VLA сильный дроп в сравнении с VLM

→ Знания есть в весах VLA моделей, однако они не транслируются в действия

→ Котрейнинг на VL данных хорошо помогает сохранять знания

→ SFT/RL файтюнинг на downstream роботикс задачах дергадирует знания

Поддержите нас апвоутом пожалуйста ❤️

❤7🔥6👍3👏3

161 views17:38

About

Blog

Apps

Platform