Чем запомнился первый день ICRA 2026
С 1 по 5 июня в Вене идёт International Conference on Robotics & Automation. Хайлайтами первого дня поделился Максим Спорышев — руководитель службы поведения и предсказания движения в Автономном транспорте Яндекса.
Доклады
🔴 Команда исследователей из Huawei, NVIDIA Research, OpenDriveLab b Shanghai AI Laboratory рассказала о своём пост-трейновом фреймворке World Engine: как он помог им проехать 200 км по Шанхаю без дизенгейджмента. Обещают выпустить в опенсорс — что-то уже доступно на GitHub. Работа показалась интересной с точки зрения генерации safety-critical-кейсов.
🔴 NVIDIA объявили, что вслед за недавним релизом модели Alpamayo 2 и симулятора выложат огромный датасет и запустят челлендж AlpaSim. 25 стран, 2500 городов и 1700 часов проездов — звучит супермощно, очень ждём!
Постеры
🔴 Первые три фото — целый воркшоп о предикшне поведения пешеходов. Авторы рассуждают о самой острой проблеме: предсказать действия пешеходов довольно сложно, особенно в парадигме, что их поведение зависит от движения автономного транспорта. Но хороших решений пока нет.
🔴 На четвёртом фото постер о том, как подбустить персепшн в тумане. Результат работы авторы проверяли на датасете KITTI.
🔴 Пятый постер — ещё один способ токенизировать таргет, чтобы предсказывать движение автономного транспорта.
🔴 На шестом фото работа о подходе к обучению, актуальном для SDG. Авторы рассматривают пайплайн обучения с normalizing flows для задач манипуляции: IL➡️ Critic offline Warmup➡️ Offline RL➡️ Online RL.
#YaICRA26
404 driver not found
С 1 по 5 июня в Вене идёт International Conference on Robotics & Automation. Хайлайтами первого дня поделился Максим Спорышев — руководитель службы поведения и предсказания движения в Автономном транспорте Яндекса.
Доклады
Постеры
#YaICRA26
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍8🔥8🤩3
Земной автомобиль, луноход или марсианский ровер — на ICRA 2026 припаркуются все
Позади второй день конференции — продолжаем делиться самым интересным об автономном вождении. Слово Максиму Спорышеву:
Конференция продлится до 5 июня — ещё вернёмся с новой порцией наблюдений.
#YaICRA26
404 driver not found
Позади второй день конференции — продолжаем делиться самым интересным об автономном вождении. Слово Максиму Спорышеву:
Среди докладчиков были те, кто буквально делает космолёты. Они рассказали о локализации для lunar landing, навигации на Марсе и детекции аномалий в космосе — только представьте, какие у них байки про продакшн.
Понравились три постера. Первый — от Waabi AI. Они реализовали 3D-реконструкцию в зоне, ближайшей к исходному треку. Хорошее решение для симуляции перестроения, но не подходящее для сложных разворотов и прокладывания нового маршрута.
Тесты проводят на дистанциях 3, 4 и 5 метров от исходных положений камер: делают feedforward-рендеринг с помощью 3D Gaussian Splatting, добавляют шум и денойзят всё диффузией, которая училась восстанавливать изображения на дистанции 3 метра.
Второй постер — об обучении через имитацию действий других участников дорожного движения. Чтобы собрать тренировочный датасет, авторы берут сцены на nuPlan, выбирают на них одного-двух хороших агентов и трансформируют их движение так, будто всё происходит от лица эго-агента. Плохие данные фильтруют по метрикам комфорта, пройденной дистанции и TTC.
С ростом количества данных эффективность обучения падает: между первыми точками графика заметна большая разница, а ближе к 100 тысячам сцен её почти нет. Для проверки использовали модель PLUTO.
На третьем постере — self-supervised-способ трекинга на лидарных облаках через кластеризации точек и фильтры Калмана. Жаль, что не удалось поймать авторов: они утверждают, что работают на уровне supervised-трекеров.
Отдельно отмечу два доклада, номинированных на звание лучших работ.
Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning
Статья о robotic manipulation, но решаемая в ней проблема актуальна и для автономного транспорта.
Авторы показывают, что качество всех VLA сильно просаживается, если меняется положение камер: в сетапах с рандомным размещением success rate проседает в пару раз.
Решение — подавать положение камер через Plücker ray-maps. То есть задавать луч камеры для каждого пикселя шестью дополнительными числами: дельтами и моментами.
С таким кондишенингом на камеры авторы отыгрывают просадку: success rate становится в пару раз лучше, чем у обычных VLA.
FP3: A 3D Foundation Policy for Robotic Manipulation
Авторы критикуют vision-энкодеры в современных VLA и утверждают, что без трёхмерного представления о мире не обойтись.
Взамен предлагают сетап обучения с Uni3D в качестве энкодера. Он показывает довольно высокие success rates: до 90% на некоторых тасках.
Напоследок авторы показывают профит от масштабирования своего трансформера до 1,3B.
Конференция продлится до 5 июня — ещё вернёмся с новой порцией наблюдений.
#YaICRA26
404 driver not found
❤8❤🔥6👍4🔥1🤩1
Residual RL, генерация сложных сценариев поведения и безопасность движения: что обсуждали в третий день ICRA 2026
Продолжаем трансляцию с главной международной конференции о робототехнике и автоматизации. Сегодня в подборку самого интересного вошёл один доклад и пять постеров.
Residual Off-Policy RL for Finetuning Behavior Cloning Policies
Работа от Amazon Frontier AI & Robotics, посвящённая планированию движения. Проблематика рассматривается на роботах, но те же подходы можно применить к автономному транспорту.
Для больших VLA хорошо работает behaviour-cloning-претрейн, но RL пока масштабируется плохо: недостаточно данных, сложно учиться на success rate длинных горизонтов, а пространства экшнов слишком большие (в статье упоминаются 29 DOF), чтобы покрывать их в RL.
Авторы предлагают учить Residual RL — политику, которая даёт небольшую добавку к экшну от BC. А ещё делятся рецептом реализации:
🔴 Off-policy RL — показывают, что Residual PPO в 200 (!!!) раз менее эффективен, чем Residual off-policy.
🔴 Много апдейтов на один роллаут.
🔴 N-steps returns.
Learning to Annotate Delayed and False AEB events: a Practical System for Extreme Class Imbalance and Asymmetric Label Noise
Постер о том, как работает AEB в Lixiang. Говорят, что в проде используют и rule-based, и модель. Чаще срабатывает rule-based, модель тюнят для более сложных сценариев. Данные собирают по экстренным торможениям всех пользователей Lixiang. Датасетами, конечно же, не делятся.
Search3D: Hierarchical Open-Vocabulary 3D Segmentation
Второй постер о новом подходе к open vocabulary от ETH, Google и Stanford. Застать авторов, к сожалению, не получилось.
VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving
Третий постер — от Waymo. Взяли VLM, собрали преференсы, обучили DPO. Но не для end2end-, а для motion-LM-модели. На метриках open-loop стало лучше, на closed-loop не проверяли.
COMPASS: Cross-embOdiment Mobility Policy via ResiduAI RL and Skill Synthesis
Ещё один Residual RL на четвёртом постере: на этот раз от NVIDIA. Авторы пишут что обучение только в симуляторе хорошо работает в реальности без sim2real.
Conditional Flow-VAE for Safety-Critical Traffic Scenario Generation
Пятый постер — работа Waabi AI о генерации сложных сценариев поведения. Учат генеративную модель на обычных данных, потом на малом числе кейсов тренируют для неё флоуматчинг, который переводит оригинальное распределение в более safety critical.
#YaICRA26
Подсмотрел для вас интересное❣️ Максим Спорышев
404 driver not found
Продолжаем трансляцию с главной международной конференции о робототехнике и автоматизации. Сегодня в подборку самого интересного вошёл один доклад и пять постеров.
Residual Off-Policy RL for Finetuning Behavior Cloning Policies
Работа от Amazon Frontier AI & Robotics, посвящённая планированию движения. Проблематика рассматривается на роботах, но те же подходы можно применить к автономному транспорту.
Для больших VLA хорошо работает behaviour-cloning-претрейн, но RL пока масштабируется плохо: недостаточно данных, сложно учиться на success rate длинных горизонтов, а пространства экшнов слишком большие (в статье упоминаются 29 DOF), чтобы покрывать их в RL.
Авторы предлагают учить Residual RL — политику, которая даёт небольшую добавку к экшну от BC. А ещё делятся рецептом реализации:
Learning to Annotate Delayed and False AEB events: a Practical System for Extreme Class Imbalance and Asymmetric Label Noise
Постер о том, как работает AEB в Lixiang. Говорят, что в проде используют и rule-based, и модель. Чаще срабатывает rule-based, модель тюнят для более сложных сценариев. Данные собирают по экстренным торможениям всех пользователей Lixiang. Датасетами, конечно же, не делятся.
Search3D: Hierarchical Open-Vocabulary 3D Segmentation
Второй постер о новом подходе к open vocabulary от ETH, Google и Stanford. Застать авторов, к сожалению, не получилось.
VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving
Третий постер — от Waymo. Взяли VLM, собрали преференсы, обучили DPO. Но не для end2end-, а для motion-LM-модели. На метриках open-loop стало лучше, на closed-loop не проверяли.
COMPASS: Cross-embOdiment Mobility Policy via ResiduAI RL and Skill Synthesis
Ещё один Residual RL на четвёртом постере: на этот раз от NVIDIA. Авторы пишут что обучение только в симуляторе хорошо работает в реальности без sim2real.
Conditional Flow-VAE for Safety-Critical Traffic Scenario Generation
Пятый постер — работа Waabi AI о генерации сложных сценариев поведения. Учат генеративную модель на обычных данных, потом на малом числе кейсов тренируют для неё флоуматчинг, который переводит оригинальное распределение в более safety critical.
#YaICRA26
Подсмотрел для вас интересное
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11⚡4👍4❤1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
POV: ведём вас читать обзоры и лучшие статьи ICRA 2026
Сегодня заключительный день конференции. И вот что рассказали о ней наши коллеги:
➡️ Чем запомнился первый день ICRA 2026
➡️ И ещё одно мнение о первом дне в канале ML Underhood
➡️ Земной автомобиль, луноход или марсианский ровер — на ICRA 2026 припаркуются все
➡️ Заметки о втором дне в канале ML Underhood
➡️ Residual RL, генерация сложных сценариев поведения и безопасность движения: что обсуждали в третий день ICRA 2026
А вот работы, которые отметил оргкомитет ICRA 2026.
Награду Best Conference Paper Award получили две статьи:
🔴 SymSkill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation
Интересный не-ML-подход к манипуляционным задачам.
🔴 OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
Обучение гуманоидов на человеческих демонстрациях — новый способ ретаргетинга, который сохраняет расстояния до объектов, точки контактов, связи с окружением.
В категорию Best paper in Robotic Learning попала одна работа:
Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning
Необычный кондишенинг положения камер в VLA-моделях.
В качестве Best Perception paper отметили ещё одну интересную статью:
FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment
Exploration и mapping над пространством объектов. Робот ищет произвольный объект в неизвестной локации и по пути строит карту всего, что нашёл. Про каждый объект запоминает языковое описание, положение в пространстве, геометрию и визуальные признаки.
#YaICRA26
Говорили и показывали❣️ Максим Спорышев и Егор Волков
404 driver not found
Сегодня заключительный день конференции. И вот что рассказали о ней наши коллеги:
А вот работы, которые отметил оргкомитет ICRA 2026.
Награду Best Conference Paper Award получили две статьи:
Интересный не-ML-подход к манипуляционным задачам.
Обучение гуманоидов на человеческих демонстрациях — новый способ ретаргетинга, который сохраняет расстояния до объектов, точки контактов, связи с окружением.
В категорию Best paper in Robotic Learning попала одна работа:
Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning
Необычный кондишенинг положения камер в VLA-моделях.
В качестве Best Perception paper отметили ещё одну интересную статью:
FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment
Exploration и mapping над пространством объектов. Робот ищет произвольный объект в неизвестной локации и по пути строит карту всего, что нашёл. Про каждый объект запоминает языковое описание, положение в пространстве, геометрию и визуальные признаки.
#YaICRA26
Говорили и показывали
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥6❤🔥5🏆2👍1🙏1
VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking
Классические dense-подходы, применяемые поверх воксельных featuremap’ов требуют большого количества вычислений и пост-процессинга (например, NMS). Сегодня разберём статью о попытках оптимизировать это.
Авторы предлагают решать задачу 3D-детекции на лидарных точках в fully-sparse режиме. Для построения такого детектора используют классический spconv-based лидарный бэкбон. Но с улучшениями:
🔴 В изначальный FPN добавили больше featuremap’ов в низком разрешении с последующим апсэмплом. Это значительно увеличило размер эффективного рецептивного поля.
🔴 В конец лидарного бэкбона добавили пуллинг по высоте. Вычислений стало меньше, но метрики не изменились.
🔴 Добавили spatially voxel pruning, «размазывающий» только воксели с достаточно большими магнитудами.
🔴 Кандидатов в боксы отбирали не NMS, а sparse-max-пуллингом. С точки зрения метрик это оказалось почти эквивалентной заменой.
В статье много ablation’ов по всем предложенным изменениям. По результатам замеров на nuScenes, подход позволяет получить сравнимое с лидерами качество 3D-детекции при значительно лучшем latency.
Разбор подготовил❣️ Владимир Филипенко
404 driver not found
Классические dense-подходы, применяемые поверх воксельных featuremap’ов требуют большого количества вычислений и пост-процессинга (например, NMS). Сегодня разберём статью о попытках оптимизировать это.
Авторы предлагают решать задачу 3D-детекции на лидарных точках в fully-sparse режиме. Для построения такого детектора используют классический spconv-based лидарный бэкбон. Но с улучшениями:
В статье много ablation’ов по всем предложенным изменениям. По результатам замеров на nuScenes, подход позволяет получить сравнимое с лидерами качество 3D-детекции при значительно лучшем latency.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥8👍7
Occupancy Grid Prediction [1/2]
Сегодня начнём серию постов о 3D occupancy perception. В первой части обсудим особенности подхода и общие тренды, а в следующей — разберём несколько актуальных работ.
Для этого подхода сцену представляют плотной 3D-решёткой (вокселями) с семантикой и метками «занято» или «пусто». В отличие от BEV, в 3D occupancy perception явно моделируют высоту, что критично для сложных городских сцен. Например, для случаев, когда 3D occupancy справляется лучше, чем 2D: небольшие камни или куски мусора на дороге, которые проще пропустить между колёс, а не объезжать. Или края досок, вылезающие за пределы грузовика: если они достаточно высоко, легковой автономный автомобиль без проблем под ними проедет.
В общих чертах стек охватывает технологии:
🔴 от 2D→3D-преобразований (проекция из 3D на камеру и обратно с предсказанием глубины, кросс-аттеншн);
🔴 до пространственно-временного фьюжна признаков с нескольких камер и мультимодальной интеграции камеры, лидара и радара.
Среди популярных методов обучения — self-supervised, weak, strong. Среди метрик — IoU, MIoU и ray-MIoU (это IoU вдоль каждого луча камеры). Ключевыми датасетами считаются nuScenes, Waymo и SemanticKITTY.
Тренд последних лет — стремительный рост vision-centric-методов. Камеры дешевеют, текстуры улучшаются, а за счёт продвинутого 2D→3D и temporal fusion разница в качестве предсказаний на основе данных камер и лидаров стремительно сокращается. Но лидар по-прежнему обеспечивает наилучшую геометрию, а мультимодальные схемы ещё не всегда стабильно опережают одномодальные — потенциал фьюжна до сих пор не раскрыт.
При грамотной оптимизации (облегчённые головы, разреженные представления, ускорение инференса) можно получить ~10–13 FPS на Occ3D-nuScenes при MIoU около 40%. Это уже близко к практическим требованиям.
Главные вызовы подхода: реальное время на бортовом железе, робастность к погодным условиям, окклюзиям и отказам сенсоров, а также обобщение без дорогой плотной 3D-разметки. На горизонте — occupancy flow для моделирования динамики, модель мира и использование occupancy как единого представления для восприятия, предсказания и планирования.
В следующем посте разберём несколько актуальных работ, посвящённых 3D occupancy perception.
Разбор подготовил❣️ Иван Лунев
404 driver not found
Сегодня начнём серию постов о 3D occupancy perception. В первой части обсудим особенности подхода и общие тренды, а в следующей — разберём несколько актуальных работ.
Для этого подхода сцену представляют плотной 3D-решёткой (вокселями) с семантикой и метками «занято» или «пусто». В отличие от BEV, в 3D occupancy perception явно моделируют высоту, что критично для сложных городских сцен. Например, для случаев, когда 3D occupancy справляется лучше, чем 2D: небольшие камни или куски мусора на дороге, которые проще пропустить между колёс, а не объезжать. Или края досок, вылезающие за пределы грузовика: если они достаточно высоко, легковой автономный автомобиль без проблем под ними проедет.
В общих чертах стек охватывает технологии:
Среди популярных методов обучения — self-supervised, weak, strong. Среди метрик — IoU, MIoU и ray-MIoU (это IoU вдоль каждого луча камеры). Ключевыми датасетами считаются nuScenes, Waymo и SemanticKITTY.
Тренд последних лет — стремительный рост vision-centric-методов. Камеры дешевеют, текстуры улучшаются, а за счёт продвинутого 2D→3D и temporal fusion разница в качестве предсказаний на основе данных камер и лидаров стремительно сокращается. Но лидар по-прежнему обеспечивает наилучшую геометрию, а мультимодальные схемы ещё не всегда стабильно опережают одномодальные — потенциал фьюжна до сих пор не раскрыт.
При грамотной оптимизации (облегчённые головы, разреженные представления, ускорение инференса) можно получить ~10–13 FPS на Occ3D-nuScenes при MIoU около 40%. Это уже близко к практическим требованиям.
Главные вызовы подхода: реальное время на бортовом железе, робастность к погодным условиям, окклюзиям и отказам сенсоров, а также обобщение без дорогой плотной 3D-разметки. На горизонте — occupancy flow для моделирования динамики, модель мира и использование occupancy как единого представления для восприятия, предсказания и планирования.
В следующем посте разберём несколько актуальных работ, посвящённых 3D occupancy perception.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥15✍8🔥8⚡2❤2
Occupancy Grid Prediction [2/2]
Продолжаем серию постов о 3D occupancy perception. В первой части обсудили особенности подхода и общие тренды, а сегодня разберём три актуальные работы.
Одна из особенностей Agent Occupancy Grid — воксели агентов движутся и в системе координат мира, и в системе эго-агента. Это значит, что можно предсказывать Occupancy Grid Flow — то есть, направление и скорость перемещения каждого вокселя.
Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction
Авторы предлагают решать задачи Occupancy Grid (OG) и Occupancy Grid Flow (OG Flow) prediction, не используя 3D-аннотации. Для этого они обращаются к данным изображений и Optical Flow, полученным из внешней модели.
В общих чертах это работает так:
🔴 2D→3D-энкодер извлекает признаки изображений и строит из них трёхмерный тензор благодаря проекциям на 3D-плоскости.
🔴 Temporal Fusion выравнивает признаки с учетом движения эго-агента, и с помощью deformable attention извлекает временные признаки для разных уровней высоты.
🔴 Rendering-Based Optimization — две разные головы предсказывают Semantic Occupancy Grid и Occupancy Grid Flow. Полученные результаты рендерят на плоскости камер с помощью NeuS и сравнивают с уже существующими изображениями Optical Flow и картами глубин.
🔴 Flow-Oriented Optimization разделяет оптимизацию динамических и статических областей для улучшения сходимости.
ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions
Архитектура для предсказания Occupancy Grid и Occupancy Grid Flow. Её главные элементы:
🔴 Adaptive Lifting. Это аналог LSS, но с учётом внутриобъектной и межобъектной окклюзий.
🔴 Semantic Prototype-Based Occupancy Head. В голове предсказания OG используют обучаемые векторы (прототипы), которые инвариантны к BEV- и 3D-представлениям.
🔴 Cost Volume-Based Flow Prediction Head. Для головы предсказания OG Flow вводят тензор, который содержит скалярные произведения всех сдвигов 3D-признаков относительно соседних таймстемпов. Это позволяет семантически сопоставить движущихся агентов в разные моменты времени.
UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous
Бенчмарк для всех задач Occupancy Grid. Авторы предлагают унифицированное представление данных и инструменты для конвертации открытых датасетов разных форматов.
Задачи условно делят на три категории: предсказание OG, OG Flow и OG/OG Flow с использованием парных проездов.
🔴 Для nuScenes и Waymo синтезировали псевдоразметку с помощью Occ3d, OpenOccupancy и SurroundOcc.
🔴 Для движков симуляции Carla и openCOOD — нагенерировали сцен с точными ground truth.
Также авторы предлагают универсальный набор инструментов для задач детекции, трекинга и выравнивания объектов в OG и новые метрики: правдоподобность размеров объектов, временную консистеность формы объекта и фонового окружения.
А какие интересные статьи о 3D occupancy perception находили вы? Расскажите в комментариях!
Разбор подготовил❣️ Антон Семенюта
404 driver not found
Продолжаем серию постов о 3D occupancy perception. В первой части обсудили особенности подхода и общие тренды, а сегодня разберём три актуальные работы.
Одна из особенностей Agent Occupancy Grid — воксели агентов движутся и в системе координат мира, и в системе эго-агента. Это значит, что можно предсказывать Occupancy Grid Flow — то есть, направление и скорость перемещения каждого вокселя.
Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction
Авторы предлагают решать задачи Occupancy Grid (OG) и Occupancy Grid Flow (OG Flow) prediction, не используя 3D-аннотации. Для этого они обращаются к данным изображений и Optical Flow, полученным из внешней модели.
В общих чертах это работает так:
ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions
Архитектура для предсказания Occupancy Grid и Occupancy Grid Flow. Её главные элементы:
UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous
Бенчмарк для всех задач Occupancy Grid. Авторы предлагают унифицированное представление данных и инструменты для конвертации открытых датасетов разных форматов.
Задачи условно делят на три категории: предсказание OG, OG Flow и OG/OG Flow с использованием парных проездов.
Также авторы предлагают универсальный набор инструментов для задач детекции, трекинга и выравнивания объектов в OG и новые метрики: правдоподобность размеров объектов, временную консистеность формы объекта и фонового окружения.
А какие интересные статьи о 3D occupancy perception находили вы? Расскажите в комментариях!
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍4💯3🔥1