404 Driver Not Found
1.39K subscribers
59 photos
1 video
42 links
Канал об ML в автономном транспорте от специалистов из Яндекса: разбираем научные статьи, делимся интересными находками, обсуждаем горячие вопросы индустрии.

Вопросы и предложения > @yandex_ml_brand
Download Telegram
EMMA: End-to-End Multimodal Model for Autonomous Driving

Сегодня разберём статью об EMMA — end-to-end модели на основе LLM для задач автономного вождения.

Верхнеуровнево архитектуру EMMA можно рассмотреть на схеме. В качестве LLM авторы используют Gemini. На входы модели подают изображения с камер (camera-only), историю ego и подсказки маршрутизатора. HD-карты не используются.

Chain-of-thought начинается с описания сцены (scene description), потом модель выделяет участников движения (critical objects) и переходит к описанию их поведения (behavior description of critical objects). А в конце — принимает решение, как управлять транспортным средством (meta driving decision).

Задачи перспешна (3D object detection, road graph estimation, scene understanding) решает Gemini — по изображениям с камер и соответствующим им промптам. Чтобы выбрать лучшую моду, модель считает попарные L2-расстояния между всеми траекториями. Топ-1 становится траектория с наименьшим средним L2.

Из плюсов EMMA — неплохие значения ADE по сравнению с Wayformer и MotionLM. Но недостатков у модели много:

🔴 повышенные вычислительные требования,
🔴 необходимость адаптировать сетку для обработки данных с лидаров,
🔴 сложности оценки модели в closed-loop,
🔴 небольшое число обрабатываемых изображений с камер.

EMMA — один из примеров того, как можно применять LLM для задач автономного вождения, выбивая при этом неплохие значения метрик open-loop. В целом, end-to-end подходы набирают всю большую популярность. Думаю, дальнейшие исследования будут направлены на преодоление вычислительных ограничений и внедрение симуляции сенсоров в closed-loop.

Разбор подготовил ❣️ Павел Лукьянов
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥96👍3🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
Openpilot 0.11 — первый робо-агент, обученный только на симуляциях

Команда Comma.ai опубликовала интересный пост, где утверждает, что впервые в истории индустрии выпустила на дороги робо-агент, полностью обученный в вымышленной нейросетями симуляции.

Немного контекста: в Comma.ai разрабатывают систему помощи водителю, совместимую со многими моделями автомобилей. Система работает на втором уровне автономности — умный лейн-кипинг в широком спектре сценариев. Эта задача гораздо проще, чем полностью автономное вождение, что позволяет Comma.ai экспериментировать.

В то время как Waymo и британская команда Wayve интегрируют модели мира в свои пайплайны, Comma.ai идёт ещё дальше и отказывается от всего, кроме модели мира. Похожую идею предлагали учёные из Беркли в классической для робототехники статье DayDreamer — интересно, что этот подход удалось адаптировать для автономного вождения.

Вот что предлагают создатели Openpilot 0.11:

Шаг 1. Собрать 40 тысяч часов интересных видео, записанных флотом автономного транспорта и разбить их на сцены по 10 секунд с частотой 5 Гц.

Шаг 2. Обучить на этом датасете двухголовую модель мира:

🔴 первая голова предсказывает по видеоконтексту следующее действие эго-агента,
🔴 вторая — генерирует следующий кадр по видеоконтексту и только что полученному следующему действию.

Потом к контексту добавляется сгенерированный кадр, и процесс повторяется.

Секретный ингредиент — подавать на вход модели не только две секунды истории, но и последнюю секунду в эпизоде. Так ей понадобится предсказывать только промежуточную траекторию — это значительно улучшает сходимость. В итоге получается достаточно реалистичный симулятор вождения, который генерирует следующий кадр по двум секундам видео и действию эго.

Шаг 3. Обучить в полученном симуляторе небольшую модель-водителя, которая должна сходиться в финальное состояние по одному лишь видео, не видя последний кадр. Щедро насыпать шум на всех стадиях для устойчивости.

Openpilot 0.11 обучали on-policy — модель много едет по сгенерированной ей самой траектории, что выгодно отличает подход от обычного imitation learning.

При этом награды или штрафы не задавались явно — по опыту reinforcement learning, конструирование наград иногда всё только портит. Авторы усвоили горький урок: для того чтобы всё сошлось, достаточно увеличить количество данных и размер модели.

Единственная проблема, которая остаётся, — модель-водитель может научиться ломать симуляцию непредсказуемыми способами. Авторы утверждают, что это решается за счёт гипотезы большого мира: одновременно увеличивать и модель мира, и размеры водителя так, чтобы мир всегда был на порядок больше.

В парадигме Level 2 получается хороший результат — агент держит линию и расстояние до других, объезжает запаркованные авто. Но вопрос, будет ли это скейлиться на более сложные задачи, остаётся открытым.

Разбор подготовил ❣️ Кирилл Федянин
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥189🤩4❤‍🔥2😱2
π0: A Vision-Language-Action Flow Model for General Robot Control

Сегодня разберём статью о важной для self-driving теме из смежной области — как делать large-scale pre-training, если обучающих данных исчезающе мало.

У ребят, которые создают автономных роботов, обучающих датасетов ещё меньше, чем у нас. Авторы из команды Physical Intelligence предлагают решение: прикручивают flow-matching-декодер для экшнов к VLM, натренированной на internet-scale-датасете.

Архитектурно эта система устроена следующим образом:

1. Изображения с камер и текст задания попадают в префикс, проходят через VLM (PaliGemma 3B на базе Gemma 2) — получается KV-кэш.

2. В получившуюся последовательность после префикса добавляют эмбеддинг текущего состояния — вектора Q из 18 float-значений.

3. Траекторию на H=50 шагов, предсказывают с помощью flow-matching-декодера на 300M параметров, используя KV-кэш из 1 и 2.

Если у робота меньше трёх камер, вместо недостающих изображений указывают нули. Аналогично, если размерность стейта меньше 18, дополняют вектор нулями до 18 значений.

При этом у аттеншна блочно-каузальная маска:

🔴 префикс учитывает только собственные данные,
🔴 вектор состояния Q ориентируется и на себя, и на префикс,
🔴 траектория опирается и на собственные значения, и на Q, и на префикс,
🔴 внутри каждого блока маска полная: все смотрят на всех.

Так как префикс лежит в KV-кэше, важно, чтобы у декодера траектории были те же количество слоёв и размерность слоя. Но можно уменьшить размерность в MLP: именно так удаётся получить 300M параметров в декодере траектории при 3B в VLM.

Сначала модель претрейнят на составном датасете:

🔴 9,1% разнообразных опенсорс-данных — Oxe Magic Soup (2 Гц + 10 Гц),
🔴 остальные 90% (903M таймстепов на 68 заданий для single-/dual-arm роботов) — π0-dataset,
🔴 чтобы избежать дисбаланса, каждую task-robot-пару взвешивают с весом n⁰˒⁴³.

Потом обучают все части модели: image-backbone, VLM, Action-Expert. А во время пост-трейнинга каждый Action-Expert файнтюнится на своём task-specific-датасете.

В инференсе 10 шагов интегрирования (денойзинга). Он работает 73 мс на RTX 4090 (86 мс с задержкой сети). Для 20-герцовых роботов инференс делают каждые 0,8 секунды (после 16 шагов), для 50 Гц роботов — каждые 0,5 секунды (после 25 шагов). Для траекторий пробовали добавлять temporal ensembling, но результаты получились хуже чем open-loop.

Авторы утверждают, что на момент публикации были в топе всех популярных бенчмарков.

Разбор подготовил ❣️ Сергей Репьевский
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍3🔥3🤩21🆒1
MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection

Модели с Lift Splat Shoot (LSS) хороши, но у них есть ограничения. Главное из них заключается в том, что при удалении от эго-агента точность и плотность BEV-фичей падает. А значит, ухудшается качество моделей, основанных на BEV. Методы с нелинейным BEV частично решают эту проблему, но они, как правило, упираются в потолок скорости работы при увеличении расстояния, на которое должна «видеть» машина.

Query-based-подходы, не формирующие BEV, позволяют создавать быстрые и точные модели, однако объединять фичи разных модальностей в такой постановке гораздо сложнее. Сегодня разберём статью об одной из реализаций — SOTA-модели для мультимодальной 3D-детекции.

MV2DFusion — perception-модель, использующая query-based-парадигму. Она фьюзит модальности, прогоняя предикты детекций из разных модальностей через один Deformable DETR, но учитывая особенности этих модальностей:

🔴 Для 2D-детекций она отдельно предсказывает категориальное распределение их глубин, как в LSS — свойство query на всё время работы модели, которое особым образом учитывается в Self- и Cross-Attention.

🔴 Лидарные 3D-детекции на основе облака точек она считает обычными точками в пространстве.

Потом все детекции конкатенируют и пропускают через трансформер. Темпоральность авторы реализовали путём добавления top-K query из T последних таймстепов в Self-Attention. Подробнее рассмотреть архитектуру модели можно на схеме.

Авторы утверждают, что гибкость MV2DFusion позволяет интегрироваться с любыми детекторами на основе изображений и облаков точек. По сравнению с BEVFusion (w/ CenterPoint), этот метод заметно улучшает качество, особенно на датасете Argoverse2 с long-range-предсказаниями на 204 метра. При этом MV2DFusion в 2 раза быстрее и использует в 3 раза меньше памяти.

Разбор подготовил ❣️ Тимур Ахмадуллин
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106👍2
Две статьи о дистилляции для 3D-детекции с разнородными данными

Разные сенсоры автономного транспорта дают модели неоднородную информацию о сцене: лидар — разреженную геометрию, камеры — плотное визуальное представление. Сегодня разберём сразу две статьи о том, как в таком случае дистиллировать модели для задач 3D-детекции.

BEVDistill: Cross-Modal BEV Distillation For Multi-View 3d Object Detection

Фреймворк BEVDistill решает две важные проблемы дистилляции в BEV:

🔴 преобладание на feature maps маловажного фона, который слабо помогает обучению;
🔴 риск передать студенту ошибки — ложные срабатывания учителя.

Для этого авторы предлагают два взаимодополняющих компонента.

Первый, Dense Feature Distillation, фокусирует студента на областях BEV-карты, которые содержат критически важную информацию о реальных объектах. Это достигается путём построения гауссиан вокруг центров GT 3D-боксов.

Гауссианы объединяются в карту весов, где ячейкам вблизи объектов присваиваются высокие значения, а фоновым областям — низкие. Эта карта взвешивает лосс между BEV feature maps учителя и студента и способствует тому, что студент внимательнее согласовывает свои признаки с учителем именно в релевантных для объектов локациях.

Второй, Sparse Instance Distillation (SID), решает проблему потенциального вреда от дистилляции на основе ошибочных предсказаний учителя. SID сознательно фокусируется не на всех предсказанных учителем объектах, а только на надёжных.

Для предсказаний вычисляются веса, и дистилляционный лосс взвешивается этими значениями. Это гарантирует, что студент учится перенимать паттерны только из корректных предсказаний учителя, меньше обращая внимание на его ложные срабатывания.

Рассмотреть весь фреймворк можно на первой схеме, познакомиться с решением поближе — на GitHub авторов.

Representation Disparity-aware Distillation for 3D Object Detection

Авторы этой статьи подводят нас к проблеме селективности в дистилляции с другой, более фундаментальной стороны. Они сосредоточились на явлении рассогласования представлений (representation disparity) — различиях в распределениях признаков учителя и студента.

Стандартная дистилляция не учитывает, что это рассогласование неоднородно по пространству feature map. Ключевая идея RDD — явно измерить локальное расхождение (disparity) между признаками учителя и студента в областях предсказаний (в областях, где был предсказан объект).

На второй схеме видно: области с высоким значением указывают на значительное несоответствие, означающее, что студенту сложнее перенять знания учителя именно в этих местах. RDD использует эти веса для дистилляционного лосса, что фокусирует обучение на тех зонах, где студент сильнее всего отклоняется от учителя.

Авторы утверждают, что на момент выхода статьи их подход позволил повысить mAP для CP-Voxel-S с 54,0% до 57,1% на датасете nuScenes. Этот результат лучше, чем у модели-учителя, хотя cтудент использует лишь около 41,6% её FLOPs.

Разбор подготовила ❣️ Елизавета Мирова
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9🥰8👍74
Diffusion-Based Planning for Autonomous Driving with Flexible Guidance

Современные learning-based подходы к планированию часто не могут сбалансировать конкурирующие цели обучения и требования к безопасности движения из-за ограниченной адаптивности и сложностей с пониманием мультимодальных форм поведения, типичных для людей. К тому же, результаты обучения находятся в зависимости от резервной стратегии с предопределёнными правилами.

Авторы сегодняшней статьи попробовали решить проблему мультимодальности, планируемой траектории и соблюдения требований безопасности переходом на диффузионный планнер. Они используют архитектуру на базе DiT, которая учится предсказывать траектории эго и агентов. Чтобы генерировать более безопасные траектории (примеры потенциалов: signed distance между эго и агентами, отклонение скорости от заданного коридора, jerk) исследователи используют classifier guidance с заранее заданными потенциалами.

Обучаются на nuPlan. При этом на довольно небольшой архитектуре получается SOTA на nuPlan среди learning-based подходов. Если же добавить refine, получается SOTA среди всех. Авторы утверждают, что в качестве refine используют готовый модуль из STR-2, который добавляет оффсеты к выходам модели и скорит траектории, используя PDM.

В diffusion-based planning используются аугментации current_state'а: исследователи заменяют положение, угол, скорость и ускорение на дельту из равномерного. Потом прибегают к quintic interpolation, чтобы перестроить GT. Данные переводят в эгоцентрическую систему координат и применяют z-score нормализацию к x-координатам и пропорционально скейлят y-координаты.

Для дополнительного сравнения команда проекта собрала собственный датасет, который состоит из 200 часов реальных данных работы автономного доставщика, которому можно ездить по велодорожкам, поэтому чаще всего он взаимодействует с пешеходами и велосипедистами. Результаты этого масштабного теста подтвердили, что Diffusion Planner обеспечивает производительность на уровне SOTA в различных стилях вождения.

Разбор подготовил ❣️ Марк Нужнов
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍8🔥8🤩2
Gigaflow: Robust Autonomy Emerges from Self-Play

Сегодня разберём статью о self-play-симуляторе для reinforcement learning (RL).

Авторы показывают, что с помощью симуляции можно относительно дёшево обучить простую модель, достигающую SoTA-результатов на большинстве closed-loop-бенчмарков.

Ключевая идея — добиться необходимого поведения можно и без ground-truth-данных. То есть, вместо разметки и записанных траекторий можно просто дать агентам взаимодействовать друг с другом в большом количестве сцен. У Gigaflow достаточно быстрый симулятор, чтобы за время обучения модель успевала «проехать» миллиарды виртуальных километров — это огромное разнообразие ситуаций.

Среда представляет собой набор карт, на которых случайным образом размещаются агенты (автомобили, велосипедисты, пешеходы). Для каждого агента задаётся последовательность waypoint’ов, через которые он должен проехать — каждая симуляция уникальна.

Чтобы приблизить симуляцию к реальности, вводят частичную наблюдаемость (агенты не знают полного состояния других участников), шум в состояниях и динамике. В результате без явного сценарного программирования возникают сложные взаимодействия: пробки, слияния потоков и нерегулируемые перекрёстки.

Одна и та же нейросетевая политика управляет всеми агентами в сцене. Чтобы разнообразить их поведение, используют кондишнинг: задают для каждого агента параметры, определяющие его тип, физические характеристики и предпочтения в поведении.

Обучение проводят с помощью алгоритма PPO. Функция награды включает несколько компонентов: достижение цели, соблюдение ПДД, комфортность вождения, а также штрафы за столкновения и другие нарушения. Интересная особенность — advantage filtering. Обучение фокусируется на наиболее информативных состояниях, в которых действие существенно влияет на результат, а простые ситуации постепенно отфильтровываются.

У Gigaflow лучшие метрики на трёх популярных бенчмарках: CARLA, nuPlan и Waymax. Причём все результаты получены в режиме zero-shot — модель не обучалась ни на одном из этих датасетов.

Разбор подготовил ❣️ Тимур Петров
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍7❤‍🔥4🔥2🙏1
FastPillars: A Deployment-friendly Pillar-based 3D Detector

В BEV-based-детекторах часто используют sparse-свёртки. Но их не так-то просто перевести в формат, оптимизированный для инференса: развернуть, квантизировать и конвертировать в TRT.

Лидарный pillar-based-энкодер FastPillars не использует sparse-свёртки, не теряя при этом в скорости и точности. Сегодня разберём статью о том, как он устроен.

У архитектуры FastPillars четыре основных блока: MAPE, Backbone, Neck и Center-Head. Рассмотреть, как всё устроено, можно на схеме. Neck и Center-Head довольно стандартные. Бóльший интерес представляют первые два блока.

MAPE или Max-and-Attention Pillar Encoding — специальный энкодер для pillar’ов, который лучше учитывает локальную геометрию. Например, хорошо находит людей, спрятанных за объектами. А ещё обходится небольшими вычислительными мощностями и легче деплоится в embedded-приложениях.

Чтобы точнее определять объекты, MAPE, по сути, производит positional-энкодинг — рассчитывает для каждого pillar’а один feature-вектор: параллельно вычисляет два вектора и усредняет их. Один вектор получается с помощью MLP и max-энкодинга — просто max-pool по размерности количества точек. Другой вектор вычисляют так называемым аттеншн-энкодингом, который на самом деле представляет собой взвешивание фичей для точек pillar’а и их суммирование по той же размерности. В целом блок напоминает Squeeze-And-Excitation.

Для Backbone к обычному ResNet-34 авторы применили computation reallocation design: оказалось, что с бóльшим количеством слоёв начальные блоки лучше обрабатывают изображения. А для блоков ближе к концу разница не так заметна, можно оставить по одному слою. В итоге авторы увеличили количество слоёв в первых блоках и уменьшили в последних.

В Neck сфьюзили фичи из слоёв 8x и 16x как в PillarNet. Head — обычный center-based detection head. Чтобы лучше локализовывать объекты, дополнительно к типичным детекционным лоссам напрямую оптимизировали IoU-лосс.

Всего в FastPillars четыре лосса: фокальный, L1, регрессионный DIoU и отдельный для IoU.

На момент публикации, в 2023 году, FastPillars показывал SoTA-результаты на Waymo Open Dataset. Познакомиться с кодом детектора можно на GitHub авторов.

Разбор подготовил ❣️ Антон Семенюта
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍9🤩62🔥1
UniMotion: A Unified Motion Framework for Simulation, Prediction and Planning

Сегодня разберём статью о UniMotion — едином фреймворке на основе decoder-only-трансформерной архитектуры, который объединяет в себе сразу три задачи: симуляцию, предсказание и планирование.

Новый фреймворк позволяет одновременно обучать модель для генерации разнообразных движений и долгосрочного предсказания траекторий, при этом разделяя общие представления между задачами.

Для обучения авторы используют:

🔴 NTP (Next-Token Prediction) — симуляция.
🔴 LFR (Long-range Future Regression) — предсказание.
🔴 Комбинированный подход — планирование.

Чтобы специализировать модель для каждой из задач:

RL Fine-tuning для симуляции
GRPO-подобный подход. Генерируют n траекторий как группу, но градиент активируют только для одной, случайно выбранной, что позволяет экономить вычисления. Считают kinematic и collision reward для каждой из траекторий. Чтобы получить advantage A, нормализуют reward’ы внутри группы. А потом обновляют политики вождения с их учётом. В результате траектории становятся более реалистичными и физичными. А ещё — лучше укладываются в правила дорожного движения

Multi-modal Fine-tuning для предсказаний
LFR обеспечивает только одну траекторию. Но для multi-modal их нужно несколько, поэтому авторы добавляют легковесный трансформерный декодер. Он переводит фичи основной модели в локальную систему координат агента. А потом, используя якорные точки намерений intention points, генерирует траектории для разных намерений. Лосс для траекторий — Gaussian NLL, для классификации режимов — кросс-энтропийный. Благодаря учёту намерений движение становится разнообразнее.

Pred2Gen Fine-tuning для планирования
После основного обучения авторы учат модель предсказывать траектории окружающих её агентов. Для этого заменяют сильно ошибочные предсказания на ground truth, а сами плохие предсказания отправляют в модель, чтобы end-to-end дообучить генерацию эго-агента. Так модель адаптируется к реальному инференсу, где работает со своими же предсказаниями/

Авторы утверждают, что на момент публикации модель стабильно демонстрировала SoTA-результаты и может стать легко масштабируемым решением, помогающим разнообразить симуляцию, предсказание и планирование движения.

Разбор подготовила ❤️ Арина Ромашкина
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍4🔥4
Distillation with time

Сегодня разберём сразу две статьи о дистилляции с учётом временного контекста.

RCTDistill: Cross-Modal Knowledge Distillation Framework for Radar-Camera 3D Object Detection with Temporal Fusion

Учитель — LiDAR-детектор, ученик — camera-radar-детектор с time fuse. У обоих BEVFusion-архитектура. Авторы рассматривают, как решить три проблемы дистилляции:

1. Специфика данных. Камеры плохо оценивают расстояние до объектов, а у радаров — низкое угловое разрешение.

Для решения предлагают использовать модуль Range-Azimuth KD (RAKD), который подобно BEVDistill взвешивает L2-лосс между BEV-фичами. Только здесь маска использует размеры объектов, расстояние до эго-машины и угол, формируя эллипсы.

2. Временное смещение динамических объектов. Простой time fuse (concat + conv) не моделирует пространственное смещение объектов между кадрами.

С этой проблемой борется Temporal KD (TKD), который также формирует эллипсоидную маску на BEV. Таким образом учитывают скорость и историю траектории объекта.

3. Неэффективное объединение модальностей. При наивном слиянии модальностей фичи переднего плана и фона смешиваются.

С этим помогает модуль Region-Decoupled KD (RDKD). В качестве лосса он использует матрицы косинусных расстояний векторов BEV'а по выбранным позициям, где у ученика больше heatmap score.

Distilling Future Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection

В этой работе учитель — SparseBEV с фреймами из прошлого и будущего. Ученик такой же, только без информации о будущем. Авторы разбираются, как грамотно передавать ученику информацию о будущем.

Две основные идеи:

1. Future-Aware Feature Reconstruction.
Сначала вводят Temporal Self-Attention (TSA) — чтобы учитель мог агрегировать информацию с фреймов будущего.

Потом для выхода ученика маскируют некоторую долю токенов, восстанавливают её генератором и считают лосс. Так ученик тренируется строить фичи, обогащённые знанием о будущем, не имея к нему прямого доступа.

Подобный генератор есть на уровне картиночных фичей (после FPN), а также на уровне BEV queries.

2. Future-guided Logit Distillation.
Лоссы классификации и регрессии минимизируют через венгерский алгоритм. Когда у учителя есть знания о будущем, он выдаёт больше true negative.

Авторы обеих статей утверждают, что их подходы помогают улучшить перфоманс, одновременно сэкономив вычислительные мощности и решив ключевые проблемы дистилляции для задачи мультимодальной 3D-детекции.

Разбор подготовила ❣️ Елизавета Мирова
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍4🔥2
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

Беспилотный транспорт в свой работе полагается на данные различных сенсоров: камер, лидаров, радаров. Для обработки этих данных — например, для детекции объектов на дороге — обычно используют нейросети. Вычислительная мощность железа на борту автомобиля ограничена, поэтому нейросети должны быть не только точными, но и быстрыми. Сегодня разберём статью о таком фреймворке на основе мощного бэкбона Mamba.

Подход space state models часто используют в LLM для моделирования длинных последовательностей. Авторы предлагают адаптировать этот подход для компьютерного зрения.

В основе архитектуры — deep-learning-модель Mamba. Визуальные данные чувствительны к взаимному расположению и контексту. Чтобы модель учитывала это и справилась с CV, авторы предложили добавить к ней новый блок Bidirectional Mamba с энкодером.

Архитектура Vision Mamba (или просто Vim) — на схеме. Входное изображение делится на патчи, которые превращаются в токены. Последовательность токенов подаётся на вход Vim-энкодеру. В отличие от Mamba, новый энкодер может перенаправлять токены не только вперёд, но и назад по флоу обработки.

Полученную модель можно использовать в качестве бэкбона для 2D-задач: для классификации, детекции и сегментации. Особенность Vision Mamba в том, что она растёт не квадратично от количества токенов как трансформеры, а линейно. А значит, хорошо подходит для задач CV на изображениях с высоким разрешением.

Vision Mamba немного превзошла по top-1 accuracy на ImageNet трансформенную модель DeiT и значительно обогнала её по скорости и потреблению памяти.

Познакомиться с новой моделью можно на GitHub авторов.

Разбор подготовил ❣️ Илья Кувыкин
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍6🔥6
Чем запомнился первый день ICRA 2026

С 1 по 5 июня в Вене идёт International Conference on Robotics & Automation. Хайлайтами первого дня поделился Максим Спорышев — руководитель службы поведения и предсказания движения в Автономном транспорте Яндекса.

Доклады

🔴Команда исследователей из Huawei, NVIDIA Research, OpenDriveLab b Shanghai AI Laboratory рассказала о своём пост-трейновом фреймворке World Engine: как он помог им проехать 200 км по Шанхаю без дизенгейджмента. Обещают выпустить в опенсорс — что-то уже доступно на GitHub. Работа показалась интересной с точки зрения генерации safety-critical-кейсов.

🔴 NVIDIA объявили, что вслед за недавним релизом модели Alpamayo 2 и симулятора выложат огромный датасет и запустят челлендж AlpaSim. 25 стран, 2500 городов и 1700 часов проездов — звучит супермощно, очень ждём!

Постеры

🔴 Первые три фото — целый воркшоп о предикшне поведения пешеходов. Авторы рассуждают о самой острой проблеме: предсказать действия пешеходов довольно сложно, особенно в парадигме, что их поведение зависит от движения автономного транспорта. Но хороших решений пока нет.

🔴 На четвёртом фото постер о том, как подбустить персепшн в тумане. Результат работы авторы проверяли на датасете KITTI.

🔴 Пятый постер — ещё один способ токенизировать таргет, чтобы предсказывать движение автономного транспорта.

🔴 На шестом фото работа о подходе к обучению, актуальном для SDG. Авторы рассматривают пайплайн обучения с normalizing flows для задач манипуляции: IL➡️Critic offline Warmup➡️Offline RL➡️Online RL.

#YaICRA26

404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍8🔥8🤩3
Земной автомобиль, луноход или марсианский ровер — на ICRA 2026 припаркуются все

Позади второй день конференции — продолжаем делиться самым интересным об автономном вождении. Слово Максиму Спорышеву:

Среди докладчиков были те, кто буквально делает космолёты. Они рассказали о локализации для lunar landing, навигации на Марсе и детекции аномалий в космосе — только представьте, какие у них байки про продакшн.

Понравились три постера. Первый — от Waabi AI. Они реализовали 3D-реконструкцию в зоне, ближайшей к исходному треку. Хорошее решение для симуляции перестроения, но не подходящее для сложных разворотов и прокладывания нового маршрута.

Тесты проводят на дистанциях 3, 4 и 5 метров от исходных положений камер: делают feedforward-рендеринг с помощью 3D Gaussian Splatting, добавляют шум и денойзят всё диффузией, которая училась восстанавливать изображения на дистанции 3 метра.

Второй постер — об обучении через имитацию действий других участников дорожного движения. Чтобы собрать тренировочный датасет, авторы берут сцены на nuPlan, выбирают на них одного-двух хороших агентов и трансформируют их движение так, будто всё происходит от лица эго-агента. Плохие данные фильтруют по метрикам комфорта, пройденной дистанции и TTC.

С ростом количества данных эффективность обучения падает: между первыми точками графика заметна большая разница, а ближе к 100 тысячам сцен её почти нет. Для проверки использовали модель PLUTO.

На третьем постере — self-supervised-способ трекинга на лидарных облаках через кластеризации точек и фильтры Калмана. Жаль, что не удалось поймать авторов: они утверждают, что работают на уровне supervised-трекеров.

Отдельно отмечу два доклада, номинированных на звание лучших работ.

Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning

Статья о robotic manipulation, но решаемая в ней проблема актуальна и для автономного транспорта.

Авторы показывают, что качество всех VLA сильно просаживается, если меняется положение камер: в сетапах с рандомным размещением success rate проседает в пару раз.

Решение — подавать положение камер через Plücker ray-maps. То есть задавать луч камеры для каждого пикселя шестью дополнительными числами: дельтами и моментами.

С таким кондишенингом на камеры авторы отыгрывают просадку: success rate становится в пару раз лучше, чем у обычных VLA.

FP3: A 3D Foundation Policy for Robotic Manipulation

Авторы критикуют vision-энкодеры в современных VLA и утверждают, что без трёхмерного представления о мире не обойтись.

Взамен предлагают сетап обучения с Uni3D в качестве энкодера. Он показывает довольно высокие success rates: до 90% на некоторых тасках.

Напоследок авторы показывают профит от масштабирования своего трансформера до 1,3B.


Конференция продлится до 5 июня — ещё вернёмся с новой порцией наблюдений.

#YaICRA26

404 driver not found
8❤‍🔥6👍4🔥1🤩1