404 Driver Not Found
966 subscribers
36 photos
27 links
Канал об ML в автономном транспорте от специалистов из Яндекса: разбираем научные статьи, делимся интересными находками, обсуждаем горячие вопросы индустрии.

Вопросы и предложения > @yandex_ml_brand
Download Telegram
NeurIPS 2025: начало

Началась главная ML-конференция — NeurIPS. В этом году она проходит сразу на двух площадках: в американском Сан-Диего и в мексиканском Мехико.

Мы будем рассказывать о том, что происходит в Мексике. Впечатления руководителя группы AI-планирования робота доставки Дмитрия Быкова читайте в ML Underhood. А здесь самым запоминающимся поделился наш коллега Владислав Фахретдинов из команды восприятия робота доставки.

Главный мотив первого дня — безопасность и масштабируемость автономного транспорта. В отличие от ограниченной тестовой среды, в реальном мире, бесконечное количество ситуаций, когда система должна вести себя безопасно по отношению к другим и самой себе. Обсуждали, как эффективно тестировать автономные системы с учётом этого.

Сначала были доклады про построение сценариев и их реализацию. TL;DR: тестировать что-либо на реальных задачах слишком долго и дорого, лучше использовать симуляторы, а потом приближать их данные к реальности с помощью генеративных моделей

Далее был простой, но интересный рассказ Sergey Levine из UC Berkley про историю развития VLA от LLM и VLM до будущего в построении foundation-моделей.

Самую интересную работу, на мой взгляд, привезла команда Wayve, которая делает автономный транспорт.

Во-первых, они показали свою автономную систему. Она обучается end-to-end, на вход принимает сенсоры, на выходе возвращает всё для управления, также есть контур безопасности. Обучив систему на данных и
з UK, ребята проверили её на 500 других городах и показали, что модель стала лучше адаптироваться к дорожным и географическим условиям.

Во-вторых, ребята привезли сразу две своих foundation-модели:

GAIA-2 — модель генерации реального мира, которая на основе начальных данных с камер и условий (положения и поведение агентов и самого транспортного средства, состояние окружения) умеет фотореалистично предсказывать изображения с камер.

Модель состоит из двух частей: токенизатора для перевода видео в латентное пространство и модели мира для генерации будущего латентного состояния мира.

Вторая модель — LINGO-2 — VLA. Она добавила в систему общие человеческие знания и размышления, а также
возможность описывать действия.

Комбинация этих моделей:

🔴 E2E — помогает системе быть более устойчивой и лучше обобщаться, но требует много данных.
🔴 Модель симуляции мира — позволяет проводить сколь угодно разнообразные тесты и проверять безопасность системы.
🔴 VLA — делает систему еще более устойчивой и обобщаемой.

У себя на сайте ребята пишут про L4-уровень автономности, также там много интересных видео. И хотя они ещё не вышли на уровень массовой масштабируемости, в их машине вполне ездит Huang — думаю, можно считать их разработки будущим отрасли.


#YaNeurIPS25

Выбрал самое интересное из событий первого дня ❣️ Владислав Фахретдинов
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍85👏2💯1
Суперинтеллект и обучение в задачах робототехники: что обсуждают на NeurIPS 2025

Продолжаем репортаж с обеих площадок главной ML-конференции года. Новости из американского Сан-Диего читайте в канале ML Underhood. А двумя примечательными докладами из Мехико поделится Дмитрий Быков, руководитель группы AI-планирования робота доставки.

Спойлер: речь пойдëт об обучении с подкреплением.

The OaK Architecture: A Vision of SuperIntellegence from Experience

Выступление Rich Sutton о том, каким он видит суперинтеллект.

Первое, на что он обращает внимание, — авторы большинства работ вносят во множество доменов знания, которые помогают решить конкретные задачи. Но одновременно с этим их вклад начинает влиять на результаты работы моделей и делает их неоптимальными.

У суперинтеллекта, по его мнению, должно быть понятное представление о награде. Такое, чтобы у него появились все верхнеуровневые признаки, необходимые для формулирования подзадач, решение которых будет приближать награду.

При появлении новых признаков должна разрастаться и transition model (пространство действий которые возможно совершить).

PRINT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Syntesis from Foundation Models

Ребята сделали схему для обучения моделей, которые управляют роботом. В итоге смогли обогнать методы на моделях с одной из модальностей.

Сконструировать нормальный реворд сложно, а ручная разметка — очень дорогая. Чтобы обойти это, авторы попробовали обучаться на предпочтениях, сгенерированных моделями.

Несмотря на то, что текстовые модели любят галлюционировать, а VLM плохо сохраняют временные взаимодействия, их комбинация работает сильно лучше — они компенсируют недостатки друг друга.

В начале обучения авторы обходятся траекториями, сгенерированными LLM: генерируют, перемешивают и просят LLM выбрать лучшую. А дальше объединяют вердикты LLM и VLM.

Ещë один трюк — включение в лосс причинности. Так за счëт модели получается найти лучшие варианты и вознаградить их.


#YaNeurIPS25

Заметил на конференции ❣️ Дмитрий Быков
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥8😎41
CenterPoint и TransFusion: обзор двух подходов к задаче детекции

Сегодня разберём сразу две статьи о SoTA-способах предсказывать положения объектов.

Center-based 3D Object Detection and Tracking

Если коротко, это Objects as Points. Авторы решают задачу детекции на облаках точек с помощью CenterNet на BEV-фичах.

CenterNet — 2D-object-детектор. Вместо поправок к anchor-боксам он предсказывает center-боксы (их размеры, глубины, ориентацию).

В CenterPoint авторы добавили стадию рефайнмента предсказанных боксов на основе BEV-фичей, взятых из середин граней боксов CenterNet.

Архитектура (на первой схеме) состоит из трёх основных этапов:

1. 3D-Backbone выделяет фичи из облака точек.
2. СenterNet помогает получить из фичей 3D-боксы и их центры.
3. На стадии рефайнмента для каждого бокса по расположению достают и стакают 5 BEV-фичей. Перцептрон рассчитывает поправки к боксу и уверенность в нём (score) — это помогает уточнить предсказания.

Center-based-подходы лучше работают на классах объектов с особенностями — например, с необычными размерами. По результатам на nuScenes, авторы считают свой подход SoTA.

TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

В этой статье авторы решают задачу детекции с помощью данных камеры и лидара: мягко объединяют их с помощью cross-attention.

В основе TransFusion — DETR-like-подход с инициализацией object queries в локальных максимумах хитмапа, предсказанного по BEV-фичам.

DETR преобразует фичи объекта в вектора, добавляет positional encoding и подаёт результат на вход трансформер-декодера — так получаются вектора фич, которые знакомы с исходной картинкой.

Голова-детектор (вторая схема) состоит из двух последовательных трансформеров-декодеров:

🔴 Первый осуществляет cross-attention из object queries в BEV-фичи.
🔴 Второй связывает полученные фичи с картинками с помощью spatially modulated cross-attention (SMCA).

Механизм SMCA между object queries и данными с камер помогает модели лучше отслеживать связанные области изображения.

TransFusion также показал SoTA-результаты на nuScenes. Авторы предлагают использовать этот подход для ускорения и упрощения задач 3D-сегментации.

Разбор подготовил ❣️ Владимир Филипенко
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍6🤩6🤔1💯1
BEVCalib: LiDAR-Camera Calibration via Geometry-Guided Bird’s-Eye View Representations

Авторы сегодняшней статьи утверждают, что создали первый targetless-подход с BEV. Опираясь на идею о том, что каждый BEV-объект соответствует определённой области в пространстве, они геометрически упростили маппинг таких объектов из разных модальностей.

Знакомьтесь, BEVСalib — модель для калибровок экстринсиков cam2lidar на основе BEVFusion.

Её архитектура (на первой схеме) почти полностью повторяет BEVFusion: изображение и облако точек попадают каждое в свой энкодер, проходят Fuser и FPN. Для предсказания матрицы калибровок результат попадает в Geometry-Guided BEV Decoder (или просто GGBD).

GGBD — разработка авторов. Она состоит из двух модулей:

🔴 Feature Selector — запоминает координаты, куда спроецировались камерные фичи.
🔴 Refinement Module — применяет self-attention к фичам по запомненным координатам.

После нескольких SA-блоков используется Global Average Pooling и выход из векторов перемещения и кватерниона поворота. Кватернион поворота затем преобразуют в матрицу трансформации и объединяют с вектором перемещения. Рассмотреть процессы подробнее можно на второй схеме.

Лоссы стандартные:

🔴 Geodesic Loss на кватернион + регуляризация на нормальность вектора.
🔴 Smooth-L1 Loss для вектора перемещения.
🔴 Reprojection Loss на координаты облаков точек (по сути, L2).

BEVСalib — SoTA. Результаты работы модели обгоняют по качеству такие архитектуры, как Regnet, LCCNet, CalibAnything и Koide3. На датасетах KITTI, NuScenes и собственном наборе авторов CALIBD ошибка составляет ±0,1 угла для roll, pitch и yaw вне зависимости от раскалибровки.

Модель опенсорсная: попробовать её и посмотреть демо можно на официальном сайте.

Разбор подготовил ❣️ Антон Семенюта
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍7🔥6😎2
Self-Supervised Sparse Sensor Fusion for Long Range Perception

Авторы этой статьи предлагают новый подход к long-range perception: sparse-voxel-фьюжн камер и лидара с временным контекстом и SSL-предобучением. Всё это и собственный long-range-датасет позволили решению претендовать на SoTA на бенчмарках.

Ключевые фичи:

🔴 Sparse voxel representation вместо BEV помогает скейлиться на дальние расстояния.
🔴 Camera–LiDAR-фьюжн. Изображения с камер обрабатываются по схеме RGBD → Vision Mamba (ViM) → depth-module (RNN уточняет глубину) → sparse voxel lifting.
🔴 Temporal fusion (временной контекст). Главная фишка — sparse window attention: делают аттеншн для вокселя с предыдущего кадра к его соседям в кубике 3×3×3.
🔴 Self-supervised pretraining (UnO-like), чтобы сэкономить на разметке.

Архитектура решения — на схеме выше. Камерные фичи энкодят отдельно, поднимают в 3D, а затем фьюзят с лидарными. Потом добавляют временной контекст, делают аттеншн и передают в две головы, которые предсказывают occupancy и velocity.

Данных мало — чтобы получить нормальную разметку, нужно гораздо больше. Поэтому авторы собрали собственный датасет из информации о поездках на грузовике с 5 синхронными камерами и 4D-лидаром Aeva (radial speed, 400 м, 10 Гц). Радара не было. Так удалось собрать 60 тысяч кадров, из которых 35 тысяч разметили для детекции.

Image encoder и depth-module обучали вместе. Потом — reconstruction, depth supervision и дистилляционные лоссы фичей. Occupancy- и velocity-голову претрейнили SSL. В конце обучались распознавать объекты.

Результаты впечатляют:

🔴 Depth Prediction: −27% MAE и −25% MSE vs SoTA при инференсе в 0,064 с на памяти 1,3 ГБ.
🔴 Object Detection: +26.6% к SoTA SAMFusion.

В целом, работа подтверждает: sparse-представления в сочетании с временным контекстом и SSL-предобучением дают заметный выигрыш именно в long-range-сценариях, где BEV-подходы быстро упираются в вычисления и память. Метод выглядит особенно убедительно как практичный компромисс между качеством, дальностью и стоимостью разметки.

Разбор подготовил ❣️ Владислав Поляков
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍7🔥6
Топ-5 статей 2025: выбор читателей 404 driver not found

Наш канал появился совсем недавно, но подвести промежуточные итоги уже можно.

Спасибо, что были с нами в этом году, читали и лайкали! Собрали обзоры, которые понравились вам больше всего: сохраняйте себе и делитесь с друзьями.

SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection
О perception много статей с графиками и кодом, но лишь единицы попадают в топ лидерборда nuScenes — главного датасета для автономного вождения. Именно там нашлась эта статья.

UnO + GASP
Разбор двух похожих и крайне интересных статей на довольно редкую в сфере автономного транспорта тему претрейна.

Sparse4D v3: Advancing End-to-End 3D Detection and Tracking
Обсудили ещё одну редкую тему: End-to-End 3D Detection and Tracking, а именно — детектор Sparse4Dv3 с хорошими метриками на nuScenes.

Scaling Laws of Motion Forecasting and Planning
Waymo, подразделение беспилотных автомобилей Google, выпустило техрепорт о том, как масштабируются модели. Похожая статья об LLM сильно повлияла на свою сферу несколько лет назад. А теперь аналогичное исследование провели для планировщиков движения автомобилей.

Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models
Статья о том, как ребята из NVIDIA заняли первое место в лидерборде WOSAC от Waymo. Обсуждали цикл SFT, а не способы токенизации, слои архитектуры или внутренний cross attention.

А какие статьи запомнились в этом году вам? Расскажите в комментариях.

С наступающим! После праздников мы вернёмся с новыми разборами. До встречи в новом году!

Сформировали этот топ ❤️ уважаемые подписчики
404 driver not found
15🔥7🥰6
Топ статей 2025: выбор команды 404 driver not found

Пока все (и мы тоже) вспоминают, как работать после праздников, предлагаем почитать наши любимые разборы из прошлого года.

CenterPoint и TransFusion: обзор двух подходов к задаче детекции
Разбор сразу двух статей о SoTA-способах 3D-детекции.

RefAV: Towards Planning-Centric Scenario Mining
Статья о том, как навайбкодить фильтры и получить «золотые» примеры событий в огромном массиве данных, оперируя полуразмеченым потоком, который записал автомобиль.

Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations
Новый подход к дообучению traffic prediction-моделей без ручной разметки.

DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point Clouds
Фреймворк для офлайн-детекции и трекинга на основе длинных последовательностей лидарных точек (до 200 кадров), который занимает первое место на лидербордах WOD 3D Detection и WOD 3D Tracking.

А если вдруг пропустили, вот топ-5 2025, который сформировали вы.

В 2026 продолжим разбирать научные статьи, делиться интересными находками и обсуждать горячие вопросы индустрии — не переключайтесь!

Продолжает делиться с вами интересным ❣️ команда
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥3🎉2
TreeIRL: Safe Urban Driving with Tree Search and Inverse Reinforcement Learning

Сегодня разберём статью, в которой авторы предлагают использовать поиск монте-карло по дереву (Monte-Carlo Tree Search, MCTS) для задачи планирования. Как и в обычном MCTS, сначала генерируется множество траекторий, а затем на каждом шаге поддерживается баланс между перспективными направлениями и теми, которые ещё не исследованы.

Перспективность направления определяется функцией награды, учитывающей несколько факторов:

🔴 штраф за рывки (для комфорта),
🔴 штраф за столкновения с машинами и людьми,
🔴 адекватное расстояние до агента спереди,
🔴 следование на скорости около максимальной разрешённой,
🔴 остановки в местах, где это необходимо,
🔴 опционально — предобученная PPO-политика и её функция ценности V.

Исследователи генерируют всего 400 траекторий и выбирают из них 100 наиболее перспективных кандидатов по награде. Отобранные траектории удовлетворяют формальным требованиям, однако не все из них применимы в реальности.

Для решения этой проблемы авторы обучают отдельную модель на inverse reinforcement learning. Её задача — дать скалярное значение z, которое позволит из представленных траекторий выбрать наиболее «человекоподобную». При обучении используется таргет exp(z_i)/sum_z(exp(z)) — подходящая траектория определяется по подобию в L2-норме. В итоге из 100 траекторий-кандидатов остаётся только одна, лучшая по IRL-оценке. Она удовлетворяет формальным критериям и похожа на то, как водил бы человек.

Этот метод отличается от обычного подхода, где сначала нейросеть генерирует несколько траекторий, а потом их проверяют на формальную безопасность. Это свежий взгляд, но, к сожалению, остаётся неочевидным, насколько хорошо он масштабируется: подход тестировался как адаптивный круиз-контроль, и модель предсказывала только продольные рывки. С этим ограничением мы имеем всего 5 возможных действий против, например, 169 в другом популярном методе, MotionLM. Количество возможных деревьев в таком случае астрономически меньше — 390 тысяч против 600 квадриллионов.

Что касается результатов работы модели, то в категории адаптивного круиз-контроля на бенчмарке nuPlan TreeIRL показала себя весьма хорошо. Модель также применялась на дорогах общего пользования и смогла проехать 400 км без вмешательств.

Разбор подготовил ❣️ Кирилл Федянин
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍5🔥5
MoDAR: Using Motion Forecasting for 3D Object Detection in Point Cloud Sequences

Сегодня разберём статью на стыке perception и BL (behavior layer). Объединив очень разные элементы восприятия (perception) и предсказания (prediction) робота, команда Waymo улучшила обнаружение 3D-объектов для детекторов, которые работают с облаками точек и их последовательностями.

В чём проблема? Современные системы плохо справляются с обнаружением перекрытых и удалённых объектов. Обработка множества лидарных кадров требует огромных ресурсов. Можно было бы фьюзить облака точек на уровне объектов, потому что это дешевле с точки зрения вычислений. Но тогда возникают проблемы с выравниванием (alignment).

Система MoDAR вместо прямой обработки всех кадров использует прогнозирование движения как дополнительную модальность. Алгоритм создаёт виртуальные точки с информацией о предсказанных позициях объектов из прошлых и будущих кадров.

Способ, который придумали авторы, помогает прокачать качество обработки облаков. На основе предсказаний траекторий из BL они создали для детектора виртуальную модальность под названием MoDAR (по аналогии с LiDAR).

Точки MoDAR — это центры объектов по предсказаниям из прошлого в настоящее (онлайн) и из будущего в настоящее (офлайн). Они образуют новую легковесную модальность: число точек, полученных из временного контекста 18 секунд (9 из прошлого + 9 из будущего) меньше, чем в одном лидарном фрейме.

Полный флоу решения — на схеме. Авторы используют два 3D-детектора: CenterPoint и SWFormer. В качестве модели предсказания движения выбрали MultiPath++, обученный на Waymo Open Motion Dataset.

На 3-frame SWFormer + 18 секунд MoDAR удалось существенно повысить качество (mAPH) в сложных кейсах (L2-срез на Waymo Open Dataset). При этом практически SoTA-результат не требует значительных дополнительных вычислительных затрат.

404 driver not found
18🔥7🤓5👏2👍1