404 Driver Not Found
966 subscribers
36 photos
27 links
Канал об ML в автономном транспорте от специалистов из Яндекса: разбираем научные статьи, делимся интересными находками, обсуждаем горячие вопросы индустрии.

Вопросы и предложения > @yandex_ml_brand
Download Telegram
DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point Clouds

Авторы этой статьи утверждают, что их алгоритм работает лучше, чем ручная разметка, если оценивать по методике 3DAL от Waymo. Знакомьтесь, DetZero — фреймворк для офлайн-детекции и трекинга на основе длинных последовательностей лидарных точек (до 200 кадров), который занимает первое место на лидербордах WOD 3D Detection и WOD 3D Tracking.

В основе фреймворка — двухпроходный алгоритм. Общий пайплайн работы с данными выглядит так:

🔴 Мультикадровый детектор получает на вход N кадров с облаками точек.
🔴 Первый проход: офлайн-трекер генерирует точные и полные треки объектов с помощью модификации CenterPoint. В DetZero учитывают плотность точек и используют не один, а пять соседних кадров. А ещё — добавили TTA и ансамбль однотипных моделей.
🔴 Второй проход: пообъектное рассмотрение треков. Для треков каждого объекта готовят собственные последовательности лидарных точек — используют только те точки, которые заметаются боксами трека. Боксы немного расширяют, чтобы замести окрестность побольше.
🔴 Треки улучшают с помощью трёх одновременных действий: уточнение геометрических размеров объекта, сглаживание траектории движения и перерасчёт уверенности.
🔴 Все треки собирают в единую картинку и превращают в лейблы. Точки, связанные с объектом, переводят в систему координат bounding box. После этого происходит geometry (GRM), position (PRM) и confidence (CRM) уточнение при помощи обучаемых моделей на основе PointNet.

В 2023 году DetZero занял первое место в рейтинге обнаружения 3D-объектов от Waymo с производительностью обнаружения 85,15 mAPH.

Рассмотреть алгоритм в деталях можно на схеме, попробовать — на Github авторов.

Разбор подготовил ❣️ Александр Пономарчук
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍75🤩3
NeurIPS 2025: начало

Началась главная ML-конференция — NeurIPS. В этом году она проходит сразу на двух площадках: в американском Сан-Диего и в мексиканском Мехико.

Мы будем рассказывать о том, что происходит в Мексике. Впечатления руководителя группы AI-планирования робота доставки Дмитрия Быкова читайте в ML Underhood. А здесь самым запоминающимся поделился наш коллега Владислав Фахретдинов из команды восприятия робота доставки.

Главный мотив первого дня — безопасность и масштабируемость автономного транспорта. В отличие от ограниченной тестовой среды, в реальном мире, бесконечное количество ситуаций, когда система должна вести себя безопасно по отношению к другим и самой себе. Обсуждали, как эффективно тестировать автономные системы с учётом этого.

Сначала были доклады про построение сценариев и их реализацию. TL;DR: тестировать что-либо на реальных задачах слишком долго и дорого, лучше использовать симуляторы, а потом приближать их данные к реальности с помощью генеративных моделей

Далее был простой, но интересный рассказ Sergey Levine из UC Berkley про историю развития VLA от LLM и VLM до будущего в построении foundation-моделей.

Самую интересную работу, на мой взгляд, привезла команда Wayve, которая делает автономный транспорт.

Во-первых, они показали свою автономную систему. Она обучается end-to-end, на вход принимает сенсоры, на выходе возвращает всё для управления, также есть контур безопасности. Обучив систему на данных и
з UK, ребята проверили её на 500 других городах и показали, что модель стала лучше адаптироваться к дорожным и географическим условиям.

Во-вторых, ребята привезли сразу две своих foundation-модели:

GAIA-2 — модель генерации реального мира, которая на основе начальных данных с камер и условий (положения и поведение агентов и самого транспортного средства, состояние окружения) умеет фотореалистично предсказывать изображения с камер.

Модель состоит из двух частей: токенизатора для перевода видео в латентное пространство и модели мира для генерации будущего латентного состояния мира.

Вторая модель — LINGO-2 — VLA. Она добавила в систему общие человеческие знания и размышления, а также
возможность описывать действия.

Комбинация этих моделей:

🔴 E2E — помогает системе быть более устойчивой и лучше обобщаться, но требует много данных.
🔴 Модель симуляции мира — позволяет проводить сколь угодно разнообразные тесты и проверять безопасность системы.
🔴 VLA — делает систему еще более устойчивой и обобщаемой.

У себя на сайте ребята пишут про L4-уровень автономности, также там много интересных видео. И хотя они ещё не вышли на уровень массовой масштабируемости, в их машине вполне ездит Huang — думаю, можно считать их разработки будущим отрасли.


#YaNeurIPS25

Выбрал самое интересное из событий первого дня ❣️ Владислав Фахретдинов
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍85👏2💯1
Суперинтеллект и обучение в задачах робототехники: что обсуждают на NeurIPS 2025

Продолжаем репортаж с обеих площадок главной ML-конференции года. Новости из американского Сан-Диего читайте в канале ML Underhood. А двумя примечательными докладами из Мехико поделится Дмитрий Быков, руководитель группы AI-планирования робота доставки.

Спойлер: речь пойдëт об обучении с подкреплением.

The OaK Architecture: A Vision of SuperIntellegence from Experience

Выступление Rich Sutton о том, каким он видит суперинтеллект.

Первое, на что он обращает внимание, — авторы большинства работ вносят во множество доменов знания, которые помогают решить конкретные задачи. Но одновременно с этим их вклад начинает влиять на результаты работы моделей и делает их неоптимальными.

У суперинтеллекта, по его мнению, должно быть понятное представление о награде. Такое, чтобы у него появились все верхнеуровневые признаки, необходимые для формулирования подзадач, решение которых будет приближать награду.

При появлении новых признаков должна разрастаться и transition model (пространство действий которые возможно совершить).

PRINT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Syntesis from Foundation Models

Ребята сделали схему для обучения моделей, которые управляют роботом. В итоге смогли обогнать методы на моделях с одной из модальностей.

Сконструировать нормальный реворд сложно, а ручная разметка — очень дорогая. Чтобы обойти это, авторы попробовали обучаться на предпочтениях, сгенерированных моделями.

Несмотря на то, что текстовые модели любят галлюционировать, а VLM плохо сохраняют временные взаимодействия, их комбинация работает сильно лучше — они компенсируют недостатки друг друга.

В начале обучения авторы обходятся траекториями, сгенерированными LLM: генерируют, перемешивают и просят LLM выбрать лучшую. А дальше объединяют вердикты LLM и VLM.

Ещë один трюк — включение в лосс причинности. Так за счëт модели получается найти лучшие варианты и вознаградить их.


#YaNeurIPS25

Заметил на конференции ❣️ Дмитрий Быков
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥8😎41
CenterPoint и TransFusion: обзор двух подходов к задаче детекции

Сегодня разберём сразу две статьи о SoTA-способах предсказывать положения объектов.

Center-based 3D Object Detection and Tracking

Если коротко, это Objects as Points. Авторы решают задачу детекции на облаках точек с помощью CenterNet на BEV-фичах.

CenterNet — 2D-object-детектор. Вместо поправок к anchor-боксам он предсказывает center-боксы (их размеры, глубины, ориентацию).

В CenterPoint авторы добавили стадию рефайнмента предсказанных боксов на основе BEV-фичей, взятых из середин граней боксов CenterNet.

Архитектура (на первой схеме) состоит из трёх основных этапов:

1. 3D-Backbone выделяет фичи из облака точек.
2. СenterNet помогает получить из фичей 3D-боксы и их центры.
3. На стадии рефайнмента для каждого бокса по расположению достают и стакают 5 BEV-фичей. Перцептрон рассчитывает поправки к боксу и уверенность в нём (score) — это помогает уточнить предсказания.

Center-based-подходы лучше работают на классах объектов с особенностями — например, с необычными размерами. По результатам на nuScenes, авторы считают свой подход SoTA.

TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

В этой статье авторы решают задачу детекции с помощью данных камеры и лидара: мягко объединяют их с помощью cross-attention.

В основе TransFusion — DETR-like-подход с инициализацией object queries в локальных максимумах хитмапа, предсказанного по BEV-фичам.

DETR преобразует фичи объекта в вектора, добавляет positional encoding и подаёт результат на вход трансформер-декодера — так получаются вектора фич, которые знакомы с исходной картинкой.

Голова-детектор (вторая схема) состоит из двух последовательных трансформеров-декодеров:

🔴 Первый осуществляет cross-attention из object queries в BEV-фичи.
🔴 Второй связывает полученные фичи с картинками с помощью spatially modulated cross-attention (SMCA).

Механизм SMCA между object queries и данными с камер помогает модели лучше отслеживать связанные области изображения.

TransFusion также показал SoTA-результаты на nuScenes. Авторы предлагают использовать этот подход для ускорения и упрощения задач 3D-сегментации.

Разбор подготовил ❣️ Владимир Филипенко
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍6🤩6🤔1💯1
BEVCalib: LiDAR-Camera Calibration via Geometry-Guided Bird’s-Eye View Representations

Авторы сегодняшней статьи утверждают, что создали первый targetless-подход с BEV. Опираясь на идею о том, что каждый BEV-объект соответствует определённой области в пространстве, они геометрически упростили маппинг таких объектов из разных модальностей.

Знакомьтесь, BEVСalib — модель для калибровок экстринсиков cam2lidar на основе BEVFusion.

Её архитектура (на первой схеме) почти полностью повторяет BEVFusion: изображение и облако точек попадают каждое в свой энкодер, проходят Fuser и FPN. Для предсказания матрицы калибровок результат попадает в Geometry-Guided BEV Decoder (или просто GGBD).

GGBD — разработка авторов. Она состоит из двух модулей:

🔴 Feature Selector — запоминает координаты, куда спроецировались камерные фичи.
🔴 Refinement Module — применяет self-attention к фичам по запомненным координатам.

После нескольких SA-блоков используется Global Average Pooling и выход из векторов перемещения и кватерниона поворота. Кватернион поворота затем преобразуют в матрицу трансформации и объединяют с вектором перемещения. Рассмотреть процессы подробнее можно на второй схеме.

Лоссы стандартные:

🔴 Geodesic Loss на кватернион + регуляризация на нормальность вектора.
🔴 Smooth-L1 Loss для вектора перемещения.
🔴 Reprojection Loss на координаты облаков точек (по сути, L2).

BEVСalib — SoTA. Результаты работы модели обгоняют по качеству такие архитектуры, как Regnet, LCCNet, CalibAnything и Koide3. На датасетах KITTI, NuScenes и собственном наборе авторов CALIBD ошибка составляет ±0,1 угла для roll, pitch и yaw вне зависимости от раскалибровки.

Модель опенсорсная: попробовать её и посмотреть демо можно на официальном сайте.

Разбор подготовил ❣️ Антон Семенюта
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍7🔥6😎2
Self-Supervised Sparse Sensor Fusion for Long Range Perception

Авторы этой статьи предлагают новый подход к long-range perception: sparse-voxel-фьюжн камер и лидара с временным контекстом и SSL-предобучением. Всё это и собственный long-range-датасет позволили решению претендовать на SoTA на бенчмарках.

Ключевые фичи:

🔴 Sparse voxel representation вместо BEV помогает скейлиться на дальние расстояния.
🔴 Camera–LiDAR-фьюжн. Изображения с камер обрабатываются по схеме RGBD → Vision Mamba (ViM) → depth-module (RNN уточняет глубину) → sparse voxel lifting.
🔴 Temporal fusion (временной контекст). Главная фишка — sparse window attention: делают аттеншн для вокселя с предыдущего кадра к его соседям в кубике 3×3×3.
🔴 Self-supervised pretraining (UnO-like), чтобы сэкономить на разметке.

Архитектура решения — на схеме выше. Камерные фичи энкодят отдельно, поднимают в 3D, а затем фьюзят с лидарными. Потом добавляют временной контекст, делают аттеншн и передают в две головы, которые предсказывают occupancy и velocity.

Данных мало — чтобы получить нормальную разметку, нужно гораздо больше. Поэтому авторы собрали собственный датасет из информации о поездках на грузовике с 5 синхронными камерами и 4D-лидаром Aeva (radial speed, 400 м, 10 Гц). Радара не было. Так удалось собрать 60 тысяч кадров, из которых 35 тысяч разметили для детекции.

Image encoder и depth-module обучали вместе. Потом — reconstruction, depth supervision и дистилляционные лоссы фичей. Occupancy- и velocity-голову претрейнили SSL. В конце обучались распознавать объекты.

Результаты впечатляют:

🔴 Depth Prediction: −27% MAE и −25% MSE vs SoTA при инференсе в 0,064 с на памяти 1,3 ГБ.
🔴 Object Detection: +26.6% к SoTA SAMFusion.

В целом, работа подтверждает: sparse-представления в сочетании с временным контекстом и SSL-предобучением дают заметный выигрыш именно в long-range-сценариях, где BEV-подходы быстро упираются в вычисления и память. Метод выглядит особенно убедительно как практичный компромисс между качеством, дальностью и стоимостью разметки.

Разбор подготовил ❣️ Владислав Поляков
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍7🔥6
Топ-5 статей 2025: выбор читателей 404 driver not found

Наш канал появился совсем недавно, но подвести промежуточные итоги уже можно.

Спасибо, что были с нами в этом году, читали и лайкали! Собрали обзоры, которые понравились вам больше всего: сохраняйте себе и делитесь с друзьями.

SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection
О perception много статей с графиками и кодом, но лишь единицы попадают в топ лидерборда nuScenes — главного датасета для автономного вождения. Именно там нашлась эта статья.

UnO + GASP
Разбор двух похожих и крайне интересных статей на довольно редкую в сфере автономного транспорта тему претрейна.

Sparse4D v3: Advancing End-to-End 3D Detection and Tracking
Обсудили ещё одну редкую тему: End-to-End 3D Detection and Tracking, а именно — детектор Sparse4Dv3 с хорошими метриками на nuScenes.

Scaling Laws of Motion Forecasting and Planning
Waymo, подразделение беспилотных автомобилей Google, выпустило техрепорт о том, как масштабируются модели. Похожая статья об LLM сильно повлияла на свою сферу несколько лет назад. А теперь аналогичное исследование провели для планировщиков движения автомобилей.

Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models
Статья о том, как ребята из NVIDIA заняли первое место в лидерборде WOSAC от Waymo. Обсуждали цикл SFT, а не способы токенизации, слои архитектуры или внутренний cross attention.

А какие статьи запомнились в этом году вам? Расскажите в комментариях.

С наступающим! После праздников мы вернёмся с новыми разборами. До встречи в новом году!

Сформировали этот топ ❤️ уважаемые подписчики
404 driver not found
15🔥7🥰6
Топ статей 2025: выбор команды 404 driver not found

Пока все (и мы тоже) вспоминают, как работать после праздников, предлагаем почитать наши любимые разборы из прошлого года.

CenterPoint и TransFusion: обзор двух подходов к задаче детекции
Разбор сразу двух статей о SoTA-способах 3D-детекции.

RefAV: Towards Planning-Centric Scenario Mining
Статья о том, как навайбкодить фильтры и получить «золотые» примеры событий в огромном массиве данных, оперируя полуразмеченым потоком, который записал автомобиль.

Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations
Новый подход к дообучению traffic prediction-моделей без ручной разметки.

DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point Clouds
Фреймворк для офлайн-детекции и трекинга на основе длинных последовательностей лидарных точек (до 200 кадров), который занимает первое место на лидербордах WOD 3D Detection и WOD 3D Tracking.

А если вдруг пропустили, вот топ-5 2025, который сформировали вы.

В 2026 продолжим разбирать научные статьи, делиться интересными находками и обсуждать горячие вопросы индустрии — не переключайтесь!

Продолжает делиться с вами интересным ❣️ команда
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥3🎉2