NeurIPS 2025: начало
Началась главная ML-конференция — NeurIPS. В этом году она проходит сразу на двух площадках: в американском Сан-Диего и в мексиканском Мехико.
Мы будем рассказывать о том, что происходит в Мексике. Впечатления руководителя группы AI-планирования робота доставки Дмитрия Быкова читайте в ML Underhood. А здесь самым запоминающимся поделился наш коллега Владислав Фахретдинов из команды восприятия робота доставки.
#YaNeurIPS25
Выбрал самое интересное из событий первого дня❣️ Владислав Фахретдинов
404 driver not found
Началась главная ML-конференция — NeurIPS. В этом году она проходит сразу на двух площадках: в американском Сан-Диего и в мексиканском Мехико.
Мы будем рассказывать о том, что происходит в Мексике. Впечатления руководителя группы AI-планирования робота доставки Дмитрия Быкова читайте в ML Underhood. А здесь самым запоминающимся поделился наш коллега Владислав Фахретдинов из команды восприятия робота доставки.
Главный мотив первого дня — безопасность и масштабируемость автономного транспорта. В отличие от ограниченной тестовой среды, в реальном мире, бесконечное количество ситуаций, когда система должна вести себя безопасно по отношению к другим и самой себе. Обсуждали, как эффективно тестировать автономные системы с учётом этого.
Сначала были доклады про построение сценариев и их реализацию. TL;DR: тестировать что-либо на реальных задачах слишком долго и дорого, лучше использовать симуляторы, а потом приближать их данные к реальности с помощью генеративных моделей
Далее был простой, но интересный рассказ Sergey Levine из UC Berkley про историю развития VLA от LLM и VLM до будущего в построении foundation-моделей.
Самую интересную работу, на мой взгляд, привезла команда Wayve, которая делает автономный транспорт.
Во-первых, они показали свою автономную систему. Она обучается end-to-end, на вход принимает сенсоры, на выходе возвращает всё для управления, также есть контур безопасности. Обучив систему на данных и
з UK, ребята проверили её на 500 других городах и показали, что модель стала лучше адаптироваться к дорожным и географическим условиям.
Во-вторых, ребята привезли сразу две своих foundation-модели:
GAIA-2 — модель генерации реального мира, которая на основе начальных данных с камер и условий (положения и поведение агентов и самого транспортного средства, состояние окружения) умеет фотореалистично предсказывать изображения с камер.
Модель состоит из двух частей: токенизатора для перевода видео в латентное пространство и модели мира для генерации будущего латентного состояния мира.
Вторая модель — LINGO-2 — VLA. Она добавила в систему общие человеческие знания и размышления, а также
возможность описывать действия.
Комбинация этих моделей:🔴 E2E — помогает системе быть более устойчивой и лучше обобщаться, но требует много данных.🔴 Модель симуляции мира — позволяет проводить сколь угодно разнообразные тесты и проверять безопасность системы.🔴 VLA — делает систему еще более устойчивой и обобщаемой.
У себя на сайте ребята пишут про L4-уровень автономности, также там много интересных видео. И хотя они ещё не вышли на уровень массовой масштабируемости, в их машине вполне ездит Huang — думаю, можно считать их разработки будущим отрасли.
#YaNeurIPS25
Выбрал самое интересное из событий первого дня
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍8❤5👏2💯1
Суперинтеллект и обучение в задачах робототехники: что обсуждают на NeurIPS 2025
Продолжаем репортаж с обеих площадок главной ML-конференции года. Новости из американского Сан-Диего читайте в канале ML Underhood. А двумя примечательными докладами из Мехико поделится Дмитрий Быков, руководитель группы AI-планирования робота доставки.
Спойлер:речь пойдëт об обучении с подкреплением.
#YaNeurIPS25
Заметил на конференции❣️ Дмитрий Быков
404 driver not found
Продолжаем репортаж с обеих площадок главной ML-конференции года. Новости из американского Сан-Диего читайте в канале ML Underhood. А двумя примечательными докладами из Мехико поделится Дмитрий Быков, руководитель группы AI-планирования робота доставки.
Спойлер:
The OaK Architecture: A Vision of SuperIntellegence from Experience
Выступление Rich Sutton о том, каким он видит суперинтеллект.
Первое, на что он обращает внимание, — авторы большинства работ вносят во множество доменов знания, которые помогают решить конкретные задачи. Но одновременно с этим их вклад начинает влиять на результаты работы моделей и делает их неоптимальными.
У суперинтеллекта, по его мнению, должно быть понятное представление о награде. Такое, чтобы у него появились все верхнеуровневые признаки, необходимые для формулирования подзадач, решение которых будет приближать награду.
При появлении новых признаков должна разрастаться и transition model (пространство действий которые возможно совершить).
PRINT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Syntesis from Foundation Models
Ребята сделали схему для обучения моделей, которые управляют роботом. В итоге смогли обогнать методы на моделях с одной из модальностей.
Сконструировать нормальный реворд сложно, а ручная разметка — очень дорогая. Чтобы обойти это, авторы попробовали обучаться на предпочтениях, сгенерированных моделями.
Несмотря на то, что текстовые модели любят галлюционировать, а VLM плохо сохраняют временные взаимодействия, их комбинация работает сильно лучше — они компенсируют недостатки друг друга.
В начале обучения авторы обходятся траекториями, сгенерированными LLM: генерируют, перемешивают и просят LLM выбрать лучшую. А дальше объединяют вердикты LLM и VLM.
Ещë один трюк — включение в лосс причинности. Так за счëт модели получается найти лучшие варианты и вознаградить их.
#YaNeurIPS25
Заметил на конференции
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥8😎4❤1
CenterPoint и TransFusion: обзор двух подходов к задаче детекции
Сегодня разберём сразу две статьи о SoTA-способах предсказывать положения объектов.
Center-based 3D Object Detection and Tracking
Если коротко, это Objects as Points. Авторы решают задачу детекции на облаках точек с помощью CenterNet на BEV-фичах.
CenterNet — 2D-object-детектор. Вместо поправок к anchor-боксам он предсказывает center-боксы (их размеры, глубины, ориентацию).
В CenterPoint авторы добавили стадию рефайнмента предсказанных боксов на основе BEV-фичей, взятых из середин граней боксов CenterNet.
Архитектура (на первой схеме) состоит из трёх основных этапов:
1. 3D-Backbone выделяет фичи из облака точек.
2. СenterNet помогает получить из фичей 3D-боксы и их центры.
3. На стадии рефайнмента для каждого бокса по расположению достают и стакают 5 BEV-фичей. Перцептрон рассчитывает поправки к боксу и уверенность в нём (score) — это помогает уточнить предсказания.
Center-based-подходы лучше работают на классах объектов с особенностями — например, с необычными размерами. По результатам на nuScenes, авторы считают свой подход SoTA.
TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers
В этой статье авторы решают задачу детекции с помощью данных камеры и лидара: мягко объединяют их с помощью cross-attention.
В основе TransFusion — DETR-like-подход с инициализацией object queries в локальных максимумах хитмапа, предсказанного по BEV-фичам.
DETR преобразует фичи объекта в вектора, добавляет positional encoding и подаёт результат на вход трансформер-декодера — так получаются вектора фич, которые знакомы с исходной картинкой.
Голова-детектор (вторая схема) состоит из двух последовательных трансформеров-декодеров:
🔴 Первый осуществляет cross-attention из object queries в BEV-фичи.
🔴 Второй связывает полученные фичи с картинками с помощью spatially modulated cross-attention (SMCA).
Механизм SMCA между object queries и данными с камер помогает модели лучше отслеживать связанные области изображения.
TransFusion также показал SoTA-результаты на nuScenes. Авторы предлагают использовать этот подход для ускорения и упрощения задач 3D-сегментации.
Разбор подготовил❣️ Владимир Филипенко
404 driver not found
Сегодня разберём сразу две статьи о SoTA-способах предсказывать положения объектов.
Center-based 3D Object Detection and Tracking
Если коротко, это Objects as Points. Авторы решают задачу детекции на облаках точек с помощью CenterNet на BEV-фичах.
CenterNet — 2D-object-детектор. Вместо поправок к anchor-боксам он предсказывает center-боксы (их размеры, глубины, ориентацию).
В CenterPoint авторы добавили стадию рефайнмента предсказанных боксов на основе BEV-фичей, взятых из середин граней боксов CenterNet.
Архитектура (на первой схеме) состоит из трёх основных этапов:
1. 3D-Backbone выделяет фичи из облака точек.
2. СenterNet помогает получить из фичей 3D-боксы и их центры.
3. На стадии рефайнмента для каждого бокса по расположению достают и стакают 5 BEV-фичей. Перцептрон рассчитывает поправки к боксу и уверенность в нём (score) — это помогает уточнить предсказания.
Center-based-подходы лучше работают на классах объектов с особенностями — например, с необычными размерами. По результатам на nuScenes, авторы считают свой подход SoTA.
TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers
В этой статье авторы решают задачу детекции с помощью данных камеры и лидара: мягко объединяют их с помощью cross-attention.
В основе TransFusion — DETR-like-подход с инициализацией object queries в локальных максимумах хитмапа, предсказанного по BEV-фичам.
DETR преобразует фичи объекта в вектора, добавляет positional encoding и подаёт результат на вход трансформер-декодера — так получаются вектора фич, которые знакомы с исходной картинкой.
Голова-детектор (вторая схема) состоит из двух последовательных трансформеров-декодеров:
Механизм SMCA между object queries и данными с камер помогает модели лучше отслеживать связанные области изображения.
TransFusion также показал SoTA-результаты на nuScenes. Авторы предлагают использовать этот подход для ускорения и упрощения задач 3D-сегментации.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍6🤩6🤔1💯1
BEVCalib: LiDAR-Camera Calibration via Geometry-Guided Bird’s-Eye View Representations
Авторы сегодняшней статьи утверждают, что создали первый targetless-подход с BEV. Опираясь на идею о том, что каждый BEV-объект соответствует определённой области в пространстве, они геометрически упростили маппинг таких объектов из разных модальностей.
Знакомьтесь, BEVСalib — модель для калибровок экстринсиков cam2lidar на основе BEVFusion.
Её архитектура (на первой схеме) почти полностью повторяет BEVFusion: изображение и облако точек попадают каждое в свой энкодер, проходят Fuser и FPN. Для предсказания матрицы калибровок результат попадает в Geometry-Guided BEV Decoder (или просто GGBD).
GGBD — разработка авторов. Она состоит из двух модулей:
🔴 Feature Selector — запоминает координаты, куда спроецировались камерные фичи.
🔴 Refinement Module — применяет self-attention к фичам по запомненным координатам.
После нескольких SA-блоков используется Global Average Pooling и выход из векторов перемещения и кватерниона поворота. Кватернион поворота затем преобразуют в матрицу трансформации и объединяют с вектором перемещения. Рассмотреть процессы подробнее можно на второй схеме.
Лоссы стандартные:
🔴 Geodesic Loss на кватернион + регуляризация на нормальность вектора.
🔴 Smooth-L1 Loss для вектора перемещения.
🔴 Reprojection Loss на координаты облаков точек (по сути, L2).
BEVСalib — SoTA. Результаты работы модели обгоняют по качеству такие архитектуры, как Regnet, LCCNet, CalibAnything и Koide3. На датасетах KITTI, NuScenes и собственном наборе авторов CALIBD ошибка составляет ±0,1 угла для roll, pitch и yaw вне зависимости от раскалибровки.
Модель опенсорсная: попробовать её и посмотреть демо можно на официальном сайте.
Разбор подготовил❣️ Антон Семенюта
404 driver not found
Авторы сегодняшней статьи утверждают, что создали первый targetless-подход с BEV. Опираясь на идею о том, что каждый BEV-объект соответствует определённой области в пространстве, они геометрически упростили маппинг таких объектов из разных модальностей.
Знакомьтесь, BEVСalib — модель для калибровок экстринсиков cam2lidar на основе BEVFusion.
Её архитектура (на первой схеме) почти полностью повторяет BEVFusion: изображение и облако точек попадают каждое в свой энкодер, проходят Fuser и FPN. Для предсказания матрицы калибровок результат попадает в Geometry-Guided BEV Decoder (или просто GGBD).
GGBD — разработка авторов. Она состоит из двух модулей:
После нескольких SA-блоков используется Global Average Pooling и выход из векторов перемещения и кватерниона поворота. Кватернион поворота затем преобразуют в матрицу трансформации и объединяют с вектором перемещения. Рассмотреть процессы подробнее можно на второй схеме.
Лоссы стандартные:
BEVСalib — SoTA. Результаты работы модели обгоняют по качеству такие архитектуры, как Regnet, LCCNet, CalibAnything и Koide3. На датасетах KITTI, NuScenes и собственном наборе авторов CALIBD ошибка составляет ±0,1 угла для roll, pitch и yaw вне зависимости от раскалибровки.
Модель опенсорсная: попробовать её и посмотреть демо можно на официальном сайте.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍7🔥6😎2
Self-Supervised Sparse Sensor Fusion for Long Range Perception
Авторы этой статьи предлагают новый подход к long-range perception: sparse-voxel-фьюжн камер и лидара с временным контекстом и SSL-предобучением. Всё это и собственный long-range-датасет позволили решению претендовать на SoTA на бенчмарках.
Ключевые фичи:
🔴 Sparse voxel representation вместо BEV помогает скейлиться на дальние расстояния.
🔴 Camera–LiDAR-фьюжн. Изображения с камер обрабатываются по схеме RGBD → Vision Mamba (ViM) → depth-module (RNN уточняет глубину) → sparse voxel lifting.
🔴 Temporal fusion (временной контекст). Главная фишка — sparse window attention: делают аттеншн для вокселя с предыдущего кадра к его соседям в кубике 3×3×3.
🔴 Self-supervised pretraining (UnO-like), чтобы сэкономить на разметке.
Архитектура решения — на схеме выше. Камерные фичи энкодят отдельно, поднимают в 3D, а затем фьюзят с лидарными. Потом добавляют временной контекст, делают аттеншн и передают в две головы, которые предсказывают occupancy и velocity.
Данных мало — чтобы получить нормальную разметку, нужно гораздо больше. Поэтому авторы собрали собственный датасет из информации о поездках на грузовике с 5 синхронными камерами и 4D-лидаром Aeva (radial speed, 400 м, 10 Гц). Радара не было. Так удалось собрать 60 тысяч кадров, из которых 35 тысяч разметили для детекции.
Image encoder и depth-module обучали вместе. Потом — reconstruction, depth supervision и дистилляционные лоссы фичей. Occupancy- и velocity-голову претрейнили SSL. В конце обучались распознавать объекты.
Результаты впечатляют:
🔴 Depth Prediction: −27% MAE и −25% MSE vs SoTA при инференсе в 0,064 с на памяти 1,3 ГБ.
🔴 Object Detection: +26.6% к SoTA SAMFusion.
В целом, работа подтверждает: sparse-представления в сочетании с временным контекстом и SSL-предобучением дают заметный выигрыш именно в long-range-сценариях, где BEV-подходы быстро упираются в вычисления и память. Метод выглядит особенно убедительно как практичный компромисс между качеством, дальностью и стоимостью разметки.
Разбор подготовил❣️ Владислав Поляков
404 driver not found
Авторы этой статьи предлагают новый подход к long-range perception: sparse-voxel-фьюжн камер и лидара с временным контекстом и SSL-предобучением. Всё это и собственный long-range-датасет позволили решению претендовать на SoTA на бенчмарках.
Ключевые фичи:
Архитектура решения — на схеме выше. Камерные фичи энкодят отдельно, поднимают в 3D, а затем фьюзят с лидарными. Потом добавляют временной контекст, делают аттеншн и передают в две головы, которые предсказывают occupancy и velocity.
Данных мало — чтобы получить нормальную разметку, нужно гораздо больше. Поэтому авторы собрали собственный датасет из информации о поездках на грузовике с 5 синхронными камерами и 4D-лидаром Aeva (radial speed, 400 м, 10 Гц). Радара не было. Так удалось собрать 60 тысяч кадров, из которых 35 тысяч разметили для детекции.
Image encoder и depth-module обучали вместе. Потом — reconstruction, depth supervision и дистилляционные лоссы фичей. Occupancy- и velocity-голову претрейнили SSL. В конце обучались распознавать объекты.
Результаты впечатляют:
В целом, работа подтверждает: sparse-представления в сочетании с временным контекстом и SSL-предобучением дают заметный выигрыш именно в long-range-сценариях, где BEV-подходы быстро упираются в вычисления и память. Метод выглядит особенно убедительно как практичный компромисс между качеством, дальностью и стоимостью разметки.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍7🔥6
Топ-5 статей 2025: выбор читателей 404 driver not found
Наш канал появился совсем недавно, но подвести промежуточные итоги уже можно.
Спасибо, что были с нами в этом году, читали и лайкали! Собрали обзоры, которые понравились вам больше всего: сохраняйте себе и делитесь с друзьями.
SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection
О perception много статей с графиками и кодом, но лишь единицы попадают в топ лидерборда nuScenes — главного датасета для автономного вождения. Именно там нашлась эта статья.
UnO + GASP
Разбор двух похожих и крайне интересных статей на довольно редкую в сфере автономного транспорта тему претрейна.
Sparse4D v3: Advancing End-to-End 3D Detection and Tracking
Обсудили ещё одну редкую тему: End-to-End 3D Detection and Tracking, а именно — детектор Sparse4Dv3 с хорошими метриками на nuScenes.
Scaling Laws of Motion Forecasting and Planning
Waymo, подразделение беспилотных автомобилей Google, выпустило техрепорт о том, как масштабируются модели. Похожая статья об LLM сильно повлияла на свою сферу несколько лет назад. А теперь аналогичное исследование провели для планировщиков движения автомобилей.
Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models
Статья о том, как ребята из NVIDIA заняли первое место в лидерборде WOSAC от Waymo. Обсуждали цикл SFT, а не способы токенизации, слои архитектуры или внутренний cross attention.
А какие статьи запомнились в этом году вам? Расскажите в комментариях.
С наступающим! После праздников мы вернёмся с новыми разборами. До встречи в новом году!
Сформировали этот топ ❤️ уважаемые подписчики
404 driver not found
Наш канал появился совсем недавно, но подвести промежуточные итоги уже можно.
Спасибо, что были с нами в этом году, читали и лайкали! Собрали обзоры, которые понравились вам больше всего: сохраняйте себе и делитесь с друзьями.
SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection
О perception много статей с графиками и кодом, но лишь единицы попадают в топ лидерборда nuScenes — главного датасета для автономного вождения. Именно там нашлась эта статья.
UnO + GASP
Разбор двух похожих и крайне интересных статей на довольно редкую в сфере автономного транспорта тему претрейна.
Sparse4D v3: Advancing End-to-End 3D Detection and Tracking
Обсудили ещё одну редкую тему: End-to-End 3D Detection and Tracking, а именно — детектор Sparse4Dv3 с хорошими метриками на nuScenes.
Scaling Laws of Motion Forecasting and Planning
Waymo, подразделение беспилотных автомобилей Google, выпустило техрепорт о том, как масштабируются модели. Похожая статья об LLM сильно повлияла на свою сферу несколько лет назад. А теперь аналогичное исследование провели для планировщиков движения автомобилей.
Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models
Статья о том, как ребята из NVIDIA заняли первое место в лидерборде WOSAC от Waymo. Обсуждали цикл SFT, а не способы токенизации, слои архитектуры или внутренний cross attention.
А какие статьи запомнились в этом году вам? Расскажите в комментариях.
С наступающим! После праздников мы вернёмся с новыми разборами. До встречи в новом году!
Сформировали этот топ ❤️ уважаемые подписчики
404 driver not found
❤15🔥7🥰6
Топ статей 2025: выбор команды 404 driver not found
Пока все (и мы тоже) вспоминают, как работать после праздников, предлагаем почитать наши любимые разборы из прошлого года.
CenterPoint и TransFusion: обзор двух подходов к задаче детекции
Разбор сразу двух статей о SoTA-способах 3D-детекции.
RefAV: Towards Planning-Centric Scenario Mining
Статья о том, как навайбкодить фильтры и получить «золотые» примеры событий в огромном массиве данных, оперируя полуразмеченым потоком, который записал автомобиль.
Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations
Новый подход к дообучению traffic prediction-моделей без ручной разметки.
DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point Clouds
Фреймворк для офлайн-детекции и трекинга на основе длинных последовательностей лидарных точек (до 200 кадров), который занимает первое место на лидербордах WOD 3D Detection и WOD 3D Tracking.
А если вдруг пропустили, вот топ-5 2025, который сформировали вы.
В 2026 продолжим разбирать научные статьи, делиться интересными находками и обсуждать горячие вопросы индустрии — не переключайтесь!
Продолжает делиться с вами интересным❣️ команда
404 driver not found
Пока все (и мы тоже) вспоминают, как работать после праздников, предлагаем почитать наши любимые разборы из прошлого года.
CenterPoint и TransFusion: обзор двух подходов к задаче детекции
Разбор сразу двух статей о SoTA-способах 3D-детекции.
RefAV: Towards Planning-Centric Scenario Mining
Статья о том, как навайбкодить фильтры и получить «золотые» примеры событий в огромном массиве данных, оперируя полуразмеченым потоком, который записал автомобиль.
Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations
Новый подход к дообучению traffic prediction-моделей без ручной разметки.
DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point Clouds
Фреймворк для офлайн-детекции и трекинга на основе длинных последовательностей лидарных точек (до 200 кадров), который занимает первое место на лидербордах WOD 3D Detection и WOD 3D Tracking.
А если вдруг пропустили, вот топ-5 2025, который сформировали вы.
В 2026 продолжим разбирать научные статьи, делиться интересными находками и обсуждать горячие вопросы индустрии — не переключайтесь!
Продолжает делиться с вами интересным
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥3🎉2
TreeIRL: Safe Urban Driving with Tree Search and Inverse Reinforcement Learning
Сегодня разберём статью, в которой авторы предлагают использовать поиск монте-карло по дереву (Monte-Carlo Tree Search, MCTS) для задачи планирования. Как и в обычном MCTS, сначала генерируется множество траекторий, а затем на каждом шаге поддерживается баланс между перспективными направлениями и теми, которые ещё не исследованы.
Перспективность направления определяется функцией награды, учитывающей несколько факторов:
🔴 штраф за рывки (для комфорта),
🔴 штраф за столкновения с машинами и людьми,
🔴 адекватное расстояние до агента спереди,
🔴 следование на скорости около максимальной разрешённой,
🔴 остановки в местах, где это необходимо,
🔴 опционально — предобученная PPO-политика и её функция ценности V.
Исследователи генерируют всего 400 траекторий и выбирают из них 100 наиболее перспективных кандидатов по награде. Отобранные траектории удовлетворяют формальным требованиям, однако не все из них применимы в реальности.
Для решения этой проблемы авторы обучают отдельную модель на inverse reinforcement learning. Её задача — дать скалярное значение z, которое позволит из представленных траекторий выбрать наиболее «человекоподобную». При обучении используется таргет exp(z_i)/sum_z(exp(z)) — подходящая траектория определяется по подобию в L2-норме. В итоге из 100 траекторий-кандидатов остаётся только одна, лучшая по IRL-оценке. Она удовлетворяет формальным критериям и похожа на то, как водил бы человек.
Этот метод отличается от обычного подхода, где сначала нейросеть генерирует несколько траекторий, а потом их проверяют на формальную безопасность. Это свежий взгляд, но, к сожалению, остаётся неочевидным, насколько хорошо он масштабируется: подход тестировался как адаптивный круиз-контроль, и модель предсказывала только продольные рывки. С этим ограничением мы имеем всего 5 возможных действий против, например, 169 в другом популярном методе, MotionLM. Количество возможных деревьев в таком случае астрономически меньше — 390 тысяч против 600 квадриллионов.
Что касается результатов работы модели, то в категории адаптивного круиз-контроля на бенчмарке nuPlan TreeIRL показала себя весьма хорошо. Модель также применялась на дорогах общего пользования и смогла проехать 400 км без вмешательств.
Разбор подготовил❣️ Кирилл Федянин
404 driver not found
Сегодня разберём статью, в которой авторы предлагают использовать поиск монте-карло по дереву (Monte-Carlo Tree Search, MCTS) для задачи планирования. Как и в обычном MCTS, сначала генерируется множество траекторий, а затем на каждом шаге поддерживается баланс между перспективными направлениями и теми, которые ещё не исследованы.
Перспективность направления определяется функцией награды, учитывающей несколько факторов:
Исследователи генерируют всего 400 траекторий и выбирают из них 100 наиболее перспективных кандидатов по награде. Отобранные траектории удовлетворяют формальным требованиям, однако не все из них применимы в реальности.
Для решения этой проблемы авторы обучают отдельную модель на inverse reinforcement learning. Её задача — дать скалярное значение z, которое позволит из представленных траекторий выбрать наиболее «человекоподобную». При обучении используется таргет exp(z_i)/sum_z(exp(z)) — подходящая траектория определяется по подобию в L2-норме. В итоге из 100 траекторий-кандидатов остаётся только одна, лучшая по IRL-оценке. Она удовлетворяет формальным критериям и похожа на то, как водил бы человек.
Этот метод отличается от обычного подхода, где сначала нейросеть генерирует несколько траекторий, а потом их проверяют на формальную безопасность. Это свежий взгляд, но, к сожалению, остаётся неочевидным, насколько хорошо он масштабируется: подход тестировался как адаптивный круиз-контроль, и модель предсказывала только продольные рывки. С этим ограничением мы имеем всего 5 возможных действий против, например, 169 в другом популярном методе, MotionLM. Количество возможных деревьев в таком случае астрономически меньше — 390 тысяч против 600 квадриллионов.
Что касается результатов работы модели, то в категории адаптивного круиз-контроля на бенчмарке nuPlan TreeIRL показала себя весьма хорошо. Модель также применялась на дорогах общего пользования и смогла проехать 400 км без вмешательств.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15👍5🔥5
MoDAR: Using Motion Forecasting for 3D Object Detection in Point Cloud Sequences
Сегодня разберём статью на стыке perception и BL (behavior layer). Объединив очень разные элементы восприятия (perception) и предсказания (prediction) робота, команда Waymo улучшила обнаружение 3D-объектов для детекторов, которые работают с облаками точек и их последовательностями.
В чём проблема? Современные системы плохо справляются с обнаружением перекрытых и удалённых объектов. Обработка множества лидарных кадров требует огромных ресурсов. Можно было бы фьюзить облака точек на уровне объектов, потому что это дешевле с точки зрения вычислений. Но тогда возникают проблемы с выравниванием (alignment).
Система MoDAR вместо прямой обработки всех кадров использует прогнозирование движения как дополнительную модальность. Алгоритм создаёт виртуальные точки с информацией о предсказанных позициях объектов из прошлых и будущих кадров.
Способ, который придумали авторы, помогает прокачать качество обработки облаков. На основе предсказаний траекторий из BL они создали для детектора виртуальную модальность под названием MoDAR (по аналогии с LiDAR).
Точки MoDAR — это центры объектов по предсказаниям из прошлого в настоящее (онлайн) и из будущего в настоящее (офлайн). Они образуют новую легковесную модальность: число точек, полученных из временного контекста 18 секунд (9 из прошлого + 9 из будущего) меньше, чем в одном лидарном фрейме.
Полный флоу решения — на схеме. Авторы используют два 3D-детектора: CenterPoint и SWFormer. В качестве модели предсказания движения выбрали MultiPath++, обученный на Waymo Open Motion Dataset.
На 3-frame SWFormer + 18 секунд MoDAR удалось существенно повысить качество (mAPH) в сложных кейсах (L2-срез на Waymo Open Dataset). При этом практически SoTA-результат не требует значительных дополнительных вычислительных затрат.
404 driver not found
Сегодня разберём статью на стыке perception и BL (behavior layer). Объединив очень разные элементы восприятия (perception) и предсказания (prediction) робота, команда Waymo улучшила обнаружение 3D-объектов для детекторов, которые работают с облаками точек и их последовательностями.
В чём проблема? Современные системы плохо справляются с обнаружением перекрытых и удалённых объектов. Обработка множества лидарных кадров требует огромных ресурсов. Можно было бы фьюзить облака точек на уровне объектов, потому что это дешевле с точки зрения вычислений. Но тогда возникают проблемы с выравниванием (alignment).
Система MoDAR вместо прямой обработки всех кадров использует прогнозирование движения как дополнительную модальность. Алгоритм создаёт виртуальные точки с информацией о предсказанных позициях объектов из прошлых и будущих кадров.
Способ, который придумали авторы, помогает прокачать качество обработки облаков. На основе предсказаний траекторий из BL они создали для детектора виртуальную модальность под названием MoDAR (по аналогии с LiDAR).
Точки MoDAR — это центры объектов по предсказаниям из прошлого в настоящее (онлайн) и из будущего в настоящее (офлайн). Они образуют новую легковесную модальность: число точек, полученных из временного контекста 18 секунд (9 из прошлого + 9 из будущего) меньше, чем в одном лидарном фрейме.
Полный флоу решения — на схеме. Авторы используют два 3D-детектора: CenterPoint и SWFormer. В качестве модели предсказания движения выбрали MultiPath++, обученный на Waymo Open Motion Dataset.
На 3-frame SWFormer + 18 секунд MoDAR удалось существенно повысить качество (mAPH) в сложных кейсах (L2-срез на Waymo Open Dataset). При этом практически SoTA-результат не требует значительных дополнительных вычислительных затрат.
404 driver not found
❤18🔥7🤓5👏2👍1
DINO-MOT: 3D Multi-Object Tracking With Visual Foundation Model for Pedestrian Re-Identification Using Visual Memory Mechanism
В этом исследовании ищут решение задачи 3D Multi-Object Tracking (3D-MOT) в контексте автономного вождения. Акцент делают на том, как повысить точность отслеживания пешеходов.
Фреймворк DINO-MOT, по мнению авторов, расширяет классический подход Tracking-by-Detection за счёт интеграции DINOv2. Ключевая идея — использование визуальной информации с камер для повторной идентификации (Re-Identification) пешеходов. Это позволяет снизить количество ID switches до 12,3%.
3D-детекции пешеходов проецируются на 2D-изображения, из которых извлекают области интереса (кропы). Эти изображения обрабатывают энкодером DINOv2: получают признаковые эмбеддинги и сравнивают их с визуальной памятью (Lookup Table) с помощью косинусной схожести для коррекции треков.
Прогноз движения на основе расширенного фильтра Калмана, двухэтапная ассоциация с обобщённым IoU и другие элементы фреймворка обеспечивают робастность трекинга для различных классов объектов.
На момент публикации DINO-MOT лидирует на бенчмарк-наборе nuScenes: устанавливает новое SoTA-значение по метрике AMOTA — 76,3%.
По результатам абляционных исследований, интеграция DINOv2:
🔴 Позволяет стабильно снижать ID switches для пешеходов, если использовать различные детекторы.
🔴 Не оказывает негативного влияния на общую точность трекинга.
Замеры производительности указывают на потенциальную применимость подхода в реальном времени, что делает его практичным для автономных систем.
Разбор подготовила❣️ Ольга Ротова
404 driver not found
В этом исследовании ищут решение задачи 3D Multi-Object Tracking (3D-MOT) в контексте автономного вождения. Акцент делают на том, как повысить точность отслеживания пешеходов.
Фреймворк DINO-MOT, по мнению авторов, расширяет классический подход Tracking-by-Detection за счёт интеграции DINOv2. Ключевая идея — использование визуальной информации с камер для повторной идентификации (Re-Identification) пешеходов. Это позволяет снизить количество ID switches до 12,3%.
3D-детекции пешеходов проецируются на 2D-изображения, из которых извлекают области интереса (кропы). Эти изображения обрабатывают энкодером DINOv2: получают признаковые эмбеддинги и сравнивают их с визуальной памятью (Lookup Table) с помощью косинусной схожести для коррекции треков.
Прогноз движения на основе расширенного фильтра Калмана, двухэтапная ассоциация с обобщённым IoU и другие элементы фреймворка обеспечивают робастность трекинга для различных классов объектов.
На момент публикации DINO-MOT лидирует на бенчмарк-наборе nuScenes: устанавливает новое SoTA-значение по метрике AMOTA — 76,3%.
По результатам абляционных исследований, интеграция DINOv2:
Замеры производительности указывают на потенциальную применимость подхода в реальном времени, что делает его практичным для автономных систем.
Разбор подготовила
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤4👍4🤩3
MADrive: Memory-Augmented Driving Scene Modeling
Сегодня разберём нашу статью о новом фреймворке для реконструкции дорожных сцен в задачах автономного вождения — MADrive. Он объединяет в себе две идеи:
🔴 3D Gaussian Splatting (3DGS), чтобы реконструировать объекты и сцены, а потом генерировать новые кадры (novel-view synthesis).
🔴 Внешний банк объектов. Он помогает создавать реалистичные кадры с тех ракурсов, для которых не хватало исходных данных.
Как это работает
Мы декомпозируем сцену на статический фон (дорога, здания, деревья) и динамику (автомобили). Фон восстанавливаем c помощью 3DGS по данным с камер, уже известным положениям камер в проезде и лидарным 3D-точкам (как начальное приближение для положения сплатов).
Для эффективной работы с автомобилями мы предварительно собрали датасет MAD-Cars. В него вошли около 70 тысяч 360-градусных видеозаписей автомобилей разных моделей и цветов.
Чтобы реконструировать автомобили при обработке проезда:
1. Выделяем каждый автомобиль на сцене в 3D-бокс.
2. Получаем 2D-кроп по проекции бокса на кадр.
3. Считаем эмбеддинг SigLIP2 для кропа и уточняем цвет машины с помощью Qwen2.5-VL.
4. Находим похожую машину в MAD-Cars по эмбеддингу и цвету (косинусное сходство).
5. Для найденного автомобиля строим новую 3D-модель c помощью 2D Gaussian Splats. Попутно явно разделяем цвет автомобиля и влияние освещения, при котором записывали 360-градусное видео для MAD-Cars.
6. Переосвещаем восстановленную 3D-модель автомобиля с учётом освещения на реконструируемой сцене. Вставляем модель в сцену на место реальной машины.
Зачем это нужно
MADrive позволяет достоверно генерировать синтетические сенсорные данные для новых дорожных сценариев. MAD-Cars полезен для многих задач 3D Computer Vision — от реконструкции до генерации сцен.
Познакомиться с MADrive и MAD-Cars можно на странице проекта, а узнать больше об их создании — на Хабре.
Разбор подготовил❣️ Кирилл Струминский
404 driver not found
Сегодня разберём нашу статью о новом фреймворке для реконструкции дорожных сцен в задачах автономного вождения — MADrive. Он объединяет в себе две идеи:
Как это работает
Мы декомпозируем сцену на статический фон (дорога, здания, деревья) и динамику (автомобили). Фон восстанавливаем c помощью 3DGS по данным с камер, уже известным положениям камер в проезде и лидарным 3D-точкам (как начальное приближение для положения сплатов).
Для эффективной работы с автомобилями мы предварительно собрали датасет MAD-Cars. В него вошли около 70 тысяч 360-градусных видеозаписей автомобилей разных моделей и цветов.
Чтобы реконструировать автомобили при обработке проезда:
1. Выделяем каждый автомобиль на сцене в 3D-бокс.
2. Получаем 2D-кроп по проекции бокса на кадр.
3. Считаем эмбеддинг SigLIP2 для кропа и уточняем цвет машины с помощью Qwen2.5-VL.
4. Находим похожую машину в MAD-Cars по эмбеддингу и цвету (косинусное сходство).
5. Для найденного автомобиля строим новую 3D-модель c помощью 2D Gaussian Splats. Попутно явно разделяем цвет автомобиля и влияние освещения, при котором записывали 360-градусное видео для MAD-Cars.
6. Переосвещаем восстановленную 3D-модель автомобиля с учётом освещения на реконструируемой сцене. Вставляем модель в сцену на место реальной машины.
Зачем это нужно
MADrive позволяет достоверно генерировать синтетические сенсорные данные для новых дорожных сценариев. MAD-Cars полезен для многих задач 3D Computer Vision — от реконструкции до генерации сцен.
Познакомиться с MADrive и MAD-Cars можно на странице проекта, а узнать больше об их создании — на Хабре.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍12❤8🎉2
Learning Personalized Driving Styles via Reinforcement Learning from Human Feedback
Обычно планировщики для вождения обучаются на демонстрациях очень разных водителей. Одни предпочитают водить безопасно, другие — быстрее оказываться дома за счёт более рисковых манёвров. Типичная модель-планировщик выдаёт усреднённое вождение. В сегодняшней статье авторы задаются вопросом, как сделать стиль вождения планировщика более выраженным.
RLHF (reinforcement learning from human feedback) — тот самый алгоритм, который используют для алайнмента моделей под потребности людей в текстовых LLM, в том числе в оригинальном ChatGPT: людей просили людей ранжировать ответы, и по их оценкам нейросеть обучалась говорить приятное и полезное.
Алгоритм редко применялся для решения задач автономного транспорта. В этой статье авторы тоже получили своего рода кашу из топора: фундаментальная идея подхода сохранилась, но реализацию каждой детали изменили. Тем не менее, ключевой результат всё равно получился интересным:
🔴 Разделили стили вождения в сценах на шесть классов — от очень спокойного до очень агрессивного.
🔴 С помощью небольшого файнтюна научили модель менять стиль вождения.
Исходная архитектура — мультимодальная диффузионка. Не самый типичный выбор для планировщика, но и не первое упоминание такого подхода: претрейн для всех стилей одинаковый, а диффузионка позволяет лучше сохранять всё распределение возможных траекторий.
Самое интересное происходит во время дообучения. Если для претрейна используют данные о водителях с очень разными стилями вождения, то для файнтюна предлагают фильтровать сцены, оставляя только подходящие. Далее тренируют отдельную модель награды, которая должна присваивать траекториям одинакового стиля более высокий скор, если их сгенерировал человек, а не претрейн-модель. Эти награды помогают дообучить основную модель с GRPO на крошечном датасете: 5 тысяч сцен против полумиллиона в претрейне. То есть, авторы буквально активируют определённый стиль, в котором модель уже умеета водить.
Метод отлично работает — на бенчмарке ощутимо меняется профиль скорости, метрики сильно растут в соответствии со стилем. На общих датасетах результаты ожидаемо немного проседают, но не драматично.
Разбор подготовил❣️ Кирилл Федянин
404 driver not found
Обычно планировщики для вождения обучаются на демонстрациях очень разных водителей. Одни предпочитают водить безопасно, другие — быстрее оказываться дома за счёт более рисковых манёвров. Типичная модель-планировщик выдаёт усреднённое вождение. В сегодняшней статье авторы задаются вопросом, как сделать стиль вождения планировщика более выраженным.
RLHF (reinforcement learning from human feedback) — тот самый алгоритм, который используют для алайнмента моделей под потребности людей в текстовых LLM, в том числе в оригинальном ChatGPT: людей просили людей ранжировать ответы, и по их оценкам нейросеть обучалась говорить приятное и полезное.
Алгоритм редко применялся для решения задач автономного транспорта. В этой статье авторы тоже получили своего рода кашу из топора: фундаментальная идея подхода сохранилась, но реализацию каждой детали изменили. Тем не менее, ключевой результат всё равно получился интересным:
Исходная архитектура — мультимодальная диффузионка. Не самый типичный выбор для планировщика, но и не первое упоминание такого подхода: претрейн для всех стилей одинаковый, а диффузионка позволяет лучше сохранять всё распределение возможных траекторий.
Самое интересное происходит во время дообучения. Если для претрейна используют данные о водителях с очень разными стилями вождения, то для файнтюна предлагают фильтровать сцены, оставляя только подходящие. Далее тренируют отдельную модель награды, которая должна присваивать траекториям одинакового стиля более высокий скор, если их сгенерировал человек, а не претрейн-модель. Эти награды помогают дообучить основную модель с GRPO на крошечном датасете: 5 тысяч сцен против полумиллиона в претрейне. То есть, авторы буквально активируют определённый стиль, в котором модель уже умеета водить.
Метод отлично работает — на бенчмарке ощутимо меняется профиль скорости, метрики сильно растут в соответствии со стилем. На общих датасетах результаты ожидаемо немного проседают, но не драматично.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14🔥9👍5🤔1🙈1
Old but gold: SimCLR и DINO [1/2]
Сегодня начнём разбирать популярные подходы к построению foundation model. Первым двум работам уже много лет, но их основные идеи до сих пор актуальны.
A Simple Framework for Contrastive Learning of Visual Representations (или просто SimCLR)
Эта статья была очень популярна в своё время, хотя её идея совсем проста.
Есть несколько изображений. Каждое из них аугментируют двумя способами, после чего подают на вход модели-эмбеддеру все аугментированные изображения. А дальше — обычный contrastive learning. Эмбеды, соответствующие аугментациям одного и того же изображения, приближают друг к другу, одновременно отдаляя от эмбедов прочих аугментированных изображений. Заранее размечать данные при таком подходе не нужно.
Авторы рассуждают, какие именно рецепты аугментаций лучше подойдут для задачи self-distillation. Общий компонент рецептов — разбиение аугментаций на сильные и слабые: одно аугментированное изображение из пары всегда будет испорчено сильнее, чем другое
DINO: Emerging Properties in Self-Supervised Vision Transformers
В этой статье используется метод self-distillation, для которого лейблы тоже не нужны. Моделью-учителем становится компиляция последних итераций ученика.
Изображение, которое подаётся на вход учителю и ученику, аугментируют по-разному:
🔴 Для модели-учителя готовят глобальные аугментации (для простоты можно считать, что они строятся по всей картинке целиком, без crop-and-resize).
🔴 Для ученика — локальные (кусочек изображения).
Авторы не привязываются к конкретной архитектуре, но отмечают, что лучших результатов удаётся достигнуть с помощью ViT.
После выхода статьи метод DINO эволюционировал: в 2023 году появился DINOv2, в 2025 — DINOv3. Но изменения скорее инженерные: авторы работали над обогащением данных интересными примерами, дедупликацией, а также над ускорением и эффективизацией процесса обучения
В следующей серии поговорим о semi-supervised подходах к построению foundation model.
Разбор подготовил❣️ Сергей Ким
404 driver not found
Сегодня начнём разбирать популярные подходы к построению foundation model. Первым двум работам уже много лет, но их основные идеи до сих пор актуальны.
A Simple Framework for Contrastive Learning of Visual Representations (или просто SimCLR)
Эта статья была очень популярна в своё время, хотя её идея совсем проста.
Есть несколько изображений. Каждое из них аугментируют двумя способами, после чего подают на вход модели-эмбеддеру все аугментированные изображения. А дальше — обычный contrastive learning. Эмбеды, соответствующие аугментациям одного и того же изображения, приближают друг к другу, одновременно отдаляя от эмбедов прочих аугментированных изображений. Заранее размечать данные при таком подходе не нужно.
Авторы рассуждают, какие именно рецепты аугментаций лучше подойдут для задачи self-distillation. Общий компонент рецептов — разбиение аугментаций на сильные и слабые: одно аугментированное изображение из пары всегда будет испорчено сильнее, чем другое
DINO: Emerging Properties in Self-Supervised Vision Transformers
В этой статье используется метод self-distillation, для которого лейблы тоже не нужны. Моделью-учителем становится компиляция последних итераций ученика.
Изображение, которое подаётся на вход учителю и ученику, аугментируют по-разному:
Авторы не привязываются к конкретной архитектуре, но отмечают, что лучших результатов удаётся достигнуть с помощью ViT.
После выхода статьи метод DINO эволюционировал: в 2023 году появился DINOv2, в 2025 — DINOv3. Но изменения скорее инженерные: авторы работали над обогащением данных интересными примерами, дедупликацией, а также над ускорением и эффективизацией процесса обучения
В следующей серии поговорим о semi-supervised подходах к построению foundation model.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19❤9🤩5👍3