Две статьи о дистилляции для 3D-детекции с разнородными данными
Разные сенсоры автономного транспорта дают модели неоднородную информацию о сцене: лидар — разреженную геометрию, камеры — плотное визуальное представление. Сегодня разберём сразу две статьи о том, как в таком случае дистиллировать модели для задач 3D-детекции.
BEVDistill: Cross-Modal BEV Distillation For Multi-View 3d Object Detection
Фреймворк BEVDistill решает две важные проблемы дистилляции в BEV:
🔴 преобладание на feature maps маловажного фона, который слабо помогает обучению;
🔴 риск передать студенту ошибки — ложные срабатывания учителя.
Для этого авторы предлагают два взаимодополняющих компонента.
Первый, Dense Feature Distillation, фокусирует студента на областях BEV-карты, которые содержат критически важную информацию о реальных объектах. Это достигается путём построения гауссиан вокруг центров GT 3D-боксов.
Гауссианы объединяются в карту весов, где ячейкам вблизи объектов присваиваются высокие значения, а фоновым областям — низкие. Эта карта взвешивает лосс между BEV feature maps учителя и студента и способствует тому, что студент внимательнее согласовывает свои признаки с учителем именно в релевантных для объектов локациях.
Второй, Sparse Instance Distillation (SID), решает проблему потенциального вреда от дистилляции на основе ошибочных предсказаний учителя. SID сознательно фокусируется не на всех предсказанных учителем объектах, а только на надёжных.
Для предсказаний вычисляются веса, и дистилляционный лосс взвешивается этими значениями. Это гарантирует, что студент учится перенимать паттерны только из корректных предсказаний учителя, меньше обращая внимание на его ложные срабатывания.
Рассмотреть весь фреймворк можно на первой схеме, познакомиться с решением поближе — на GitHub авторов.
Representation Disparity-aware Distillation for 3D Object Detection
Авторы этой статьи подводят нас к проблеме селективности в дистилляции с другой, более фундаментальной стороны. Они сосредоточились на явлении рассогласования представлений (representation disparity) — различиях в распределениях признаков учителя и студента.
Стандартная дистилляция не учитывает, что это рассогласование неоднородно по пространству feature map. Ключевая идея RDD — явно измерить локальное расхождение (disparity) между признаками учителя и студента в областях предсказаний (в областях, где был предсказан объект).
На второй схеме видно: области с высоким значением указывают на значительное несоответствие, означающее, что студенту сложнее перенять знания учителя именно в этих местах. RDD использует эти веса для дистилляционного лосса, что фокусирует обучение на тех зонах, где студент сильнее всего отклоняется от учителя.
Авторы утверждают, что на момент выхода статьи их подход позволил повысить mAP для CP-Voxel-S с 54,0% до 57,1% на датасете nuScenes. Этот результат лучше, чем у модели-учителя, хотя cтудент использует лишь около 41,6% её FLOPs.
Разбор подготовила❣️ Елизавета Мирова
404 driver not found
Разные сенсоры автономного транспорта дают модели неоднородную информацию о сцене: лидар — разреженную геометрию, камеры — плотное визуальное представление. Сегодня разберём сразу две статьи о том, как в таком случае дистиллировать модели для задач 3D-детекции.
BEVDistill: Cross-Modal BEV Distillation For Multi-View 3d Object Detection
Фреймворк BEVDistill решает две важные проблемы дистилляции в BEV:
Для этого авторы предлагают два взаимодополняющих компонента.
Первый, Dense Feature Distillation, фокусирует студента на областях BEV-карты, которые содержат критически важную информацию о реальных объектах. Это достигается путём построения гауссиан вокруг центров GT 3D-боксов.
Гауссианы объединяются в карту весов, где ячейкам вблизи объектов присваиваются высокие значения, а фоновым областям — низкие. Эта карта взвешивает лосс между BEV feature maps учителя и студента и способствует тому, что студент внимательнее согласовывает свои признаки с учителем именно в релевантных для объектов локациях.
Второй, Sparse Instance Distillation (SID), решает проблему потенциального вреда от дистилляции на основе ошибочных предсказаний учителя. SID сознательно фокусируется не на всех предсказанных учителем объектах, а только на надёжных.
Для предсказаний вычисляются веса, и дистилляционный лосс взвешивается этими значениями. Это гарантирует, что студент учится перенимать паттерны только из корректных предсказаний учителя, меньше обращая внимание на его ложные срабатывания.
Рассмотреть весь фреймворк можно на первой схеме, познакомиться с решением поближе — на GitHub авторов.
Representation Disparity-aware Distillation for 3D Object Detection
Авторы этой статьи подводят нас к проблеме селективности в дистилляции с другой, более фундаментальной стороны. Они сосредоточились на явлении рассогласования представлений (representation disparity) — различиях в распределениях признаков учителя и студента.
Стандартная дистилляция не учитывает, что это рассогласование неоднородно по пространству feature map. Ключевая идея RDD — явно измерить локальное расхождение (disparity) между признаками учителя и студента в областях предсказаний (в областях, где был предсказан объект).
На второй схеме видно: области с высоким значением указывают на значительное несоответствие, означающее, что студенту сложнее перенять знания учителя именно в этих местах. RDD использует эти веса для дистилляционного лосса, что фокусирует обучение на тех зонах, где студент сильнее всего отклоняется от учителя.
Авторы утверждают, что на момент выхода статьи их подход позволил повысить mAP для CP-Voxel-S с 54,0% до 57,1% на датасете nuScenes. Этот результат лучше, чем у модели-учителя, хотя cтудент использует лишь около 41,6% её FLOPs.
Разбор подготовила
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9🥰8👍7❤4
Diffusion-Based Planning for Autonomous Driving with Flexible Guidance
Современные learning-based подходы к планированию часто не могут сбалансировать конкурирующие цели обучения и требования к безопасности движения из-за ограниченной адаптивности и сложностей с пониманием мультимодальных форм поведения, типичных для людей. К тому же, результаты обучения находятся в зависимости от резервной стратегии с предопределёнными правилами.
Авторы сегодняшней статьи попробовали решить проблему мультимодальности, планируемой траектории и соблюдения требований безопасности переходом на диффузионный планнер. Они используют архитектуру на базе DiT, которая учится предсказывать траектории эго и агентов. Чтобы генерировать более безопасные траектории (примеры потенциалов: signed distance между эго и агентами, отклонение скорости от заданного коридора, jerk) исследователи используют classifier guidance с заранее заданными потенциалами.
Обучаются на nuPlan. При этом на довольно небольшой архитектуре получается SOTA на nuPlan среди learning-based подходов. Если же добавить refine, получается SOTA среди всех. Авторы утверждают, что в качестве refine используют готовый модуль из STR-2, который добавляет оффсеты к выходам модели и скорит траектории, используя PDM.
В diffusion-based planning используются аугментации current_state'а: исследователи заменяют положение, угол, скорость и ускорение на дельту из равномерного. Потом прибегают к quintic interpolation, чтобы перестроить GT. Данные переводят в эгоцентрическую систему координат и применяют z-score нормализацию к x-координатам и пропорционально скейлят y-координаты.
Для дополнительного сравнения команда проекта собрала собственный датасет, который состоит из 200 часов реальных данных работы автономного доставщика, которому можно ездить по велодорожкам, поэтому чаще всего он взаимодействует с пешеходами и велосипедистами. Результаты этого масштабного теста подтвердили, что Diffusion Planner обеспечивает производительность на уровне SOTA в различных стилях вождения.
Разбор подготовил❣️ Марк Нужнов
404 driver not found
Современные learning-based подходы к планированию часто не могут сбалансировать конкурирующие цели обучения и требования к безопасности движения из-за ограниченной адаптивности и сложностей с пониманием мультимодальных форм поведения, типичных для людей. К тому же, результаты обучения находятся в зависимости от резервной стратегии с предопределёнными правилами.
Авторы сегодняшней статьи попробовали решить проблему мультимодальности, планируемой траектории и соблюдения требований безопасности переходом на диффузионный планнер. Они используют архитектуру на базе DiT, которая учится предсказывать траектории эго и агентов. Чтобы генерировать более безопасные траектории (примеры потенциалов: signed distance между эго и агентами, отклонение скорости от заданного коридора, jerk) исследователи используют classifier guidance с заранее заданными потенциалами.
Обучаются на nuPlan. При этом на довольно небольшой архитектуре получается SOTA на nuPlan среди learning-based подходов. Если же добавить refine, получается SOTA среди всех. Авторы утверждают, что в качестве refine используют готовый модуль из STR-2, который добавляет оффсеты к выходам модели и скорит траектории, используя PDM.
В diffusion-based planning используются аугментации current_state'а: исследователи заменяют положение, угол, скорость и ускорение на дельту из равномерного. Потом прибегают к quintic interpolation, чтобы перестроить GT. Данные переводят в эгоцентрическую систему координат и применяют z-score нормализацию к x-координатам и пропорционально скейлят y-координаты.
Для дополнительного сравнения команда проекта собрала собственный датасет, который состоит из 200 часов реальных данных работы автономного доставщика, которому можно ездить по велодорожкам, поэтому чаще всего он взаимодействует с пешеходами и велосипедистами. Результаты этого масштабного теста подтвердили, что Diffusion Planner обеспечивает производительность на уровне SOTA в различных стилях вождения.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍8🔥8🤩2
Gigaflow: Robust Autonomy Emerges from Self-Play
Сегодня разберём статью о self-play-симуляторе для reinforcement learning (RL).
Авторы показывают, что с помощью симуляции можно относительно дёшево обучить простую модель, достигающую SoTA-результатов на большинстве closed-loop-бенчмарков.
Ключевая идея — добиться необходимого поведения можно и без ground-truth-данных. То есть, вместо разметки и записанных траекторий можно просто дать агентам взаимодействовать друг с другом в большом количестве сцен. У Gigaflow достаточно быстрый симулятор, чтобы за время обучения модель успевала «проехать» миллиарды виртуальных километров — это огромное разнообразие ситуаций.
Среда представляет собой набор карт, на которых случайным образом размещаются агенты (автомобили, велосипедисты, пешеходы). Для каждого агента задаётся последовательность waypoint’ов, через которые он должен проехать — каждая симуляция уникальна.
Чтобы приблизить симуляцию к реальности, вводят частичную наблюдаемость (агенты не знают полного состояния других участников), шум в состояниях и динамике. В результате без явного сценарного программирования возникают сложные взаимодействия: пробки, слияния потоков и нерегулируемые перекрёстки.
Одна и та же нейросетевая политика управляет всеми агентами в сцене. Чтобы разнообразить их поведение, используют кондишнинг: задают для каждого агента параметры, определяющие его тип, физические характеристики и предпочтения в поведении.
Обучение проводят с помощью алгоритма PPO. Функция награды включает несколько компонентов: достижение цели, соблюдение ПДД, комфортность вождения, а также штрафы за столкновения и другие нарушения. Интересная особенность — advantage filtering. Обучение фокусируется на наиболее информативных состояниях, в которых действие существенно влияет на результат, а простые ситуации постепенно отфильтровываются.
У Gigaflow лучшие метрики на трёх популярных бенчмарках: CARLA, nuPlan и Waymax. Причём все результаты получены в режиме zero-shot — модель не обучалась ни на одном из этих датасетов.
Разбор подготовил❣️ Тимур Петров
404 driver not found
Сегодня разберём статью о self-play-симуляторе для reinforcement learning (RL).
Авторы показывают, что с помощью симуляции можно относительно дёшево обучить простую модель, достигающую SoTA-результатов на большинстве closed-loop-бенчмарков.
Ключевая идея — добиться необходимого поведения можно и без ground-truth-данных. То есть, вместо разметки и записанных траекторий можно просто дать агентам взаимодействовать друг с другом в большом количестве сцен. У Gigaflow достаточно быстрый симулятор, чтобы за время обучения модель успевала «проехать» миллиарды виртуальных километров — это огромное разнообразие ситуаций.
Среда представляет собой набор карт, на которых случайным образом размещаются агенты (автомобили, велосипедисты, пешеходы). Для каждого агента задаётся последовательность waypoint’ов, через которые он должен проехать — каждая симуляция уникальна.
Чтобы приблизить симуляцию к реальности, вводят частичную наблюдаемость (агенты не знают полного состояния других участников), шум в состояниях и динамике. В результате без явного сценарного программирования возникают сложные взаимодействия: пробки, слияния потоков и нерегулируемые перекрёстки.
Одна и та же нейросетевая политика управляет всеми агентами в сцене. Чтобы разнообразить их поведение, используют кондишнинг: задают для каждого агента параметры, определяющие его тип, физические характеристики и предпочтения в поведении.
Обучение проводят с помощью алгоритма PPO. Функция награды включает несколько компонентов: достижение цели, соблюдение ПДД, комфортность вождения, а также штрафы за столкновения и другие нарушения. Интересная особенность — advantage filtering. Обучение фокусируется на наиболее информативных состояниях, в которых действие существенно влияет на результат, а простые ситуации постепенно отфильтровываются.
У Gigaflow лучшие метрики на трёх популярных бенчмарках: CARLA, nuPlan и Waymax. Причём все результаты получены в режиме zero-shot — модель не обучалась ни на одном из этих датасетов.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍7❤🔥4🔥2🙏1
FastPillars: A Deployment-friendly Pillar-based 3D Detector
В BEV-based-детекторах часто используют sparse-свёртки. Но их не так-то просто перевести в формат, оптимизированный для инференса: развернуть, квантизировать и конвертировать в TRT.
Лидарный pillar-based-энкодер FastPillars не использует sparse-свёртки, не теряя при этом в скорости и точности. Сегодня разберём статью о том, как он устроен.
У архитектуры FastPillars четыре основных блока: MAPE, Backbone, Neck и Center-Head. Рассмотреть, как всё устроено, можно на схеме. Neck и Center-Head довольно стандартные. Бóльший интерес представляют первые два блока.
MAPE или Max-and-Attention Pillar Encoding — специальный энкодер для pillar’ов, который лучше учитывает локальную геометрию. Например, хорошо находит людей, спрятанных за объектами. А ещё обходится небольшими вычислительными мощностями и легче деплоится в embedded-приложениях.
Чтобы точнее определять объекты, MAPE, по сути, производит positional-энкодинг — рассчитывает для каждого pillar’а один feature-вектор: параллельно вычисляет два вектора и усредняет их. Один вектор получается с помощью MLP и max-энкодинга — просто max-pool по размерности количества точек. Другой вектор вычисляют так называемым аттеншн-энкодингом, который на самом деле представляет собой взвешивание фичей для точек pillar’а и их суммирование по той же размерности. В целом блок напоминает Squeeze-And-Excitation.
Для Backbone к обычному ResNet-34 авторы применили computation reallocation design: оказалось, что с бóльшим количеством слоёв начальные блоки лучше обрабатывают изображения. А для блоков ближе к концу разница не так заметна, можно оставить по одному слою. В итоге авторы увеличили количество слоёв в первых блоках и уменьшили в последних.
В Neck сфьюзили фичи из слоёв 8x и 16x как в PillarNet. Head — обычный center-based detection head. Чтобы лучше локализовывать объекты, дополнительно к типичным детекционным лоссам напрямую оптимизировали IoU-лосс.
Всего в FastPillars четыре лосса: фокальный, L1, регрессионный DIoU и отдельный для IoU.
На момент публикации, в 2023 году, FastPillars показывал SoTA-результаты на Waymo Open Dataset. Познакомиться с кодом детектора можно на GitHub авторов.
Разбор подготовил❣️ Антон Семенюта
404 driver not found
В BEV-based-детекторах часто используют sparse-свёртки. Но их не так-то просто перевести в формат, оптимизированный для инференса: развернуть, квантизировать и конвертировать в TRT.
Лидарный pillar-based-энкодер FastPillars не использует sparse-свёртки, не теряя при этом в скорости и точности. Сегодня разберём статью о том, как он устроен.
У архитектуры FastPillars четыре основных блока: MAPE, Backbone, Neck и Center-Head. Рассмотреть, как всё устроено, можно на схеме. Neck и Center-Head довольно стандартные. Бóльший интерес представляют первые два блока.
MAPE или Max-and-Attention Pillar Encoding — специальный энкодер для pillar’ов, который лучше учитывает локальную геометрию. Например, хорошо находит людей, спрятанных за объектами. А ещё обходится небольшими вычислительными мощностями и легче деплоится в embedded-приложениях.
Чтобы точнее определять объекты, MAPE, по сути, производит positional-энкодинг — рассчитывает для каждого pillar’а один feature-вектор: параллельно вычисляет два вектора и усредняет их. Один вектор получается с помощью MLP и max-энкодинга — просто max-pool по размерности количества точек. Другой вектор вычисляют так называемым аттеншн-энкодингом, который на самом деле представляет собой взвешивание фичей для точек pillar’а и их суммирование по той же размерности. В целом блок напоминает Squeeze-And-Excitation.
Для Backbone к обычному ResNet-34 авторы применили computation reallocation design: оказалось, что с бóльшим количеством слоёв начальные блоки лучше обрабатывают изображения. А для блоков ближе к концу разница не так заметна, можно оставить по одному слою. В итоге авторы увеличили количество слоёв в первых блоках и уменьшили в последних.
В Neck сфьюзили фичи из слоёв 8x и 16x как в PillarNet. Head — обычный center-based detection head. Чтобы лучше локализовывать объекты, дополнительно к типичным детекционным лоссам напрямую оптимизировали IoU-лосс.
Всего в FastPillars четыре лосса: фокальный, L1, регрессионный DIoU и отдельный для IoU.
На момент публикации, в 2023 году, FastPillars показывал SoTA-результаты на Waymo Open Dataset. Познакомиться с кодом детектора можно на GitHub авторов.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍9🤩6✍2🔥1
UniMotion: A Unified Motion Framework for Simulation, Prediction and Planning
Сегодня разберём статью о UniMotion — едином фреймворке на основе decoder-only-трансформерной архитектуры, который объединяет в себе сразу три задачи: симуляцию, предсказание и планирование.
Новый фреймворк позволяет одновременно обучать модель для генерации разнообразных движений и долгосрочного предсказания траекторий, при этом разделяя общие представления между задачами.
Для обучения авторы используют:
🔴 NTP (Next-Token Prediction) — симуляция.
🔴 LFR (Long-range Future Regression) — предсказание.
🔴 Комбинированный подход — планирование.
Чтобы специализировать модель для каждой из задач:
RL Fine-tuning для симуляции
GRPO-подобный подход. Генерируют n траекторий как группу, но градиент активируют только для одной, случайно выбранной, что позволяет экономить вычисления. Считают kinematic и collision reward для каждой из траекторий. Чтобы получить advantage A, нормализуют reward’ы внутри группы. А потом обновляют политики вождения с их учётом. В результате траектории становятся более реалистичными и физичными. А ещё — лучше укладываются в правила дорожного движения
Multi-modal Fine-tuning для предсказаний
LFR обеспечивает только одну траекторию. Но для multi-modal их нужно несколько, поэтому авторы добавляют легковесный трансформерный декодер. Он переводит фичи основной модели в локальную систему координат агента. А потом, используя якорные точки намерений intention points, генерирует траектории для разных намерений. Лосс для траекторий — Gaussian NLL, для классификации режимов — кросс-энтропийный. Благодаря учёту намерений движение становится разнообразнее.
Pred2Gen Fine-tuning для планирования
После основного обучения авторы учат модель предсказывать траектории окружающих её агентов. Для этого заменяют сильно ошибочные предсказания на ground truth, а сами плохие предсказания отправляют в модель, чтобы end-to-end дообучить генерацию эго-агента. Так модель адаптируется к реальному инференсу, где работает со своими же предсказаниями/
Авторы утверждают, что на момент публикации модель стабильно демонстрировала SoTA-результаты и может стать легко масштабируемым решением, помогающим разнообразить симуляцию, предсказание и планирование движения.
Разбор подготовила ❤️ Арина Ромашкина
404 driver not found
Сегодня разберём статью о UniMotion — едином фреймворке на основе decoder-only-трансформерной архитектуры, который объединяет в себе сразу три задачи: симуляцию, предсказание и планирование.
Новый фреймворк позволяет одновременно обучать модель для генерации разнообразных движений и долгосрочного предсказания траекторий, при этом разделяя общие представления между задачами.
Для обучения авторы используют:
Чтобы специализировать модель для каждой из задач:
RL Fine-tuning для симуляции
GRPO-подобный подход. Генерируют n траекторий как группу, но градиент активируют только для одной, случайно выбранной, что позволяет экономить вычисления. Считают kinematic и collision reward для каждой из траекторий. Чтобы получить advantage A, нормализуют reward’ы внутри группы. А потом обновляют политики вождения с их учётом. В результате траектории становятся более реалистичными и физичными. А ещё — лучше укладываются в правила дорожного движения
Multi-modal Fine-tuning для предсказаний
LFR обеспечивает только одну траекторию. Но для multi-modal их нужно несколько, поэтому авторы добавляют легковесный трансформерный декодер. Он переводит фичи основной модели в локальную систему координат агента. А потом, используя якорные точки намерений intention points, генерирует траектории для разных намерений. Лосс для траекторий — Gaussian NLL, для классификации режимов — кросс-энтропийный. Благодаря учёту намерений движение становится разнообразнее.
Pred2Gen Fine-tuning для планирования
После основного обучения авторы учат модель предсказывать траектории окружающих её агентов. Для этого заменяют сильно ошибочные предсказания на ground truth, а сами плохие предсказания отправляют в модель, чтобы end-to-end дообучить генерацию эго-агента. Так модель адаптируется к реальному инференсу, где работает со своими же предсказаниями/
Авторы утверждают, что на момент публикации модель стабильно демонстрировала SoTA-результаты и может стать легко масштабируемым решением, помогающим разнообразить симуляцию, предсказание и планирование движения.
Разбор подготовила ❤️ Арина Ромашкина
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍4🔥4
Distillation with time
Сегодня разберём сразу две статьи о дистилляции с учётом временного контекста.
RCTDistill: Cross-Modal Knowledge Distillation Framework for Radar-Camera 3D Object Detection with Temporal Fusion
Учитель — LiDAR-детектор, ученик — camera-radar-детектор с time fuse. У обоих BEVFusion-архитектура. Авторы рассматривают, как решить три проблемы дистилляции:
1. Специфика данных. Камеры плохо оценивают расстояние до объектов, а у радаров — низкое угловое разрешение.
Для решения предлагают использовать модуль Range-Azimuth KD (RAKD), который подобно BEVDistill взвешивает L2-лосс между BEV-фичами. Только здесь маска использует размеры объектов, расстояние до эго-машины и угол, формируя эллипсы.
2. Временное смещение динамических объектов. Простой time fuse (concat + conv) не моделирует пространственное смещение объектов между кадрами.
С этой проблемой борется Temporal KD (TKD), который также формирует эллипсоидную маску на BEV. Таким образом учитывают скорость и историю траектории объекта.
3. Неэффективное объединение модальностей. При наивном слиянии модальностей фичи переднего плана и фона смешиваются.
С этим помогает модуль Region-Decoupled KD (RDKD). В качестве лосса он использует матрицы косинусных расстояний векторов BEV'а по выбранным позициям, где у ученика больше heatmap score.
Distilling Future Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection
В этой работе учитель — SparseBEV с фреймами из прошлого и будущего. Ученик такой же, только без информации о будущем. Авторы разбираются, как грамотно передавать ученику информацию о будущем.
Две основные идеи:
1. Future-Aware Feature Reconstruction.
Сначала вводят Temporal Self-Attention (TSA) — чтобы учитель мог агрегировать информацию с фреймов будущего.
Потом для выхода ученика маскируют некоторую долю токенов, восстанавливают её генератором и считают лосс. Так ученик тренируется строить фичи, обогащённые знанием о будущем, не имея к нему прямого доступа.
Подобный генератор есть на уровне картиночных фичей (после FPN), а также на уровне BEV queries.
2. Future-guided Logit Distillation.
Лоссы классификации и регрессии минимизируют через венгерский алгоритм. Когда у учителя есть знания о будущем, он выдаёт больше true negative.
Авторы обеих статей утверждают, что их подходы помогают улучшить перфоманс, одновременно сэкономив вычислительные мощности и решив ключевые проблемы дистилляции для задачи мультимодальной 3D-детекции.
Разбор подготовила❣️ Елизавета Мирова
404 driver not found
Сегодня разберём сразу две статьи о дистилляции с учётом временного контекста.
RCTDistill: Cross-Modal Knowledge Distillation Framework for Radar-Camera 3D Object Detection with Temporal Fusion
Учитель — LiDAR-детектор, ученик — camera-radar-детектор с time fuse. У обоих BEVFusion-архитектура. Авторы рассматривают, как решить три проблемы дистилляции:
1. Специфика данных. Камеры плохо оценивают расстояние до объектов, а у радаров — низкое угловое разрешение.
Для решения предлагают использовать модуль Range-Azimuth KD (RAKD), который подобно BEVDistill взвешивает L2-лосс между BEV-фичами. Только здесь маска использует размеры объектов, расстояние до эго-машины и угол, формируя эллипсы.
2. Временное смещение динамических объектов. Простой time fuse (concat + conv) не моделирует пространственное смещение объектов между кадрами.
С этой проблемой борется Temporal KD (TKD), который также формирует эллипсоидную маску на BEV. Таким образом учитывают скорость и историю траектории объекта.
3. Неэффективное объединение модальностей. При наивном слиянии модальностей фичи переднего плана и фона смешиваются.
С этим помогает модуль Region-Decoupled KD (RDKD). В качестве лосса он использует матрицы косинусных расстояний векторов BEV'а по выбранным позициям, где у ученика больше heatmap score.
Distilling Future Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection
В этой работе учитель — SparseBEV с фреймами из прошлого и будущего. Ученик такой же, только без информации о будущем. Авторы разбираются, как грамотно передавать ученику информацию о будущем.
Две основные идеи:
1. Future-Aware Feature Reconstruction.
Сначала вводят Temporal Self-Attention (TSA) — чтобы учитель мог агрегировать информацию с фреймов будущего.
Потом для выхода ученика маскируют некоторую долю токенов, восстанавливают её генератором и считают лосс. Так ученик тренируется строить фичи, обогащённые знанием о будущем, не имея к нему прямого доступа.
Подобный генератор есть на уровне картиночных фичей (после FPN), а также на уровне BEV queries.
2. Future-guided Logit Distillation.
Лоссы классификации и регрессии минимизируют через венгерский алгоритм. Когда у учителя есть знания о будущем, он выдаёт больше true negative.
Авторы обеих статей утверждают, что их подходы помогают улучшить перфоманс, одновременно сэкономив вычислительные мощности и решив ключевые проблемы дистилляции для задачи мультимодальной 3D-детекции.
Разбор подготовила
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍4🔥2
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
Беспилотный транспорт в свой работе полагается на данные различных сенсоров: камер, лидаров, радаров. Для обработки этих данных — например, для детекции объектов на дороге — обычно используют нейросети. Вычислительная мощность железа на борту автомобиля ограничена, поэтому нейросети должны быть не только точными, но и быстрыми. Сегодня разберём статью о таком фреймворке на основе мощного бэкбона Mamba.
Подход space state models часто используют в LLM для моделирования длинных последовательностей. Авторы предлагают адаптировать этот подход для компьютерного зрения.
В основе архитектуры — deep-learning-модель Mamba. Визуальные данные чувствительны к взаимному расположению и контексту. Чтобы модель учитывала это и справилась с CV, авторы предложили добавить к ней новый блок Bidirectional Mamba с энкодером.
Архитектура Vision Mamba (или просто Vim) — на схеме. Входное изображение делится на патчи, которые превращаются в токены. Последовательность токенов подаётся на вход Vim-энкодеру. В отличие от Mamba, новый энкодер может перенаправлять токены не только вперёд, но и назад по флоу обработки.
Полученную модель можно использовать в качестве бэкбона для 2D-задач: для классификации, детекции и сегментации. Особенность Vision Mamba в том, что она растёт не квадратично от количества токенов как трансформеры, а линейно. А значит, хорошо подходит для задач CV на изображениях с высоким разрешением.
Vision Mamba немного превзошла по top-1 accuracy на ImageNet трансформенную модель DeiT и значительно обогнала её по скорости и потреблению памяти.
Познакомиться с новой моделью можно на GitHub авторов.
Разбор подготовил❣️ Илья Кувыкин
404 driver not found
Беспилотный транспорт в свой работе полагается на данные различных сенсоров: камер, лидаров, радаров. Для обработки этих данных — например, для детекции объектов на дороге — обычно используют нейросети. Вычислительная мощность железа на борту автомобиля ограничена, поэтому нейросети должны быть не только точными, но и быстрыми. Сегодня разберём статью о таком фреймворке на основе мощного бэкбона Mamba.
Подход space state models часто используют в LLM для моделирования длинных последовательностей. Авторы предлагают адаптировать этот подход для компьютерного зрения.
В основе архитектуры — deep-learning-модель Mamba. Визуальные данные чувствительны к взаимному расположению и контексту. Чтобы модель учитывала это и справилась с CV, авторы предложили добавить к ней новый блок Bidirectional Mamba с энкодером.
Архитектура Vision Mamba (или просто Vim) — на схеме. Входное изображение делится на патчи, которые превращаются в токены. Последовательность токенов подаётся на вход Vim-энкодеру. В отличие от Mamba, новый энкодер может перенаправлять токены не только вперёд, но и назад по флоу обработки.
Полученную модель можно использовать в качестве бэкбона для 2D-задач: для классификации, детекции и сегментации. Особенность Vision Mamba в том, что она растёт не квадратично от количества токенов как трансформеры, а линейно. А значит, хорошо подходит для задач CV на изображениях с высоким разрешением.
Vision Mamba немного превзошла по top-1 accuracy на ImageNet трансформенную модель DeiT и значительно обогнала её по скорости и потреблению памяти.
Познакомиться с новой моделью можно на GitHub авторов.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍6🔥6
Чем запомнился первый день ICRA 2026
С 1 по 5 июня в Вене идёт International Conference on Robotics & Automation. Хайлайтами первого дня поделился Максим Спорышев — руководитель службы поведения и предсказания движения в Автономном транспорте Яндекса.
Доклады
🔴 Команда исследователей из Huawei, NVIDIA Research, OpenDriveLab b Shanghai AI Laboratory рассказала о своём пост-трейновом фреймворке World Engine: как он помог им проехать 200 км по Шанхаю без дизенгейджмента. Обещают выпустить в опенсорс — что-то уже доступно на GitHub. Работа показалась интересной с точки зрения генерации safety-critical-кейсов.
🔴 NVIDIA объявили, что вслед за недавним релизом модели Alpamayo 2 и симулятора выложат огромный датасет и запустят челлендж AlpaSim. 25 стран, 2500 городов и 1700 часов проездов — звучит супермощно, очень ждём!
Постеры
🔴 Первые три фото — целый воркшоп о предикшне поведения пешеходов. Авторы рассуждают о самой острой проблеме: предсказать действия пешеходов довольно сложно, особенно в парадигме, что их поведение зависит от движения автономного транспорта. Но хороших решений пока нет.
🔴 На четвёртом фото постер о том, как подбустить персепшн в тумане. Результат работы авторы проверяли на датасете KITTI.
🔴 Пятый постер — ещё один способ токенизировать таргет, чтобы предсказывать движение автономного транспорта.
🔴 На шестом фото работа о подходе к обучению, актуальном для SDG. Авторы рассматривают пайплайн обучения с normalizing flows для задач манипуляции: IL➡️ Critic offline Warmup➡️ Offline RL➡️ Online RL.
#YaICRA26
404 driver not found
С 1 по 5 июня в Вене идёт International Conference on Robotics & Automation. Хайлайтами первого дня поделился Максим Спорышев — руководитель службы поведения и предсказания движения в Автономном транспорте Яндекса.
Доклады
Постеры
#YaICRA26
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍8🔥8🤩3
Земной автомобиль, луноход или марсианский ровер — на ICRA 2026 припаркуются все
Позади второй день конференции — продолжаем делиться самым интересным об автономном вождении. Слово Максиму Спорышеву:
Конференция продлится до 5 июня — ещё вернёмся с новой порцией наблюдений.
#YaICRA26
404 driver not found
Позади второй день конференции — продолжаем делиться самым интересным об автономном вождении. Слово Максиму Спорышеву:
Среди докладчиков были те, кто буквально делает космолёты. Они рассказали о локализации для lunar landing, навигации на Марсе и детекции аномалий в космосе — только представьте, какие у них байки про продакшн.
Понравились три постера. Первый — от Waabi AI. Они реализовали 3D-реконструкцию в зоне, ближайшей к исходному треку. Хорошее решение для симуляции перестроения, но не подходящее для сложных разворотов и прокладывания нового маршрута.
Тесты проводят на дистанциях 3, 4 и 5 метров от исходных положений камер: делают feedforward-рендеринг с помощью 3D Gaussian Splatting, добавляют шум и денойзят всё диффузией, которая училась восстанавливать изображения на дистанции 3 метра.
Второй постер — об обучении через имитацию действий других участников дорожного движения. Чтобы собрать тренировочный датасет, авторы берут сцены на nuPlan, выбирают на них одного-двух хороших агентов и трансформируют их движение так, будто всё происходит от лица эго-агента. Плохие данные фильтруют по метрикам комфорта, пройденной дистанции и TTC.
С ростом количества данных эффективность обучения падает: между первыми точками графика заметна большая разница, а ближе к 100 тысячам сцен её почти нет. Для проверки использовали модель PLUTO.
На третьем постере — self-supervised-способ трекинга на лидарных облаках через кластеризации точек и фильтры Калмана. Жаль, что не удалось поймать авторов: они утверждают, что работают на уровне supervised-трекеров.
Отдельно отмечу два доклада, номинированных на звание лучших работ.
Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning
Статья о robotic manipulation, но решаемая в ней проблема актуальна и для автономного транспорта.
Авторы показывают, что качество всех VLA сильно просаживается, если меняется положение камер: в сетапах с рандомным размещением success rate проседает в пару раз.
Решение — подавать положение камер через Plücker ray-maps. То есть задавать луч камеры для каждого пикселя шестью дополнительными числами: дельтами и моментами.
С таким кондишенингом на камеры авторы отыгрывают просадку: success rate становится в пару раз лучше, чем у обычных VLA.
FP3: A 3D Foundation Policy for Robotic Manipulation
Авторы критикуют vision-энкодеры в современных VLA и утверждают, что без трёхмерного представления о мире не обойтись.
Взамен предлагают сетап обучения с Uni3D в качестве энкодера. Он показывает довольно высокие success rates: до 90% на некоторых тасках.
Напоследок авторы показывают профит от масштабирования своего трансформера до 1,3B.
Конференция продлится до 5 июня — ещё вернёмся с новой порцией наблюдений.
#YaICRA26
404 driver not found
❤8❤🔥6👍4🔥1🤩1
Residual RL, генерация сложных сценариев поведения и безопасность движения: что обсуждали в третий день ICRA 2026
Продолжаем трансляцию с главной международной конференции о робототехнике и автоматизации. Сегодня в подборку самого интересного вошёл один доклад и пять постеров.
Residual Off-Policy RL for Finetuning Behavior Cloning Policies
Работа от Amazon Frontier AI & Robotics, посвящённая планированию движения. Проблематика рассматривается на роботах, но те же подходы можно применить к автономному транспорту.
Для больших VLA хорошо работает behaviour-cloning-претрейн, но RL пока масштабируется плохо: недостаточно данных, сложно учиться на success rate длинных горизонтов, а пространства экшнов слишком большие (в статье упоминаются 29 DOF), чтобы покрывать их в RL.
Авторы предлагают учить Residual RL — политику, которая даёт небольшую добавку к экшну от BC. А ещё делятся рецептом реализации:
🔴 Off-policy RL — показывают, что Residual PPO в 200 (!!!) раз менее эффективен, чем Residual off-policy.
🔴 Много апдейтов на один роллаут.
🔴 N-steps returns.
Learning to Annotate Delayed and False AEB events: a Practical System for Extreme Class Imbalance and Asymmetric Label Noise
Постер о том, как работает AEB в Lixiang. Говорят, что в проде используют и rule-based, и модель. Чаще срабатывает rule-based, модель тюнят для более сложных сценариев. Данные собирают по экстренным торможениям всех пользователей Lixiang. Датасетами, конечно же, не делятся.
Search3D: Hierarchical Open-Vocabulary 3D Segmentation
Второй постер о новом подходе к open vocabulary от ETH, Google и Stanford. Застать авторов, к сожалению, не получилось.
VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving
Третий постер — от Waymo. Взяли VLM, собрали преференсы, обучили DPO. Но не для end2end-, а для motion-LM-модели. На метриках open-loop стало лучше, на closed-loop не проверяли.
COMPASS: Cross-embOdiment Mobility Policy via ResiduAI RL and Skill Synthesis
Ещё один Residual RL на четвёртом постере: на этот раз от NVIDIA. Авторы пишут что обучение только в симуляторе хорошо работает в реальности без sim2real.
Conditional Flow-VAE for Safety-Critical Traffic Scenario Generation
Пятый постер — работа Waabi AI о генерации сложных сценариев поведения. Учат генеративную модель на обычных данных, потом на малом числе кейсов тренируют для неё флоуматчинг, который переводит оригинальное распределение в более safety critical.
#YaICRA26
Подсмотрел для вас интересное❣️ Максим Спорышев
404 driver not found
Продолжаем трансляцию с главной международной конференции о робототехнике и автоматизации. Сегодня в подборку самого интересного вошёл один доклад и пять постеров.
Residual Off-Policy RL for Finetuning Behavior Cloning Policies
Работа от Amazon Frontier AI & Robotics, посвящённая планированию движения. Проблематика рассматривается на роботах, но те же подходы можно применить к автономному транспорту.
Для больших VLA хорошо работает behaviour-cloning-претрейн, но RL пока масштабируется плохо: недостаточно данных, сложно учиться на success rate длинных горизонтов, а пространства экшнов слишком большие (в статье упоминаются 29 DOF), чтобы покрывать их в RL.
Авторы предлагают учить Residual RL — политику, которая даёт небольшую добавку к экшну от BC. А ещё делятся рецептом реализации:
Learning to Annotate Delayed and False AEB events: a Practical System for Extreme Class Imbalance and Asymmetric Label Noise
Постер о том, как работает AEB в Lixiang. Говорят, что в проде используют и rule-based, и модель. Чаще срабатывает rule-based, модель тюнят для более сложных сценариев. Данные собирают по экстренным торможениям всех пользователей Lixiang. Датасетами, конечно же, не делятся.
Search3D: Hierarchical Open-Vocabulary 3D Segmentation
Второй постер о новом подходе к open vocabulary от ETH, Google и Stanford. Застать авторов, к сожалению, не получилось.
VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving
Третий постер — от Waymo. Взяли VLM, собрали преференсы, обучили DPO. Но не для end2end-, а для motion-LM-модели. На метриках open-loop стало лучше, на closed-loop не проверяли.
COMPASS: Cross-embOdiment Mobility Policy via ResiduAI RL and Skill Synthesis
Ещё один Residual RL на четвёртом постере: на этот раз от NVIDIA. Авторы пишут что обучение только в симуляторе хорошо работает в реальности без sim2real.
Conditional Flow-VAE for Safety-Critical Traffic Scenario Generation
Пятый постер — работа Waabi AI о генерации сложных сценариев поведения. Учат генеративную модель на обычных данных, потом на малом числе кейсов тренируют для неё флоуматчинг, который переводит оригинальное распределение в более safety critical.
#YaICRA26
Подсмотрел для вас интересное
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11⚡4👍4❤1🙏1