404 Driver Not Found
1.07K subscribers
40 photos
31 links
Канал об ML в автономном транспорте от специалистов из Яндекса: разбираем научные статьи, делимся интересными находками, обсуждаем горячие вопросы индустрии.

Вопросы и предложения > @yandex_ml_brand
Download Telegram
Channel created
Заводите моторы — мы отправляемся в увлекательную поездку без водителя! Добро пожаловать в 404 Driver Not Found — канал об ML в автономном транспорте, который ведут инженеры из Яндекса. Здесь вы найдёте разборы актуальных научных статей, обзоры профильных конференций, авторские подборки полезных материалов для ML’щика в сфере АТ и многое другое.

Подписывайтесь, чтобы строить свой маршрут в мире автономного транспорта вместе с нами и оставаться в курсе главных тенденций индустрии 🚗
Please open Telegram to view this post
VIEW IN TELEGRAM
16👾6🎉5🔥3
RefAV: Towards Planning-Centric Scenario Mining

Пока беспилотник накатывает часы по дорогам города, он собирает огромный массив информации об окружающем мире и событиях в нём. Каждая система (а в автомобиле их сотни) пишет свои данные. А ещё — умеет поставлять дополнительную информацию о событии, которое описывает. Например, датчик безопасности отправляет водителю предупреждение, а в логи записывает, что причина алерта — неисправность в двигателе или превышение скорости. В итоге, когда машина возвращается на базу, мы получаем огромный, частично размеченный массив данных. Хранить его удобнее в виде структуры, которую грубо можно назвать табличкой.

Но как найти в этой табличке данные, действительно интересные для теста, обучения или аналитики? По-настоящему интересных событий среди записей не так уж много. К тому же, иногда требуется отыскать что-то совсем экстравагантное: например, как дети перебрасывают портфель над машинами, или уточка ведёт утят через дорогу и решила отдохнуть на полпути.

В сегодняшней статье авторы пытаются найти «золотые» примеры событий в огромном массиве данных, оперируя полуразмеченым потоком, который записал автомобиль.

Идея в своей основе очень проста — давайте навайбкодим функцию, которая будет проверять, подходит ли нам записанное событие. Для начала авторы попробовали следующий бейзлайн: просили LLM посмотреть в записанные данные и сказать, подходят ли они к запросу с описанием. Подходят — добавляем в датасет, нет — пропускаем.

Эта механика задумывалась как слабая точка для начала, но удивила экспериментаторов тем, что показала отличный результат по восстановлению интересных сцен. Для теста метода использовали вручную размеченные данные.

Окончательный алгоритм посложнее:

1. Руками создать описания функций, которые помогут отфильтровать только подходящие данные из всех записей (например is_speed_limit(all_data)-> bool).
2. Отдать LLM список этих функций и попросить построить из них более сложные — будущие фильтры для строчек из таблицы.
3. Полученной композитной функцией отфильтровать данные. Спойлер: останутся только интересные случаи!

Так авторы собрали RefAV — набор данных из 10 000 различных запросов на естественном языке, которые описывают сложные мультиагентные взаимодействия. Данные о планировании движения получены из 1000 журналов данных, записанных датчиками Argoverse 2.

RefAV можно использовать в качестве тестового датасета для ваших пайплайнов сбора данных: ищите его и код фильтров на Github авторов.

Разбор подготовил ❣️ Дмитрий Хорошилов
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥9👍5
Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations

Авторы статьи предложили новый подход к дообучению traffic prediction-моделей без участия человека. Вместо ручной разметки или явной reward-функции они получают скрытые предпочтения (implicit preferences) из экспертных данных (GT).

С помощью distance-функции исследователи измеряют, насколько поведение модели отклоняется от поведения эксперта, и на основе этого ранжируют сгенерированные траектории. В итоге формируются пары более предпочтительных и менее предпочтительных траекторий, по которым обучается модель, увеличивая относительную вероятность «лучших» траекторий по сравнению с базовой (pretrained) моделью.

В качестве distance-функции авторы используют optimal transport на признаковом представлении траекторий — смотрят на разницу между распределениями фич агентов на каждом тике траектории, причём вектора суммируются таким образом, чтобы добиться инвариантности времени — получается распределение фич, которое работает и в будущем, и в прошлом. Фичи агентов извлекаются из траектории путём occupancy measure matching.

Для дообучения модели используется contrastive learning, вдохновлённое DPO, но адаптированное под задачи планирования движения. В отличие от DPO, предпочтения не аннотированы вручную, а определяются по близости траектории к GT (ground truth).

В качестве референсной модели взята Motion LM на 1М, и после дообучения итоговая модель показывает лучшие результаты, чем референсная. При этом на Waymo Open Sim Agents Challenge результаты эксперимента не лучше, чем SOTA больших моделей с размером 10-100М наподобие SMART или BehaviorGPT.

Отдельно авторы показывают, что дообучать модель на парах GT vs generated — это не очень хорошо, потому что, имея дело с траекториями из разных распределений, дискриминатор слишком хорошо выучивает косвенные признаки, например, волнообразность сгенерированной траектории, то есть не то, что нужно для решения задачи.

Разбор подготовил ❣️ Алексей Найденов
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥85🔥3