Заводите моторы — мы отправляемся в увлекательную поездку без водителя! Добро пожаловать в 404 Driver Not Found — канал об ML в автономном транспорте, который ведут инженеры из Яндекса. Здесь вы найдёте разборы актуальных научных статей, обзоры профильных конференций, авторские подборки полезных материалов для ML’щика в сфере АТ и многое другое.
Подписывайтесь, чтобы строить свой маршрут в мире автономного транспорта вместе с нами и оставаться в курсе главных тенденций индустрии🚗
Подписывайтесь, чтобы строить свой маршрут в мире автономного транспорта вместе с нами и оставаться в курсе главных тенденций индустрии
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👾6🎉5🔥3
RefAV: Towards Planning-Centric Scenario Mining
Пока беспилотник накатывает часы по дорогам города, он собирает огромный массив информации об окружающем мире и событиях в нём. Каждая система (а в автомобиле их сотни) пишет свои данные. А ещё — умеет поставлять дополнительную информацию о событии, которое описывает. Например, датчик безопасности отправляет водителю предупреждение, а в логи записывает, что причина алерта — неисправность в двигателе или превышение скорости. В итоге, когда машина возвращается на базу, мы получаем огромный, частично размеченный массив данных. Хранить его удобнее в виде структуры, которую грубо можно назвать табличкой.
Но как найти в этой табличке данные, действительно интересные для теста, обучения или аналитики? По-настоящему интересных событий среди записей не так уж много. К тому же, иногда требуется отыскать что-то совсем экстравагантное: например, как дети перебрасывают портфель над машинами, или уточка ведёт утят через дорогу и решила отдохнуть на полпути.
В сегодняшней статье авторы пытаются найти «золотые» примеры событий в огромном массиве данных, оперируя полуразмеченым потоком, который записал автомобиль.
Идея в своей основе очень проста — давайте навайбкодим функцию, которая будет проверять, подходит ли нам записанное событие. Для начала авторы попробовали следующий бейзлайн: просили LLM посмотреть в записанные данные и сказать, подходят ли они к запросу с описанием. Подходят — добавляем в датасет, нет — пропускаем.
Эта механика задумывалась как слабая точка для начала, но удивила экспериментаторов тем, что показала отличный результат по восстановлению интересных сцен. Для теста метода использовали вручную размеченные данные.
Окончательный алгоритм посложнее:
1. Руками создать описания функций, которые помогут отфильтровать только подходящие данные из всех записей (например is_speed_limit(all_data)-> bool).
2. Отдать LLM список этих функций и попросить построить из них более сложные — будущие фильтры для строчек из таблицы.
3. Полученной композитной функцией отфильтровать данные. Спойлер: останутся только интересные случаи!
Так авторы собрали RefAV — набор данных из 10 000 различных запросов на естественном языке, которые описывают сложные мультиагентные взаимодействия. Данные о планировании движения получены из 1000 журналов данных, записанных датчиками Argoverse 2.
RefAV можно использовать в качестве тестового датасета для ваших пайплайнов сбора данных: ищите его и код фильтров на Github авторов.
Разбор подготовил❣️ Дмитрий Хорошилов
404 driver not found
Пока беспилотник накатывает часы по дорогам города, он собирает огромный массив информации об окружающем мире и событиях в нём. Каждая система (а в автомобиле их сотни) пишет свои данные. А ещё — умеет поставлять дополнительную информацию о событии, которое описывает. Например, датчик безопасности отправляет водителю предупреждение, а в логи записывает, что причина алерта — неисправность в двигателе или превышение скорости. В итоге, когда машина возвращается на базу, мы получаем огромный, частично размеченный массив данных. Хранить его удобнее в виде структуры, которую грубо можно назвать табличкой.
Но как найти в этой табличке данные, действительно интересные для теста, обучения или аналитики? По-настоящему интересных событий среди записей не так уж много. К тому же, иногда требуется отыскать что-то совсем экстравагантное: например, как дети перебрасывают портфель над машинами, или уточка ведёт утят через дорогу и решила отдохнуть на полпути.
В сегодняшней статье авторы пытаются найти «золотые» примеры событий в огромном массиве данных, оперируя полуразмеченым потоком, который записал автомобиль.
Идея в своей основе очень проста — давайте навайбкодим функцию, которая будет проверять, подходит ли нам записанное событие. Для начала авторы попробовали следующий бейзлайн: просили LLM посмотреть в записанные данные и сказать, подходят ли они к запросу с описанием. Подходят — добавляем в датасет, нет — пропускаем.
Эта механика задумывалась как слабая точка для начала, но удивила экспериментаторов тем, что показала отличный результат по восстановлению интересных сцен. Для теста метода использовали вручную размеченные данные.
Окончательный алгоритм посложнее:
1. Руками создать описания функций, которые помогут отфильтровать только подходящие данные из всех записей (например is_speed_limit(all_data)-> bool).
2. Отдать LLM список этих функций и попросить построить из них более сложные — будущие фильтры для строчек из таблицы.
3. Полученной композитной функцией отфильтровать данные. Спойлер: останутся только интересные случаи!
Так авторы собрали RefAV — набор данных из 10 000 различных запросов на естественном языке, которые описывают сложные мультиагентные взаимодействия. Данные о планировании движения получены из 1000 журналов данных, записанных датчиками Argoverse 2.
RefAV можно использовать в качестве тестового датасета для ваших пайплайнов сбора данных: ищите его и код фильтров на Github авторов.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥9👍5
Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations
Авторы статьи предложили новый подход к дообучению traffic prediction-моделей без участия человека. Вместо ручной разметки или явной reward-функции они получают скрытые предпочтения (implicit preferences) из экспертных данных (GT).
С помощью distance-функции исследователи измеряют, насколько поведение модели отклоняется от поведения эксперта, и на основе этого ранжируют сгенерированные траектории. В итоге формируются пары более предпочтительных и менее предпочтительных траекторий, по которым обучается модель, увеличивая относительную вероятность «лучших» траекторий по сравнению с базовой (pretrained) моделью.
В качестве distance-функции авторы используют optimal transport на признаковом представлении траекторий — смотрят на разницу между распределениями фич агентов на каждом тике траектории, причём вектора суммируются таким образом, чтобы добиться инвариантности времени — получается распределение фич, которое работает и в будущем, и в прошлом. Фичи агентов извлекаются из траектории путём occupancy measure matching.
Для дообучения модели используется contrastive learning, вдохновлённое DPO, но адаптированное под задачи планирования движения. В отличие от DPO, предпочтения не аннотированы вручную, а определяются по близости траектории к GT (ground truth).
В качестве референсной модели взята Motion LM на 1М, и после дообучения итоговая модель показывает лучшие результаты, чем референсная. При этом на Waymo Open Sim Agents Challenge результаты эксперимента не лучше, чем SOTA больших моделей с размером 10-100М наподобие SMART или BehaviorGPT.
Отдельно авторы показывают, что дообучать модель на парах GT vs generated — это не очень хорошо, потому что, имея дело с траекториями из разных распределений, дискриминатор слишком хорошо выучивает косвенные признаки, например, волнообразность сгенерированной траектории, то есть не то, что нужно для решения задачи.
Разбор подготовил❣️ Алексей Найденов
404 driver not found
Авторы статьи предложили новый подход к дообучению traffic prediction-моделей без участия человека. Вместо ручной разметки или явной reward-функции они получают скрытые предпочтения (implicit preferences) из экспертных данных (GT).
С помощью distance-функции исследователи измеряют, насколько поведение модели отклоняется от поведения эксперта, и на основе этого ранжируют сгенерированные траектории. В итоге формируются пары более предпочтительных и менее предпочтительных траекторий, по которым обучается модель, увеличивая относительную вероятность «лучших» траекторий по сравнению с базовой (pretrained) моделью.
В качестве distance-функции авторы используют optimal transport на признаковом представлении траекторий — смотрят на разницу между распределениями фич агентов на каждом тике траектории, причём вектора суммируются таким образом, чтобы добиться инвариантности времени — получается распределение фич, которое работает и в будущем, и в прошлом. Фичи агентов извлекаются из траектории путём occupancy measure matching.
Для дообучения модели используется contrastive learning, вдохновлённое DPO, но адаптированное под задачи планирования движения. В отличие от DPO, предпочтения не аннотированы вручную, а определяются по близости траектории к GT (ground truth).
В качестве референсной модели взята Motion LM на 1М, и после дообучения итоговая модель показывает лучшие результаты, чем референсная. При этом на Waymo Open Sim Agents Challenge результаты эксперимента не лучше, чем SOTA больших моделей с размером 10-100М наподобие SMART или BehaviorGPT.
Отдельно авторы показывают, что дообучать модель на парах GT vs generated — это не очень хорошо, потому что, имея дело с траекториями из разных распределений, дискриминатор слишком хорошо выучивает косвенные признаки, например, волнообразность сгенерированной траектории, то есть не то, что нужно для решения задачи.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥8❤5🔥3