rizzearch

Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models

lecun вставил dynamics model (world model) в JEPA по самые латентные помидоры

ну а если посерьезнее, то авторы решили сравнить модель динамики в ревард-фри сценариях (на достижение цели) с ансупервайзд подходами, контрастив техниками и goal-conditioned методами (о некоторых из них мы писали - HIQL & HIPL)

- ибо все вышеупомянутое является model-free а не model-based (о разнице которых мы уже чуть поподробнее говорили)
- но при этом ничего из этого не может адаптироваться к новым таскам (как ни тыкай разные параметры датасета такие как диверсити, качество и вариативность)

ну а вот в этот раз удалось помучаться с моделью мира и завести ее, при том только в латентном пространстве (то есть нету отдельного бранча на восстановление состояний, которые подаются на вход изначальной модели)

- но раз нет головы на реконструкцию, то есть JEPA (в викрег стиле) под получение вкусных репрезентаций для латентного планнинга
- как и inverse dynamics model для учета природы действий в этих самых репрезентациях (которую мы уже упоминали здесь и здесь
- при том поскольку вся суета происходит только в латентном пространстве, то этом плане метод остается консистентным для MPPI планирования

в этом примерно и заключается Planning with a Latent Dynamics Model (PLDM).

эксперименты проводили на игрушечной Two Rooms, где надо в 2д комнате с одной дверью достичь другой точки, и на лабиринтах в Mujoco PointMaze

→

хоть и этот авторский латентный планнинг хуже справляется после трейна на субоптимальных данных (где есть и рандомные траектории в том числе) + не особо может, в отличие от того же HIPL, в ститчинг (не только повторять трейн траектории но и комбинировать действия из них), благодаря наученной модели мира и происходит адаптация под новые лабиринты в PointMaze

👀 link, demo, code

🔥75❤2

479 views16:24

rizzearch

LMAct: A Benchmark for In-Context Imitation Learning with Long Multimodal Demonstrations

недавно говорили про ин-контекст рл (вот здесь), теперь и дипмаинды выкатили на этот счет большой обзор в рамках ллм

уже, однако, делали работы на эту тему. например, в этой выяснили, что ллм можно в принципе использовать как экстракторы паттернов в процессах принятия решений. однако, здесь присутствует сигнал награды (то есть рл постановка), и дипмаинды тоже уже работали в направлении изолированного ин-контекст рл (например, здесь)

в этот раз авторы тестировали ллмки в мультимодальном сетапе на довольно длинном процессе имитейшн лернинга, то есть процесс принятия решений без сигнала награды, где в качестве тренировки (обычно) подаются на вход экспертное поведение

евалили closed-source модели

- Claude 3.5 Sonnet
- Gemini 1.5 Flash/Pro
- 4o
- o1-mini, o1-preview and o1

в плане тасок решили выбрать

- энву из атари, феникс (датасет для которого собирали при помощи GATO, который мы упоминали и здесь)
- шахматы (где в качестве эксперта был стокфиш, а не Leela)
- крестики-нолики, кроссворд и гридворлд
- cheetah из DMControl (тоже данные собирались через GATO)

в остальных случах, кроме крестиков-ноликов с минимаксом, данные собирались через оракула

в качестве мультимодальностей входных данных было разделение на ргб, проприоцепцию, ascii-like input & шахматные типы данных

по итогу ни в одной среде не получается ни одной модели достигнуть хотя бы половины от уровня эксперта, чьи данные они видят в качестве few-shot примеров, сколь ни увеличивай длину последовательности примеров (вплоть до одного миллиона токенов). да, есть всякие issues по поводу заведения апи под мультимодальные данные (например в клоде нельзя засунуть больше 100 картинок), но ситуация все равно довольно закономерная

получается, без сигнала реварда даже для ллмок в принятии решений никуда не деться

👀LINK

480 views20:54

rizzearch

0:23

This media is not supported in your browser

BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities

тут стенфордцы на основе (почти) своего же бенчмарка BEHAVIOR-1K сделали свой фреймворк для полноценного робота на колесиках для выполнения заданий по дому

точнее из своего бенчмарка они смогли вычленить то, что для таких полноценных роботов возникает много проблем с выполнением

- бимануальной координации (использовать одновременно 2 руки для совершения действий)
- стабильно точной навигации (разбираться где робот находится относительно общей обстановки в доме и понимать, где какая вещь может лежать)
- конечного результата (то есть пытаться до конца выполнить четкое сформулированное задание)

и для этого получилось довольно классное решение, которое объединяет в себе и хардовые, и софт идеи

сам робот состоит из трех частей - фундамент с колесиками, торс и руки. для его управления и сбора данных кстати адаптировали контроллер от нинтендо что прикольно, а с руками по сетапу (назвали JoyLo) вышло меньше 500 долларов, чтобы руки если что можно было поменять дешево (которые видимо по заверениям авторов могут быстрее изнашиваться или подвергаться урону, чем менее подвижные торс и база с колесами)

этот самый JoyLo кстати по их сравнениям оказывается удобнее эпл вижн про, что наверное не супер удивительно (VR vs gamepad), но тем не менее критично как эвиденс для того, чтобы в данных получать как можно больше success rate’ов для обучения (просто потому что человеку в качестве эксперта удобнее управлять частями робота)

сама модель же обучается под имитейшн лернинг - это DiT, который обрабатывает проприоцепцию и пойнт клауды в последовательности (модальности фьюзятся через селф аттеншн) + играет свою роль условный иерархичный предикт действий. иерархичность же заключается в принципе снизу-вверх: сначала выдаем действия для колесиков, потом для торса с кондишном на действия для колесиков, а в конце предсказывается для рук с условием под предыдущих действия.

таким образом иерархическая зависимость от действий присутствует (которая при этом сформулирована под классический форвард пасс диффужн трансформера) + так может нивелироваться распространение ошибок по предсказаниям

по видосам и графикам выглядит прикольно. особенно впечатляет момент с failure recovery behavior: со второй попытки (иногда) агент справляется выполнить таску, которую не смог, как например закрыть крышку туалета (с чем blyat многие люди до сих пор справиться не могут, как и со стульчаком)

имхо классный противовес для физикал интеллиженс (aka pi.website ), хоть и работа направлена в немного другое русло

link

demo

code-algo

code-hardware

6.2K views17:10

About

Blog

Apps

Platform