rizzearch

Towards General-Purpose Model-Free Reinforcement Learning

Скотт Фуджимото может быть известен вам как один из пионеров современных рл методов - TD3 & TD3-BC, а так же он в принципе один из тех кто сильно продвинул область оффлайн рл (точнее model-free offline rl), когда она еще называлась батч рл

теперь, полагаю, ему надоело перебирать гиперпараметры под каждый бенчмарк чтобы vydrochit’ сота перформанс на каждом в отдельности, а захотелось отскейлить это дело созданием метода, который может выступать на около-сота уровне с фиксированным набором гиперпараметров для каждого бенчмарка

но если не хочется vydrachivat’ гиперпараметры → стоит vydrochit’ многие аспекты в пайплайне, как уже примерно делал первый автор улучшения TD3-BC → TD7 по state-action репрезентациям

только здесь пошло еще дальше: авторы добиваются такой генерализации (относительно перебора гиперпараметров) на model-free методе при помощи внедрения model-based идей (и не только) для получения cупер-пупер крутых репрезентаций

а именно

- состояния переводятся в латентное пространство (что проприоцепция, что пиксельные обсервейшны) при помощи энкодера + так же есть энкодер под состояния и действия одновременно (те самые state-action репрезентации)
- эти энкодеры обновляются в model-based стиле “анроллом динамики”: надо по горизонту восстанавливать награду, следующее латентное состояние и флаг терминальности (булево значение, которое показывает, закончился ли эпизод)
- при том последние 2 явления обучаются классически в мсе стиле, а награда восстанавливается по бинам при помощи twohot трансформации (она так же используется в дримере для предсказания реварда, да и в последнее время все чаще фигурирует как вид обучения критика через классификацию а не регрессию)
- критик же обучается через мульти-степ сумму наград по заранее выбранному горизонту
- а политика после всего этого оптимизируется в более-менее классическом стиле (разве что за нестандартный прием имхо можно посчитать гамбел софтмакс для дискретных действий)
- и это все в конце полируется тем, что семплы подаются на вход во время обучения при помощи буффера LAP, который выставляет приоритет при семплировании в соответствии с ошибкой критика (в терминологии рл это называется Temporal Difference error, TD error)

ну и вроде по экспериментам вырисовывается что-то интересное - хоть и не везде выбивается сота, но метод ощутимо находится на высоком уровне. и это все при том, что гиперпараметры не перебирались в отличие от других методов, хотя конечно остается вопрос точно ли авторы ничего не перебирали хотя бы чуть-чуть, или же как именно они решили выставить неизменяемую конфигурацию гиперов (например момент с exploration noise, значение которого они позаимствовали из предыдущих работ по d4rl, но не по атари)

а вообще в целом результаты довольно классные - еще бы такая концепция повторялась бы, если и обучать в мультитаск/мета стиле (ведь название статьи тоже на это может намекать в плане general-purpose RL), так еще и model-based это типа world models так что хайп бррррррр

👀LINK

❤8

3.18K views15:59

rizzearch

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models

lecun вставил dynamics model (world model) в JEPA по самые латентные помидоры

ну а если посерьезнее, то авторы решили сравнить модель динамики в ревард-фри сценариях (на достижение цели) с ансупервайзд подходами, контрастив техниками и goal-conditioned методами (о некоторых из них мы писали - HIQL & HIPL)

- ибо все вышеупомянутое является model-free а не model-based (о разнице которых мы уже чуть поподробнее говорили)
- но при этом ничего из этого не может адаптироваться к новым таскам (как ни тыкай разные параметры датасета такие как диверсити, качество и вариативность)

ну а вот в этот раз удалось помучаться с моделью мира и завести ее, при том только в латентном пространстве (то есть нету отдельного бранча на восстановление состояний, которые подаются на вход изначальной модели)

- но раз нет головы на реконструкцию, то есть JEPA (в викрег стиле) под получение вкусных репрезентаций для латентного планнинга
- как и inverse dynamics model для учета природы действий в этих самых репрезентациях (которую мы уже упоминали здесь и здесь
- при том поскольку вся суета происходит только в латентном пространстве, то этом плане метод остается консистентным для MPPI планирования

в этом примерно и заключается Planning with a Latent Dynamics Model (PLDM).

эксперименты проводили на игрушечной Two Rooms, где надо в 2д комнате с одной дверью достичь другой точки, и на лабиринтах в Mujoco PointMaze

→

хоть и этот авторский латентный планнинг хуже справляется после трейна на субоптимальных данных (где есть и рандомные траектории в том числе) + не особо может, в отличие от того же HIPL, в ститчинг (не только повторять трейн траектории но и комбинировать действия из них), благодаря наученной модели мира и происходит адаптация под новые лабиринты в PointMaze

👀 link, demo, code

🔥75❤2

479 views16:24

rizzearch

LMAct: A Benchmark for In-Context Imitation Learning with Long Multimodal Demonstrations

недавно говорили про ин-контекст рл (вот здесь), теперь и дипмаинды выкатили на этот счет большой обзор в рамках ллм

уже, однако, делали работы на эту тему. например, в этой выяснили, что ллм можно в принципе использовать как экстракторы паттернов в процессах принятия решений. однако, здесь присутствует сигнал награды (то есть рл постановка), и дипмаинды тоже уже работали в направлении изолированного ин-контекст рл (например, здесь)

в этот раз авторы тестировали ллмки в мультимодальном сетапе на довольно длинном процессе имитейшн лернинга, то есть процесс принятия решений без сигнала награды, где в качестве тренировки (обычно) подаются на вход экспертное поведение

евалили closed-source модели

- Claude 3.5 Sonnet
- Gemini 1.5 Flash/Pro
- 4o
- o1-mini, o1-preview and o1

в плане тасок решили выбрать

- энву из атари, феникс (датасет для которого собирали при помощи GATO, который мы упоминали и здесь)
- шахматы (где в качестве эксперта был стокфиш, а не Leela)
- крестики-нолики, кроссворд и гридворлд
- cheetah из DMControl (тоже данные собирались через GATO)

в остальных случах, кроме крестиков-ноликов с минимаксом, данные собирались через оракула

в качестве мультимодальностей входных данных было разделение на ргб, проприоцепцию, ascii-like input & шахматные типы данных

по итогу ни в одной среде не получается ни одной модели достигнуть хотя бы половины от уровня эксперта, чьи данные они видят в качестве few-shot примеров, сколь ни увеличивай длину последовательности примеров (вплоть до одного миллиона токенов). да, есть всякие issues по поводу заведения апи под мультимодальные данные (например в клоде нельзя засунуть больше 100 картинок), но ситуация все равно довольно закономерная

получается, без сигнала реварда даже для ллмок в принятии решений никуда не деться

👀LINK

480 views20:54

rizzearch

0:23

This media is not supported in your browser

BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities

тут стенфордцы на основе (почти) своего же бенчмарка BEHAVIOR-1K сделали свой фреймворк для полноценного робота на колесиках для выполнения заданий по дому

точнее из своего бенчмарка они смогли вычленить то, что для таких полноценных роботов возникает много проблем с выполнением

- бимануальной координации (использовать одновременно 2 руки для совершения действий)
- стабильно точной навигации (разбираться где робот находится относительно общей обстановки в доме и понимать, где какая вещь может лежать)
- конечного результата (то есть пытаться до конца выполнить четкое сформулированное задание)

и для этого получилось довольно классное решение, которое объединяет в себе и хардовые, и софт идеи

сам робот состоит из трех частей - фундамент с колесиками, торс и руки. для его управления и сбора данных кстати адаптировали контроллер от нинтендо что прикольно, а с руками по сетапу (назвали JoyLo) вышло меньше 500 долларов, чтобы руки если что можно было поменять дешево (которые видимо по заверениям авторов могут быстрее изнашиваться или подвергаться урону, чем менее подвижные торс и база с колесами)

этот самый JoyLo кстати по их сравнениям оказывается удобнее эпл вижн про, что наверное не супер удивительно (VR vs gamepad), но тем не менее критично как эвиденс для того, чтобы в данных получать как можно больше success rate’ов для обучения (просто потому что человеку в качестве эксперта удобнее управлять частями робота)

сама модель же обучается под имитейшн лернинг - это DiT, который обрабатывает проприоцепцию и пойнт клауды в последовательности (модальности фьюзятся через селф аттеншн) + играет свою роль условный иерархичный предикт действий. иерархичность же заключается в принципе снизу-вверх: сначала выдаем действия для колесиков, потом для торса с кондишном на действия для колесиков, а в конце предсказывается для рук с условием под предыдущих действия.

таким образом иерархическая зависимость от действий присутствует (которая при этом сформулирована под классический форвард пасс диффужн трансформера) + так может нивелироваться распространение ошибок по предсказаниям

по видосам и графикам выглядит прикольно. особенно впечатляет момент с failure recovery behavior: со второй попытки (иногда) агент справляется выполнить таску, которую не смог, как например закрыть крышку туалета (с чем blyat многие люди до сих пор справиться не могут, как и со стульчаком)

имхо классный противовес для физикал интеллиженс (aka pi.website ), хоть и работа направлена в немного другое русло

link

demo

code-algo

code-hardware

6.2K views17:10

About

Blog

Apps

Platform