rizzearch

Hi Robot: Open-Ended Instruction Following with Hierarchical
Vision-Language-Action Models

недавно мы уже упоминали о том, что в лоб использовать VLM для задач принятия решений не совсем оптимально, ибо модели такие создавались не на эту задачу

и вот теперь physical intelligence выпустили свое видение на этот счет, только они решили сделать это в более-менее иерархичной структуре (состоящей из двух уровней)

авторы назали Hi Robot (hierarchical interactive robot) - если проводить с концепцией Канемана

- есть Система 1: быстрая политика (в данном случае политика на флоу матчинге, не фаст), она исполняет low-level действия в соответствии с low-level языковыми коммандами и остальной инфой в виде проприоцепции и картинок. назовем это low-level process. языковые промпты кстати итеративно подаются на вход модели, так и могут меняться по ходу исполнения задачи в зависимости от преференций человека
- а есть Система 2: high-level process, который заточен на VLM, получающий текстовый инпут непосредственно от пользователя, а далее в совокупности с другими входными данными модель составляет список низкоуровневых инструкций для Системы 1 + так же здесь есть text-to-speech модуль (кстати для него использовали апи от cartesia.ai, ее мы упоминали здесь), чтобы пользователь мог получать подтверждение о своих запросах, просьбу о пояснении или сообщение об исправлении ошибок (в истории интеракции робота с реальным миром)

и хоть Система 2 получается нагроможденее, ее можно инферить реже чем низкоуровневую Систему 1 → можно сделать так, чтобы они работали с разной частотой и быть (более-менее) в шоколаде

окей, идея звучит очень здраво и возможно даже очевидно (пока дело не доходит до практики), остается вопрос в составлении датасета

датасет же составлялся частично вручную, частично синтетически

- очень детальное описание задач (накрыть на стол, сделать сендвич, пошопиться продуктами) надо было разбивать на низкоуровневую последовательность задач
- а так же еще приправить это все какими-то условиями из world knowledge моделей (e.g. user: “Can you make a sandwich for me? I’m lactose intolerant”. robot: “Sure, I won’t put cheese on it.”)
- и добавить возможность предлагать (а затем стремиться сделать) частное из недетального промпта (например “I want something sweet” в качестве юзер промпта)

кода нет, да и датасета тоже

👀LINK

👍1

6.12K views16:43

rizzearch

Towards General-Purpose Model-Free Reinforcement Learning

Скотт Фуджимото может быть известен вам как один из пионеров современных рл методов - TD3 & TD3-BC, а так же он в принципе один из тех кто сильно продвинул область оффлайн рл (точнее model-free offline rl), когда она еще называлась батч рл

теперь, полагаю, ему надоело перебирать гиперпараметры под каждый бенчмарк чтобы vydrochit’ сота перформанс на каждом в отдельности, а захотелось отскейлить это дело созданием метода, который может выступать на около-сота уровне с фиксированным набором гиперпараметров для каждого бенчмарка

но если не хочется vydrachivat’ гиперпараметры → стоит vydrochit’ многие аспекты в пайплайне, как уже примерно делал первый автор улучшения TD3-BC → TD7 по state-action репрезентациям

только здесь пошло еще дальше: авторы добиваются такой генерализации (относительно перебора гиперпараметров) на model-free методе при помощи внедрения model-based идей (и не только) для получения cупер-пупер крутых репрезентаций

а именно

- состояния переводятся в латентное пространство (что проприоцепция, что пиксельные обсервейшны) при помощи энкодера + так же есть энкодер под состояния и действия одновременно (те самые state-action репрезентации)
- эти энкодеры обновляются в model-based стиле “анроллом динамики”: надо по горизонту восстанавливать награду, следующее латентное состояние и флаг терминальности (булево значение, которое показывает, закончился ли эпизод)
- при том последние 2 явления обучаются классически в мсе стиле, а награда восстанавливается по бинам при помощи twohot трансформации (она так же используется в дримере для предсказания реварда, да и в последнее время все чаще фигурирует как вид обучения критика через классификацию а не регрессию)
- критик же обучается через мульти-степ сумму наград по заранее выбранному горизонту
- а политика после всего этого оптимизируется в более-менее классическом стиле (разве что за нестандартный прием имхо можно посчитать гамбел софтмакс для дискретных действий)
- и это все в конце полируется тем, что семплы подаются на вход во время обучения при помощи буффера LAP, который выставляет приоритет при семплировании в соответствии с ошибкой критика (в терминологии рл это называется Temporal Difference error, TD error)

ну и вроде по экспериментам вырисовывается что-то интересное - хоть и не везде выбивается сота, но метод ощутимо находится на высоком уровне. и это все при том, что гиперпараметры не перебирались в отличие от других методов, хотя конечно остается вопрос точно ли авторы ничего не перебирали хотя бы чуть-чуть, или же как именно они решили выставить неизменяемую конфигурацию гиперов (например момент с exploration noise, значение которого они позаимствовали из предыдущих работ по d4rl, но не по атари)

а вообще в целом результаты довольно классные - еще бы такая концепция повторялась бы, если и обучать в мультитаск/мета стиле (ведь название статьи тоже на это может намекать в плане general-purpose RL), так еще и model-based это типа world models так что хайп бррррррр

👀LINK

❤8

3.18K views15:59

rizzearch

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models

lecun вставил dynamics model (world model) в JEPA по самые латентные помидоры

ну а если посерьезнее, то авторы решили сравнить модель динамики в ревард-фри сценариях (на достижение цели) с ансупервайзд подходами, контрастив техниками и goal-conditioned методами (о некоторых из них мы писали - HIQL & HIPL)

- ибо все вышеупомянутое является model-free а не model-based (о разнице которых мы уже чуть поподробнее говорили)
- но при этом ничего из этого не может адаптироваться к новым таскам (как ни тыкай разные параметры датасета такие как диверсити, качество и вариативность)

ну а вот в этот раз удалось помучаться с моделью мира и завести ее, при том только в латентном пространстве (то есть нету отдельного бранча на восстановление состояний, которые подаются на вход изначальной модели)

- но раз нет головы на реконструкцию, то есть JEPA (в викрег стиле) под получение вкусных репрезентаций для латентного планнинга
- как и inverse dynamics model для учета природы действий в этих самых репрезентациях (которую мы уже упоминали здесь и здесь
- при том поскольку вся суета происходит только в латентном пространстве, то этом плане метод остается консистентным для MPPI планирования

в этом примерно и заключается Planning with a Latent Dynamics Model (PLDM).

эксперименты проводили на игрушечной Two Rooms, где надо в 2д комнате с одной дверью достичь другой точки, и на лабиринтах в Mujoco PointMaze

→

хоть и этот авторский латентный планнинг хуже справляется после трейна на субоптимальных данных (где есть и рандомные траектории в том числе) + не особо может, в отличие от того же HIPL, в ститчинг (не только повторять трейн траектории но и комбинировать действия из них), благодаря наученной модели мира и происходит адаптация под новые лабиринты в PointMaze

👀 link, demo, code

🔥75❤2

479 views16:24

rizzearch

LMAct: A Benchmark for In-Context Imitation Learning with Long Multimodal Demonstrations

недавно говорили про ин-контекст рл (вот здесь), теперь и дипмаинды выкатили на этот счет большой обзор в рамках ллм

уже, однако, делали работы на эту тему. например, в этой выяснили, что ллм можно в принципе использовать как экстракторы паттернов в процессах принятия решений. однако, здесь присутствует сигнал награды (то есть рл постановка), и дипмаинды тоже уже работали в направлении изолированного ин-контекст рл (например, здесь)

в этот раз авторы тестировали ллмки в мультимодальном сетапе на довольно длинном процессе имитейшн лернинга, то есть процесс принятия решений без сигнала награды, где в качестве тренировки (обычно) подаются на вход экспертное поведение

евалили closed-source модели

- Claude 3.5 Sonnet
- Gemini 1.5 Flash/Pro
- 4o
- o1-mini, o1-preview and o1

в плане тасок решили выбрать

- энву из атари, феникс (датасет для которого собирали при помощи GATO, который мы упоминали и здесь)
- шахматы (где в качестве эксперта был стокфиш, а не Leela)
- крестики-нолики, кроссворд и гридворлд
- cheetah из DMControl (тоже данные собирались через GATO)

в остальных случах, кроме крестиков-ноликов с минимаксом, данные собирались через оракула

в качестве мультимодальностей входных данных было разделение на ргб, проприоцепцию, ascii-like input & шахматные типы данных

по итогу ни в одной среде не получается ни одной модели достигнуть хотя бы половины от уровня эксперта, чьи данные они видят в качестве few-shot примеров, сколь ни увеличивай длину последовательности примеров (вплоть до одного миллиона токенов). да, есть всякие issues по поводу заведения апи под мультимодальные данные (например в клоде нельзя засунуть больше 100 картинок), но ситуация все равно довольно закономерная

получается, без сигнала реварда даже для ллмок в принятии решений никуда не деться

👀LINK

480 views20:54

About

Blog

Apps

Platform