rizzearch

LMAct: A Benchmark for In-Context Imitation Learning with Long Multimodal Demonstrations

недавно говорили про ин-контекст рл (вот здесь), теперь и дипмаинды выкатили на этот счет большой обзор в рамках ллм

уже, однако, делали работы на эту тему. например, в этой выяснили, что ллм можно в принципе использовать как экстракторы паттернов в процессах принятия решений. однако, здесь присутствует сигнал награды (то есть рл постановка), и дипмаинды тоже уже работали в направлении изолированного ин-контекст рл (например, здесь)

в этот раз авторы тестировали ллмки в мультимодальном сетапе на довольно длинном процессе имитейшн лернинга, то есть процесс принятия решений без сигнала награды, где в качестве тренировки (обычно) подаются на вход экспертное поведение

евалили closed-source модели

- Claude 3.5 Sonnet
- Gemini 1.5 Flash/Pro
- 4o
- o1-mini, o1-preview and o1

в плане тасок решили выбрать

- энву из атари, феникс (датасет для которого собирали при помощи GATO, который мы упоминали и здесь)
- шахматы (где в качестве эксперта был стокфиш, а не Leela)
- крестики-нолики, кроссворд и гридворлд
- cheetah из DMControl (тоже данные собирались через GATO)

в остальных случах, кроме крестиков-ноликов с минимаксом, данные собирались через оракула

в качестве мультимодальностей входных данных было разделение на ргб, проприоцепцию, ascii-like input & шахматные типы данных

по итогу ни в одной среде не получается ни одной модели достигнуть хотя бы половины от уровня эксперта, чьи данные они видят в качестве few-shot примеров, сколь ни увеличивай длину последовательности примеров (вплоть до одного миллиона токенов). да, есть всякие issues по поводу заведения апи под мультимодальные данные (например в клоде нельзя засунуть больше 100 картинок), но ситуация все равно довольно закономерная

получается, без сигнала реварда даже для ллмок в принятии решений никуда не деться

👀LINK

480 views20:54

rizzearch

0:23

This media is not supported in your browser

BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities

тут стенфордцы на основе (почти) своего же бенчмарка BEHAVIOR-1K сделали свой фреймворк для полноценного робота на колесиках для выполнения заданий по дому

точнее из своего бенчмарка они смогли вычленить то, что для таких полноценных роботов возникает много проблем с выполнением

- бимануальной координации (использовать одновременно 2 руки для совершения действий)
- стабильно точной навигации (разбираться где робот находится относительно общей обстановки в доме и понимать, где какая вещь может лежать)
- конечного результата (то есть пытаться до конца выполнить четкое сформулированное задание)

и для этого получилось довольно классное решение, которое объединяет в себе и хардовые, и софт идеи

сам робот состоит из трех частей - фундамент с колесиками, торс и руки. для его управления и сбора данных кстати адаптировали контроллер от нинтендо что прикольно, а с руками по сетапу (назвали JoyLo) вышло меньше 500 долларов, чтобы руки если что можно было поменять дешево (которые видимо по заверениям авторов могут быстрее изнашиваться или подвергаться урону, чем менее подвижные торс и база с колесами)

этот самый JoyLo кстати по их сравнениям оказывается удобнее эпл вижн про, что наверное не супер удивительно (VR vs gamepad), но тем не менее критично как эвиденс для того, чтобы в данных получать как можно больше success rate’ов для обучения (просто потому что человеку в качестве эксперта удобнее управлять частями робота)

сама модель же обучается под имитейшн лернинг - это DiT, который обрабатывает проприоцепцию и пойнт клауды в последовательности (модальности фьюзятся через селф аттеншн) + играет свою роль условный иерархичный предикт действий. иерархичность же заключается в принципе снизу-вверх: сначала выдаем действия для колесиков, потом для торса с кондишном на действия для колесиков, а в конце предсказывается для рук с условием под предыдущих действия.

таким образом иерархическая зависимость от действий присутствует (которая при этом сформулирована под классический форвард пасс диффужн трансформера) + так может нивелироваться распространение ошибок по предсказаниям

по видосам и графикам выглядит прикольно. особенно впечатляет момент с failure recovery behavior: со второй попытки (иногда) агент справляется выполнить таску, которую не смог, как например закрыть крышку туалета (с чем blyat многие люди до сих пор справиться не могут, как и со стульчаком)

имхо классный противовес для физикал интеллиженс (aka pi.website ), хоть и работа направлена в немного другое русло

link

demo

code-algo

code-hardware

6.2K views17:10

rizzearch

Forgetting Transformer: Softmax Attention with a Forget Gate

авторы из Милы и дипмаинда сделали очень естественную концепцию форгет гейта для софтмакс аттеншна

а естественность эта заключается в том, что

- если вспомнить линейный аттеншн, то его преимущество на инференсе (теоретически) заключается в возможности записать его в рекуррентном виде
- где уже дальше можно внести момент data-dependent форгет гейта (взятый по аналогии с LSTM или xLSTM если поновее (кстати его смогли отскейлить до 7б), только там экспоненциальное забывание)
- однако, это самое забывание можно внести и в привычную формулу параллельного линейного аттеншна (что в принципе похоже на GLA & обобщение ссм и аттеншна мамбы 2)
- но тогда там в формуле появляется уравнение forget_matrix * sim(q, k), которую снова можно развернуть в forget_matrix * softmax(q @ k)

и из этого мы возвращаемся к стандартному софтмаксу с перформансом лучше → так еще и можно засунуть элемент забывания под софтмакс, получится что-то типа

softmax(q @ k + log[forget_matrix])

где уже есть аналогии как и с навороченной каузальной маской, так и с позиционным кодированием (именно поэтому в своей архитектуре они вырубают роуп, хотя можно включить и чуть-чуть результат будет получше) где похожее было и в алиби и в ретнете например, только маски там были в data-independent манере

так еще и реализовано во флеш-аттн лайк манере, где эта матрица не высчитывается сразу, а постепенно, храня в HBM промежуточные результаты forget gate’ов для каждого таймстепа,и попарно высчитывается далее уже в онлайн стиле (в статье очень хорошо и понятно описано, рекомендуем)

сделали все на основе флаг аттеншн - оч крутая репа, да и сам код от FoX (Forgetting Transformer) не отстает

по состоятельности экспериментов можно сказать то, что реально присутствует улучшение в языковом моделировании, зеро-шот, в длинный контекст и все такое, однако скейл моделей был примерно в районе 125М-350М-760М, ну и скейл датасета соответствующий

👀LINK

👍8

598 views17:13

About

Blog

Apps

Platform