LMAct: A Benchmark for In-Context Imitation Learning with Long Multimodal Demonstrations
недавно говорили про ин-контекст рл (вот здесь), теперь и дипмаинды выкатили на этот счет большой обзор в рамках ллм
уже, однако, делали работы на эту тему. например, в этой выяснили, что ллм можно в принципе использовать как экстракторы паттернов в процессах принятия решений. однако, здесь присутствует сигнал награды (то есть рл постановка), и дипмаинды тоже уже работали в направлении изолированного ин-контекст рл (например, здесь)
в этот раз авторы тестировали ллмки в мультимодальном сетапе на довольно длинном процессе имитейшн лернинга, то есть процесс принятия решений без сигнала награды, где в качестве тренировки (обычно) подаются на вход экспертное поведение
евалили closed-source модели
- Claude 3.5 Sonnet
- Gemini 1.5 Flash/Pro
- 4o
- o1-mini, o1-preview and o1
в плане тасок решили выбрать
- энву из атари, феникс (датасет для которого собирали при помощи GATO, который мы упоминали и здесь)
- шахматы (где в качестве эксперта был стокфиш, а не Leela)
- крестики-нолики, кроссворд и гридворлд
- cheetah из DMControl (тоже данные собирались через GATO)
в остальных случах, кроме крестиков-ноликов с минимаксом, данные собирались через оракула
в качестве мультимодальностей входных данных было разделение на ргб, проприоцепцию, ascii-like input & шахматные типы данных
по итогу ни в одной среде не получается ни одной модели достигнуть хотя бы половины от уровня эксперта, чьи данные они видят в качестве few-shot примеров, сколь ни увеличивай длину последовательности примеров (вплоть до одного миллиона токенов). да, есть всякие issues по поводу заведения апи под мультимодальные данные (например в клоде нельзя засунуть больше 100 картинок), но ситуация все равно довольно закономерная
получается, без сигнала реварда даже для ллмок в принятии решений никуда не деться
👀LINK
недавно говорили про ин-контекст рл (вот здесь), теперь и дипмаинды выкатили на этот счет большой обзор в рамках ллм
уже, однако, делали работы на эту тему. например, в этой выяснили, что ллм можно в принципе использовать как экстракторы паттернов в процессах принятия решений. однако, здесь присутствует сигнал награды (то есть рл постановка), и дипмаинды тоже уже работали в направлении изолированного ин-контекст рл (например, здесь)
в этот раз авторы тестировали ллмки в мультимодальном сетапе на довольно длинном процессе имитейшн лернинга, то есть процесс принятия решений без сигнала награды, где в качестве тренировки (обычно) подаются на вход экспертное поведение
евалили closed-source модели
- Claude 3.5 Sonnet
- Gemini 1.5 Flash/Pro
- 4o
- o1-mini, o1-preview and o1
в плане тасок решили выбрать
- энву из атари, феникс (датасет для которого собирали при помощи GATO, который мы упоминали и здесь)
- шахматы (где в качестве эксперта был стокфиш, а не Leela)
- крестики-нолики, кроссворд и гридворлд
- cheetah из DMControl (тоже данные собирались через GATO)
в остальных случах, кроме крестиков-ноликов с минимаксом, данные собирались через оракула
в качестве мультимодальностей входных данных было разделение на ргб, проприоцепцию, ascii-like input & шахматные типы данных
по итогу ни в одной среде не получается ни одной модели достигнуть хотя бы половины от уровня эксперта, чьи данные они видят в качестве few-shot примеров, сколь ни увеличивай длину последовательности примеров (вплоть до одного миллиона токенов). да, есть всякие issues по поводу заведения апи под мультимодальные данные (например в клоде нельзя засунуть больше 100 картинок), но ситуация все равно довольно закономерная
получается, без сигнала реварда даже для ллмок в принятии решений никуда не деться
👀LINK
BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities
тут стенфордцы на основе (почти) своего же бенчмарка BEHAVIOR-1K сделали свой фреймворк для полноценного робота на колесиках для выполнения заданий по дому
точнее из своего бенчмарка они смогли вычленить то, что для таких полноценных роботов возникает много проблем с выполнением
- бимануальной координации (использовать одновременно 2 руки для совершения действий)
- стабильно точной навигации (разбираться где робот находится относительно общей обстановки в доме и понимать, где какая вещь может лежать)
- конечного результата (то есть пытаться до конца выполнить четкое сформулированное задание)
и для этого получилось довольно классное решение, которое объединяет в себе и хардовые, и софт идеи
сам робот состоит из трех частей - фундамент с колесиками, торс и руки. для его управления и сбора данных кстати адаптировали контроллер от нинтендо что прикольно, а с руками по сетапу (назвали JoyLo) вышло меньше 500 долларов, чтобы руки если что можно было поменять дешево (которые видимо по заверениям авторов могут быстрее изнашиваться или подвергаться урону, чем менее подвижные торс и база с колесами)
этот самый JoyLo кстати по их сравнениям оказывается удобнее эпл вижн про, что наверное не супер удивительно (VR vs gamepad), но тем не менее критично как эвиденс для того, чтобы в данных получать как можно больше success rate’ов для обучения (просто потому что человеку в качестве эксперта удобнее управлять частями робота)
сама модель же обучается под имитейшн лернинг - это DiT, который обрабатывает проприоцепцию и пойнт клауды в последовательности (модальности фьюзятся через селф аттеншн) + играет свою роль условный иерархичный предикт действий. иерархичность же заключается в принципе снизу-вверх: сначала выдаем действия для колесиков, потом для торса с кондишном на действия для колесиков, а в конце предсказывается для рук с условием под предыдущих действия.
таким образом иерархическая зависимость от действий присутствует (которая при этом сформулирована под классический форвард пасс диффужн трансформера) + так может нивелироваться распространение ошибок по предсказаниям
по видосам и графикам выглядит прикольно. особенно впечатляет момент с failure recovery behavior: со второй попытки (иногда) агент справляется выполнить таску, которую не смог, как например закрыть крышку туалета (с чем blyat многие люди до сих пор справиться не могут, как и со стульчаком)
имхо классный противовес для физикал интеллиженс (aka pi.website ), хоть и работа направлена в немного другое русло
link
demo
code-algo
code-hardware
тут стенфордцы на основе (почти) своего же бенчмарка BEHAVIOR-1K сделали свой фреймворк для полноценного робота на колесиках для выполнения заданий по дому
точнее из своего бенчмарка они смогли вычленить то, что для таких полноценных роботов возникает много проблем с выполнением
- бимануальной координации (использовать одновременно 2 руки для совершения действий)
- стабильно точной навигации (разбираться где робот находится относительно общей обстановки в доме и понимать, где какая вещь может лежать)
- конечного результата (то есть пытаться до конца выполнить четкое сформулированное задание)
и для этого получилось довольно классное решение, которое объединяет в себе и хардовые, и софт идеи
сам робот состоит из трех частей - фундамент с колесиками, торс и руки. для его управления и сбора данных кстати адаптировали контроллер от нинтендо что прикольно, а с руками по сетапу (назвали JoyLo) вышло меньше 500 долларов, чтобы руки если что можно было поменять дешево (которые видимо по заверениям авторов могут быстрее изнашиваться или подвергаться урону, чем менее подвижные торс и база с колесами)
этот самый JoyLo кстати по их сравнениям оказывается удобнее эпл вижн про, что наверное не супер удивительно (VR vs gamepad), но тем не менее критично как эвиденс для того, чтобы в данных получать как можно больше success rate’ов для обучения (просто потому что человеку в качестве эксперта удобнее управлять частями робота)
сама модель же обучается под имитейшн лернинг - это DiT, который обрабатывает проприоцепцию и пойнт клауды в последовательности (модальности фьюзятся через селф аттеншн) + играет свою роль условный иерархичный предикт действий. иерархичность же заключается в принципе снизу-вверх: сначала выдаем действия для колесиков, потом для торса с кондишном на действия для колесиков, а в конце предсказывается для рук с условием под предыдущих действия.
таким образом иерархическая зависимость от действий присутствует (которая при этом сформулирована под классический форвард пасс диффужн трансформера) + так может нивелироваться распространение ошибок по предсказаниям
по видосам и графикам выглядит прикольно. особенно впечатляет момент с failure recovery behavior: со второй попытки (иногда) агент справляется выполнить таску, которую не смог, как например закрыть крышку туалета (с чем blyat многие люди до сих пор справиться не могут, как и со стульчаком)
имхо классный противовес для физикал интеллиженс (aka pi.website ), хоть и работа направлена в немного другое русло
link
demo
code-algo
code-hardware
Forgetting Transformer: Softmax Attention with a Forget Gate
авторы из Милы и дипмаинда сделали очень естественную концепцию форгет гейта для софтмакс аттеншна
а естественность эта заключается в том, что
- если вспомнить линейный аттеншн, то его преимущество на инференсе (теоретически) заключается в возможности записать его в рекуррентном виде
- где уже дальше можно внести момент data-dependent форгет гейта (взятый по аналогии с LSTM или xLSTM если поновее (кстати его смогли отскейлить до 7б), только там экспоненциальное забывание)
- однако, это самое забывание можно внести и в привычную формулу параллельного линейного аттеншна (что в принципе похоже на GLA & обобщение ссм и аттеншна мамбы 2)
- но тогда там в формуле появляется уравнение forget_matrix * sim(q, k), которую снова можно развернуть в forget_matrix * softmax(q @ k)
и из этого мы возвращаемся к стандартному софтмаксу с перформансом лучше → так еще и можно засунуть элемент забывания под софтмакс, получится что-то типа
softmax(q @ k + log[forget_matrix])
где уже есть аналогии как и с навороченной каузальной маской, так и с позиционным кодированием (именно поэтому в своей архитектуре они вырубают роуп, хотя можно включить и чуть-чуть результат будет получше) где похожее было и в алиби и в ретнете например, только маски там были в data-independent манере
так еще и реализовано во флеш-аттн лайк манере, где эта матрица не высчитывается сразу, а постепенно, храня в HBM промежуточные результаты forget gate’ов для каждого таймстепа,и попарно высчитывается далее уже в онлайн стиле (в статье очень хорошо и понятно описано, рекомендуем)
сделали все на основе флаг аттеншн - оч крутая репа, да и сам код от FoX (Forgetting Transformer) не отстает
по состоятельности экспериментов можно сказать то, что реально присутствует улучшение в языковом моделировании, зеро-шот, в длинный контекст и все такое, однако скейл моделей был примерно в районе 125М-350М-760М, ну и скейл датасета соответствующий
👀LINK
авторы из Милы и дипмаинда сделали очень естественную концепцию форгет гейта для софтмакс аттеншна
а естественность эта заключается в том, что
- если вспомнить линейный аттеншн, то его преимущество на инференсе (теоретически) заключается в возможности записать его в рекуррентном виде
- где уже дальше можно внести момент data-dependent форгет гейта (взятый по аналогии с LSTM или xLSTM если поновее (кстати его смогли отскейлить до 7б), только там экспоненциальное забывание)
- однако, это самое забывание можно внести и в привычную формулу параллельного линейного аттеншна (что в принципе похоже на GLA & обобщение ссм и аттеншна мамбы 2)
- но тогда там в формуле появляется уравнение forget_matrix * sim(q, k), которую снова можно развернуть в forget_matrix * softmax(q @ k)
и из этого мы возвращаемся к стандартному софтмаксу с перформансом лучше → так еще и можно засунуть элемент забывания под софтмакс, получится что-то типа
softmax(q @ k + log[forget_matrix])
где уже есть аналогии как и с навороченной каузальной маской, так и с позиционным кодированием (именно поэтому в своей архитектуре они вырубают роуп, хотя можно включить и чуть-чуть результат будет получше) где похожее было и в алиби и в ретнете например, только маски там были в data-independent манере
так еще и реализовано во флеш-аттн лайк манере, где эта матрица не высчитывается сразу, а постепенно, храня в HBM промежуточные результаты forget gate’ов для каждого таймстепа,и попарно высчитывается далее уже в онлайн стиле (в статье очень хорошо и понятно описано, рекомендуем)
сделали все на основе флаг аттеншн - оч крутая репа, да и сам код от FoX (Forgetting Transformer) не отстает
по состоятельности экспериментов можно сказать то, что реально присутствует улучшение в языковом моделировании, зеро-шот, в длинный контекст и все такое, однако скейл моделей был примерно в районе 125М-350М-760М, ну и скейл датасета соответствующий
👀LINK
👍8
Isaac GR00T N1: An Open Foundation Model for Humanoid Robots
вслед за физикал интеллиженс нвидиа тоже сделали свою фаундейшн робо модель, при том для человекоподобных роботов
у них здесь аналогично есть иерархичное разделение на систему 1 и систему 2 для того, что они называют ризонингом (ибо на хайпе), и совершением действия на 120 Гц. кстати как и у pi0 by pi.website, в качестве головы для действий выступает флоу матчинг голова (где таймстепы точно так же семплируются из бета распределения, интересно проводили ли какие-то махинации ли они с токенизацией)
моделька называется грут 2.2B (а сколько пи0 составляетнеизвестно UPD: известно, спасибо комментаторам, примерно столько же), у которого VLM бэкбон это Eagle2) опять-таки от нвидиа. при этом есть и такие занимательные моменты
- на инференсе они делают 4 шага флоу матчинга (вместо 10 как у беркли/физикал интеллиженс)
- система 2 (VLM) принимает на вход картинки разрешения 224х224, что уже многолетняя классика, качества которой достаточно для робо задач
- эмбеддинги VLM они берут не последние, а из середины модели (12-ый слой, про такую технику мы уже говорили), может намекать о том, что языковые инструкции для роботов не так уж сложны для обработки (либо еще что-то непонятное что требует больше ресерча)
- еще так же во время обучения авторы добавили доп лосс на детекцию objects of interest, который реализован просто через отдельную голову для 2д координат (сделано для model spatial understanding)
по компьюту же авторы использовали вплоть до 1024 карточек (необязательно для обучения, но и для сбора данных). грут 2б же скушал примерно 50к гпу часов на h100 на претрейне, потом еще файнтюнили на А6000
в качестве данных же брали очень много разношерстных датасетов (для генерализации оф корс) + для этого стандартизовали пространство действий
но это где есть разметка. чтобы еще увеличить скейл датасета, авторы взяли демонстрационные видосы от людей, откуда дополнительно вычленяли латентные действия (при помощи модели обратной динамики, мы о них уже писали)
но и этого мало! от этих видосов также нагенерили много синтетики, которые повышают диверсити траекторий действий. при том нагенерили в сценарии имг2видео, для чего использовали WAN 14B, а уже для составления робо траекторий выступала модель DexMimicGen (тоже от нвидиа)
короче говоря, вышло очень дорого на всех этапах, а демки залипательные
👀 link, code
вслед за физикал интеллиженс нвидиа тоже сделали свою фаундейшн робо модель, при том для человекоподобных роботов
у них здесь аналогично есть иерархичное разделение на систему 1 и систему 2 для того, что они называют ризонингом (ибо на хайпе), и совершением действия на 120 Гц. кстати как и у pi0 by pi.website, в качестве головы для действий выступает флоу матчинг голова (где таймстепы точно так же семплируются из бета распределения, интересно проводили ли какие-то махинации ли они с токенизацией)
моделька называется грут 2.2B (а сколько пи0 составляет
- на инференсе они делают 4 шага флоу матчинга (вместо 10 как у беркли/физикал интеллиженс)
- система 2 (VLM) принимает на вход картинки разрешения 224х224, что уже многолетняя классика, качества которой достаточно для робо задач
- эмбеддинги VLM они берут не последние, а из середины модели (12-ый слой, про такую технику мы уже говорили), может намекать о том, что языковые инструкции для роботов не так уж сложны для обработки (либо еще что-то непонятное что требует больше ресерча)
- еще так же во время обучения авторы добавили доп лосс на детекцию objects of interest, который реализован просто через отдельную голову для 2д координат (сделано для model spatial understanding)
по компьюту же авторы использовали вплоть до 1024 карточек (необязательно для обучения, но и для сбора данных). грут 2б же скушал примерно 50к гпу часов на h100 на претрейне, потом еще файнтюнили на А6000
в качестве данных же брали очень много разношерстных датасетов (для генерализации оф корс) + для этого стандартизовали пространство действий
но это где есть разметка. чтобы еще увеличить скейл датасета, авторы взяли демонстрационные видосы от людей, откуда дополнительно вычленяли латентные действия (при помощи модели обратной динамики, мы о них уже писали)
но и этого мало! от этих видосов также нагенерили много синтетики, которые повышают диверсити траекторий действий. при том нагенерили в сценарии имг2видео, для чего использовали WAN 14B, а уже для составления робо траекторий выступала модель DexMimicGen (тоже от нвидиа)
We generate a total of around 827 hours of videos; it takes 2 minutes to generate a one-second video on an L40 GPU, and required approximately 105k L40 GPU hours (∼1.5 days) on 3,600 L40 GPUs.
короче говоря, вышло очень дорого на всех этапах, а демки залипательные
👀 link, code
🔥4❤3👍2