rizzearch

Zero-Shot Reinforcement Learning from Low Quality Data

продолжая тему зеро-шот рл, кэмбридж и бристоль далее развивают это для относительно небольшого количества гомогенных данных (а не гетерогенных и наиболее разнообразных)

но дело не заканчивается только на Forward-Backward (FB) Representations, которые относятся к successor measures, интуитивно замеряющие дисконтированную “будущую покрытость” (future occupancy) состояний при данной полиси

а авторы так же замеряют расширение идеи successor measures → (universal) successor features, которые фокусируются более на репрезентациях, способных (по ходу обучения на практике) смоделировать эту дисконтированную сумму (покрытость) фичей. а универсальными эти фичи (USF) делают тем, что их расширяют на семейство политик (вместо одной конкретной). обычно это выглядит так что просто полиси pi дополнительно параметризуется латентом z

ну в сущности и то, и то позволяет разъединить динамику среды/сред в наиболее общем смысле этого слова от ревард функции, которую тем не менее потом на тест тайме при помощи определений и формул можно выразить через FB и USF

а факт наличия “обедненных” данных стараются нивелировать через концепцию консерватизма из сингл-таск оффлайн рл (в данном случае с помощью CQL). Поскольку такие репрезентации позволяют выражать и ревард, и q функции как следствие → сингл-таск постановки можно свести к этим репрезентациям

окей, а что по резам? на не очень данных обгоняет стандартные зеро-шот + goal-conditioned подходы (Goal-Conditioned IQL) + на стандартных “больших” датасетах перформанс не херит. есть разве что вопросы (скорее всего касательно future work или теории за successor stuff), что фичи обгоняют measures на ExoRL & D4RL as well. интуитивно, как и заверяют авторы, это может быть связано с тем, что фичи просто более универсальны (латент семплируется, будучи не приуроченным никак к датасету и оттого степень покрытия просто может быть больше)

очень хочется респектануть за ответственный подход к экспам - и код есть, и interquantile mean посчитан, и в аппендиксе многое расписано чтобы код дополнить, и даже есть отдельный пункт с тем, что у них не получилось - а именно ни оффлайн, ни онлайн файнтюн не дали прироста по сравнению с тем как если тренироваться с нуля

👀LINK

❤1

427 views14:28

rizzearch

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

снова фаундейшн по роботике, на этот раз от Tsinghua для двух лапищ

многое окликается из синонимичных работ, что используется и здесь, но есть и свои идеи

- тоже диффузия с action chunking’ом (только без флоу матчинга в этот раз)
- в качестве текстового энкодера - т5 (что стандартно в принципе для мультимодальных моделей с диффузией) + siglip как визуал энкодер. во время обучения заметили, что одновременно их использовать не имеет смысла (визуал токены перебивают текстовые своим количеством), потому энкодеры эти используются через раз
- в претрен датасете (1млн+ траекторий, 46 датасетов с разными роботами, 21 террабайт) разные герцовки по действиям → дополнительный инпут для модели для генерализации
- для того чтобы объединить не только разные герцовки, но и разные физические действия, авторы сделали unified action space, который маппит действия со всех роботов в физические величины (из соображений проприоцепции) + паддят эти самые векторы не просто 0 (который с точки зрения физики что-то да может обозначать и портить данные), а с добавлением ван-хот энкода о том, паддинг ли это или действительное действие “0”
- так же делятся своими архитектурными соображениями по поводу QK Norm & RMSNorm (не столь новы для диффузионных трансформеров, но тот факт, что у них сходятся эмпирические наблюдения может подтверждать, что результатам можно доверять)

крутой аппендикc, даже расписаны пропорции в семплировании разных опенсурс датасетов + код вроде тоже ничего (файлы по отдельности, а так есть проблемы с запуском). еще есть вопрос по поводу файнтюна - претренили они 1млн степов на 48 H100, а потом файнтюнили на бимануальных данных 130к степов. оукей, только чекпоинт для файнтюна брали с 500к степов, зачем упоминать о том что обучали миллион степов тогда, если последний чекпоинт (который видимо деградировал из-за того, что 1б параметров относительно мало для такого размера датасета) был хуже чем используемый?

👀LINK

530 views14:08

rizzearch

Real-World Humanoid Locomotion with Reinforcement Learning

к next-token prediction уже появлялись вопросы (здесь и особенно здесь), теперь расскажу про супер крутое и супер простое применение, в данном случае next action prediction

авторы сделали каузальный трансформер (по размерам составляет 1.4 млн параметров и контекстное окно в 16 токенов, скорее всего, из соображений памяти) для гуманоида, который

- оперирует над последовательностью типа obs_0-action_0-obs_1-action_1-…obs_N → action_N
- может ходить вперед-назад и поворачиваться за один таймстеп (это называется omnidirectional locomotion)
- в зеро-шот формате сразу адаптируется от симулятора к реальным оч разным условиям (и здесь не без помощи хорошей тренировочной гпу энвы IsaacGym + авторы перепроверяли перформанс на энве от производителя)

а обучали через дистилляцию (почти) обычного рл агента, которого прогоняли через тысячи энв с разной конфигурацией - ходить-вперед назад или поворачиваться на плоской поверхности, рельефной или подъемах. этот агент оперирует над МДП, то есть ему на вход поступает инфа о параметрах среды. когда идет дистилляция в трансформер, которая выглядит как кл дивергенция вместе с добавленным рл лоссом (к нему есть вопросы по поводу ревард функции и остального, что не раскрывают авторы) для самого малюсенького трансформера, то на вход итоговой модели поступают только обсервейшны. обучение происходило через классик актор-критик ппо

при том оффлайн датасет, как говорят авторы, не создавался - оба агента тренились в on-policy режиме, для чего генерилось примерно 10 миллиардов семплов в день. оптимально ли это или нет хз, можно еще так же упомянуть, что сама архитектура трансформера может быть неоптимальной (синусоидальные позиционки, составление токена в эмбеддинг пространстве), но результат таков каков он есть

выглядит так, что авторы могут врубить его в любом месте в городе и он сможет ходить на более-менее ровной поверхности, без резких перепадов типа лестниц, что очень круто + он адаптируется к внешним возмущениям - бросить в него мяч, накинуть на него пустой или полный мусорный мешок + во втором случае он даже начинает по-новому махать руками, которые тоже завязаны на движении ногами, что добавляет какой-никакой человекоподобности. в общем, довольно яркая адаптация к контексту

👀 paper, blog

👍73

6.24K views14:39

rizzearch

Titans: Learning to Memorize at Test Time

или “теперь считать градиенты и на инференсе тоже норма”

в общем-то гугл решил (кроме написания красивой буквы Т) обобщить на аттеншн пока что существующие тест-тайм подходы, которые обращаются в высчитывание градиентов (ТТТ, DeltaNet & LongHorn)

для этого они сделали отдельный мемори ретривал модуль для аттеншн блока, который обновляет свои сведения в соответствии с понятием сюрприза - градиента произвольной лосс функции

здесь в качестве этой лосс функции выступает MSE( M(k), v ), где М и есть сетка памяти, а k & v по аналогии с трансформером проекции входящего токена на ключи и значения, которые тем не менее не связаны с qkv аттеншна

память обновляется через моменты с этим самым сюрпризом, который высчитывается и на инференсе - таким образом получается то, что они называют титаном: модуль памяти + аттеншн (ну и всякие нормализации о которых они тоже упоминают)

выходы из этого блока памяти авторы смогли по-разному объединять с аттеншном - подавать в качестве контекста, ставить непосредственно слоем (аутпут памяти является инпутом аттеншна), либо с гейтом скрещивать выводы памяти и внимания

при том обучение (которое еще нужно до высчитывания градиентов непосредственно на инференсе) можно параллелить при помощи ассоциативного скана, если принять параметры обновления моментов внутри одного чанка постоянным, а не input-dependent

+ видимо аттеншна и модуля памяти оказывается недостаточно, потому авторы добавляют в каждую последовательность в начало обучаемые input-independent токены, своего рода приор для покрытия домена таски (ну и еще это откликается с аттеншн синками, которые уже успели применить и в других сферах)

а обосновывают это неидеальностью каузальной маски, которая сподвигает смотреть на более ранние в последовательности токены (частично формулировка такая была описана и здесь)

по экспериментам все как-то очень непонятно - и вроде реалистично обгоняет трансформер и другие модели, но очень маленький скейл до 1б. обещают в новой версии подогнать под бОльший размер моделей для более честного сравнения - но какой? 7б? либо они поменяют архитектуру памяти, коей является пока что млп, потому что скейлить feedforward до таких размеров это что-то очень странное, либо скейл окажется куда меньше (либо я не понимаю полностью как выглядит такое решение по замыслам авторов)

еще очень странно по мне выглядит фраза

Titans are capable of solvin problems beyond TC, meaning that Titans are theoretically more expressive than Transformers and most modern linear recurrent models in state tracking tasks.

окей, а собираетесь ли вы какой-никакой пруф приложить к этому, если называете теоремой

имхо - написано хорошо, но пока первая версия статьи не выглядит практично как способ млпшке + аттн противостоять огромным трансформерам, выглядит так, что желательно придумать этакий блок памяти для всей модели, а не отдельного аттеншн блока (ну или очень тщательно пытаться выявить где пара-тройка таких модулей памяти окажется выгодна внутри трансформера), если без высчитывания градиентов на тесте уж действительно мы больше не справимся

👀 link, code by lucidrains

👍53❤2

701 views13:53

rizzearch

Can Large Language Models Adapt to Other Agents In-Context?

думайте сами, решайте сами - статья ли это по мульти-агентности, промптингу или ин-контекст лернингу

ну а на самом деле присутствуют довольно интересные размышления, авторы берут интуицию из модели психики (theory of mind, ToM) и даже расширяют ее на случай агентов

- есть literal ToM, когда агент может предсказывать поведение другого, в случае с ллмками на промт подаем ему ситуацию среды и свои/чужие действия → в аутпуте пишет что вероятнее всего могут сделать другие
- а есть functional ToM, когда агент непосредственно адаптируется к принятиям решений других агентов, чтобы максимизировать (минимизировать) общую награду (регрет)

so, для этого они сделали нестатичные мульти-агент энвы для ллм под камень ножницы бумага, итеративную дилемму заключенного и баталию сексов)

в итоге разделение ТоМ теории на 2 составляющие было небесполезным - ллмкам (лламе 70б в основном) действительно тяжело адаптировать свои действия под поведение других игроков, в то время как по идее она неплохо справляется с тем, чтобы предсказывать это самое поведение. при том разница между этими двумя сущностями настолько велика, что модель не может обогнать табулярный рл метод (здесь по заверениям использовали модел-бейзд Rmax, который как раз заточен под стохастичную игру - более общий сценарий МДП для мульти-агент интеракций)

еще из сайд эффектов есть момент, что при удлинении горизонта планирования (long-term strategy) перформанс только ухудшается, что даже удивительно. имхо (основываясь на размышлении авторов) inductive bias настолько не заточен под момент стохастичности от других игроков, что настолько поразительные возможности затухают с необходимостью брут форса токенов (интересное сравнение механизма аттеншна и брут форса услышал здесь)

в общем да, хайп вокруг ллм мульти-агентности раз присутствует, то почему бы и не приправить к этому что-то более-менее красивое из науки

👀LINK

3👍2

548 views14:27

About

Blog

Apps

Platform