rizzearch

Horizon Reduction Makes RL Scalable

берклийцы сделали бенчмарк OGBench для goal-conditioned RL, где не смогли решить сложные таски → надо что-то изменить, но что? сначала попробовали просто обучаться на бОльшем датасете и в принципе масштабироваться, как делали это в других областях, что решало проблему

We also note that our 1B-sized datasets contain about 1M trajectories and 10M atomic behaviors in manipulation environments, which is similar or even larger than one of the largest robotics datasets to date

но не помогло, сколько экспериментов ни проводи → авторы вспоминают, что эти таски сложны из-за бОльшего горизонта достижения цели, на котором сложнее фиттить value функцию из-за смещенности таргета (по построению) и актора в том числе, ибо стейты сложнее матчить с оптимальными действиями

и здесь авторы стакают много рабочих идей, чтобы заработало:
- добавляют иерархичность в модели (state → subgoal → action), потому что она позволяет размыть удлиненный горизонт решения таски на 2 уровня: на каждом из уровне горизонт получается короче
- политики (high- & low-level как здесь в роботике) обучаются в behavior-cloning стиле на флоу матчинге
- на базе n-step sarsa, но с high-level policy получается SHARSA + есть еще вариант Double SHARSA, где семплируют несколько аутпутов не только у верхне-, но еще и у нижнеуровневой модели
- а Q-функции еще и допом обучаются через кросс энтропию (бинарную, а не другую)

в принципе статью можно считать полезной по экспериментальной базе, где (по их заверениям) эти идеи в комбинации улучшают результат, однако вопросы вызывает пункт в аппендиксе, где авторы пробовали прикрутить трансформер к short-horizon методам → как так получилось, что введение размерности времени в архитектуру не меняет ее перформанс относительно задачи с длинным горизонтом

👀 paper, code

❤32

1.11K views15:42

rizzearch

SRT-H: A Hierarchical Framework for Autonomous Surgery via Language Conditioned Imitation Learning

команда из Стенфорда и Джона Хопкинса продолжают масштабирование делать робота для хирургических операций на базе трансформера

сейчас авторы в бОльшей степени конкретизировали задачу - удаление желчного пузыря (холецистэктомия) через формализацию в общей сложности 17 таск (захват желчного пузыря, клипсы, разрези для протока и артерии)

а масштабирование пайплайна же состоит в добавлении иерархичности моделек - high- & low-level policies с возможностью человека вмешаться в процесс инференса. вторая модель предиктит непосредственно действия, в то время как первая (высокоуровневая) предиктит следующую фазу операции, инструкцию на коррекцию движения и нужно ли сейчас попытаться повторить неудачное ранее действие (recovery mode)

собрали в качестве демонстраций 17 часов траекторий с 34 желчными пузырями свиней двумя аннотаторами, при том отобрали такие семплы, где нет проблем с определением желчного протока и артерии (они не пересекаются и артерия не разветвляется). обучали 100 часов на RTX 4090, 72M параметров, еще добавили DAGger (Dataset Aggregation), когда собранные политикой семплы отмечаются экспертными действиями + во время обучения high-level политика предиктит инструкцию на 0.5 секунды вперед для того, чтобы она лучше справлялась с переходами между тасками

выглядит круто, при том на 8 новых пузырях репортят 100% success rate без вмешательства человека

👀 paper, demo

❤4👍3🔥2

1.38K views15:49

rizzearch

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

меня

упомянул

Борис среди классных каналов, считаю своего рода успехом. более того, я был удостоен чести, что ко мне единственному придрались - по мне тоже ачивка

❤️

- за отсутствие заглавных букв
Ну, что ж..

🤩

Вопрос токенизации для языковых (и не только) моделей стал более популярным после выхода Byte Latent Transformer (BLT), где токены заменялись на семантические “патчи”, которые разделялись предиктами отдельной модели (она предсказывала энтропию в авторегрессивном стиле) + SpaceByte использует “более натуральные” символы в английском для более семантичного разделения (e.g., /, :, ])

Но Альберт Гу, по его же словам, хотел чего-то более эстетичного и укладывающегося в end2end пайплайн - дифференцируемый чанкинг, который не только может быть применим и к языкам другой природы (китайский, код, днк), так еще и иметь интерпретируемость (и точно не содержать информацию о следующем байте)

И вот как сейчас выглядит версия H-Net с роутингом по аналогии МоЕ:
- Есть проекции q/k для каждого символа (чанка с предыдущей стадии), через которые определяется их схожесть
- Когда же между соседними репрезентациями наблюдается снижение в косинусном расстоянии (по трешхолду в 0.5), то считаем, что граница чанка определена
- Таким образом получаем и “токены” более осмысленно разграниченными, и длину последовательности сокращаем. При том за репрезентацию всего чанка берется первый эмбеддинг чанка (есть абляции на другие виды пулинга, результат не меняется)
- Далее основная сеть, которая суть заключает в себе миксеры на уровне последовательности по типу трансформер блока или мамбы2
- А дечанкинг (он же апсемплинг) дублирует репрезентацию чанка, пока не встретит новый, чтобы потом дублировать новый эмбеддинг с домножением на уверенность роутинг модуля

Все это приправляется EMA, STE и еще некоторыми добавлениями в архитектуру (доп нормализации и проекции, разные лернинг рейты под соответствующую глубину модулей) для стабилизации градиентного флоу в столь дискретном сетапе. Но, видимо, ничего не работает без load balancing как в МоЕ, который выставляет таргет количество символов, которое должно залетать в чанк (экспериментировали здесь с 6)

Первичные эксперименты выставили на длине в 8192 utf-8 символа по моделям в 760M & 1.3B + на китайском и коде проверили, сравнивали по FLOPS'ам с бейзлайнами (кстати с BLT нет результатов ибо они не захотели тратить время и компьют на трейн доп модели к основной). Визуализация границ чанков во многих местах выглядит интересно, часто попадает в нужные разделения, иногда граница лежит на какой-то хрени → не все так гладко и путь наименьшего сопротивления в обучении все еще ведет к костылям

Часть нарратива статьи еще посвящена, как мамба обыгрывает трансформер (ожидаемо от автора мамбы), учитывая предыдущий контекст с заменой аттеншна на ссм и все такое, но сейчас авторы больше смещены на концепцию гибрида (что вызывает вопросы насчет эстетики) из-за трейдоффа между ретривалом и эффективностью: аттеншн головы в тандеме с мамба блоками начинают выполнять функции ближе всего к ретривал головам

Есть еще интересная секция про то, как дистиллить BPE бекбоны в чанкинг архитектуры, чтобы не полетели эмбеддинги, завязанные под токены - добавляют лоссы на матчинг векторов со своим начальным состоянием и пропускают начала токенов через сеть. Но пока непонятно

Очень интересная работа, которая, конечно, оставляет больше вопросов (в хорошем смысле) - как много можно застакать эти слои чанкинга, что будет по превосходству мамбы если эксперименты проведет не фанат мамбы, критичен ли динамический сабсемплинг последовательной при трейне на бОльшем скейле, что по другим модальностям и все такое

👀 paper, code

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍2

1.45K views15:07

About

Blog

Apps

Platform