rizzearch

Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy

одна из больших проблем, от которой страдают рл алгоритмы в усложненных и более реалистичных средах - partial observability (in POMDPs), которая обозначает, что инпута на конкретном таймстепе не хватает модели для совершения оптимального действия → надо использовать каким-то образом память (либо обрабатывать несколько таймстепов, либо создавать отдельный буффер с репрезентациями и тд и тп)

далее, в рл часто используют методы Temporal Difference learning (про которые мы подробно упоминали здесь и с которыми связана еще одна крутая папира). TD методы это база Бытия, ибо они очень тесно связаны с дофаминергической системой нашего мозга (всплеск дофамина коррелирует с ошибкой предсказания награды, что по сути и моделирует TD)

но в вопросе partial observability они в сыром виде начинают хромать. есть альтернатива - monte carlo returns (MC), где мы ниче не моделируем и напрямую считаем реварды до конца чего бы то ни было. не оч эффективно → придумали трейдофф в виде TD(lambda), где lambda контролирует степень между TD & MC

и как есть трейдофф к TD(lambda), так же есть разные степени частичной наблюдаемости данных (partial observability), и авторы смогли вывести дифференцируемую метрику, которая определяет степень частичной наблюдаемости (или non-Markovianity как хотите называйте) - по сути две функции ценности с разными lambda, и она отлично различает МДП от ПОМДП

а поскольку эта штука дифференцируема - ее можно использовать в качестве доп лосса на “привитие” нейронки мдп свойств (с учетом, что как-то реализована память для помдп сеттинга) в рамках задач, которые это не предусматривают. получаем лучшую интерпретируемость и результат. вкусно? - вкусно.

правда эксперименты пока на средах небольшого скейла, посмотрим, как это приживется в более емких задачах

👀LINK

431

338 views17:38

rizzearch

Towards General-Purpose In-Context Learning Agents

yet another paper on область, которую мало кто понимает, но гугл ?почему-то? делает патенты на ее счет. а именно статья про In-context Meta-Reinforcement Learning от пхд студента шмидхубера (и самого шмидхубера)

so, какие идеи новые они привнесли для расширения картины?

- по-другому собирают транзишны для подачи в трансформер
- обучают на оч разных тасках, я бы сказал гетерогенных (от картпола до муджоко)
- повышают вариативность и обобщающие способности путем рандомных проекций (которые для удобства еще и приведены к одному размеру по всем задачам), что уже делалось здесь
- + в задаче моделирования последовательности действий делают интервал между таймстепами для контекста, непосредственно та подпоследовательность, которая подается в трансформер, и таргет действиями. то есть авторы предсказывают не следующее действие относительно контекста (как классически делают next-token prediction в языковом моделировании) а с небольшим разрывом вправо, который тем не менее отвечает за более быструю сходимость трансформера как агента (главный контрибьюшн статьи имхо)

результаты норм, усреднены аж по 32 сидам по классическим средам. что ок

плохо только что кода нет и разъяснений по поводу того, как именно применяются рандомные линейные проекции на техническом уровне и как от них раскодировать аутпуты модели (которые приведены к одной размерности для удобства, но для разных тасок природа действий может быть совершенно разной)

👀LINK

👍211

377 views17:52

rizzearch

PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training

йеп, снова удлиняем контекст до неприлично огромных размеров, коих при обучении не подразумевалось

итак, авторы поднимают проблему файнтюна на более длинную последовательность ллмок - чревато оод моментами да и сложностью по памяти и остальной стабилизации во время обучения

а какие есть альтернативы? попробовать position interpolation (который тоже может быть нестабилен, о чем мы упоминали здесь) либо же брать рандомные позиции из удлиненной последовательности и составлять из этого более короткую (что чревато сильной разницей между соседними позициями и потому потерей непрерывности языка)

предлагают золотую середину - разбиваем длинную последовательность на чанки, внутри которых подпоследовательности не будут разрезаться (получаем непрерывные подпоследовательности), а вот сами эти чанки друг от друга находиться с каким-то пробелом (skipping bias), что позволит покрыть длинную последовательость от начала до конца (неполностью, но хоть как-то). для каждого трейн семпла можно формировать разные чанки с разными пробелами, что повышает покрытие

поскольку фактическая длина последовательности, которая подается в трансформер, не меняется, то и потребление по памяти остается неизменным ⇒ можно увеличивать длину этим методом настолько, насколько идея способна будет работать - при более-менее сносном покрытии всех позиций удлиненного контекста и прочем, о чем в аппендиксе прикольно приведен расчет вероятности покрытия позиций при увеличении чанков + сравнение с полностью рандомным семплом позиций (по эмпирике выглядит так, что сильно отстает)

очень сомнителен только момент в том, что авторы предполагают раздельное семлпирование токенов позиционных и текстовых - они не сцеплены, и на практике будут часто появляться позиции, текстовых токенов которых нет, и наоборот. имхо это ломает непрерывность подпоследовательностей внутри чанков, а разница в перформансе несущественна, in my humble opinion, потому что трансформер может выучивать позиции и без позиционной кодировки

еще не понял по прочтению, как авторы подразумевают совершение инференса + в прочтении кода тоже неочевидно как и что там устроено. сильный косяк - неужели так же скользящим окном без каких-либо модификаций или что-то добавлено? но что? или ничего? вообще ни слова об этом

👀LINK

P.S.
позабавила фраза в абстракте

Notably, our method can potentially support infinite length, limited only by memory usage in inference.

мол, так то наш метод и на бесконечный контекст распространяется (трансформер → рнн/ссм), просто это проблемы другой концепции - памяти в хардвейре, границы нашей идеи неисповедимы и лишь ограничены современными технологиями

211

276 views14:42

rizzearch

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

лютая статья по диффузии в теме генерации видео, планировании, созданию рл политики и роботике - и это все про один метод! + в аппендиксе еще есть результаты time series forecasting

so, авторы объединили идею каузального моделирования следующего токена с диффузией и гайденсом → получили diffusion forcing

но все куда глубже, чем кажется

- показывают, что зашумление можно интерпретировать как обобщение маскирования - при накладывании маски мы либо делаем токен видимым, либо полностью невидимым для модели, а потокенно-зависимое зашумление добавляет степень информативности, которая сохраняется при изначальном токене
- для придания каузальности зашумляют токены во времени в разной степени (при том понятие токена зависит от задачи, чтоб подходило для видео генерации и планирования/взаимодействия в 2д лабиринтах рля)
- может адаптироваться к длинному контекст за счет легкого зашумления partial masking и не расходиться в плане генерации (в отличие от методов full sequence diffusion, где длина последовательности заранее фиксирована из-за отсутствия next-token prediction парадигмы)
- и дополнительно за счет guidance способен составлять желаемые траектории, в случае рл это получаем goal-based алгоритм, ревард для которого можно получать ансупервайзд методом

это из основного. а дополнительно эти фичи привносят разность в uncertainty между разными таймстепами - более близкое будущее намного определенее, нежели далекое, что в рл задачах и планировании синонимично в принципе определениям оптимальных value functions по Беллману

по результатам на лабиринтах вообще разносит оффлайн рл алгоритмы, теперь еще бы подумать как это все ускорять, потому что я успел устать скроллить код метода одного шага в среде, а как это на деле медленно происходит боюсь представить. только чекните эту анимацию https://boyuan.space/diffusion-forcing/static/videos/planning/planning.mp4

👀LINK

как выяснить, что авторы - рлщики? демонстрируют качество генерации видео на примерах майнкрафта и симуляторов дипмаинд лаборатории

4❤1👍11

297 views16:38

rizzearch

In-Context Reinforcement Learning for Variable Action Spaces

мы уже ни раз писали про восходящую область ин-контекст рля, и эта папира не является исключением в расширении такой крутоты

изначально авторы поднимают тот момент, что вроде область называется ин-контекст, а многое тут связано c in-weights learning понятием. например, если вы переставите на тесте порядок действий, то все поломается (в лучших традициях классической задачи классификации и того принципа, что за каждым классом сохранено определенное порядковое число)

но этим не заканчиваются проблемы. когда бы ни были эти алгоритмы произведены в реальные сценарии, они (почти) смогут адаптироваться к новым задачам, но с тем же сетом действий. что по идее не совсем уж и реалистично. и авторы решают эту проблему, показывая сценарии, что во время евала некоторые действия могут быть скрыты, перемешаны (при том в разных пропорциях относительно того, что было на трейне)

а решается это довольно практично, без придумывания своей теории - за каждым действием фиксируется свой рандомный вектор. и эти векторы подаются на каждом степе в качестве контекста для того, чтобы трансформер мог поставить соответствия между векторами и (интуитивно) какую роль они выполняют в среде. и это работает! (при том лучше всего показывает свой результат ортогональная инициализация векторов, что не далеко от интуиции упрощенной разделимости векторов и действиями, которые за ними скрываются)

правда пока еще не решен питфолл в том, чтобы количество действий по ходу тестового времени увеличивалось, должно быть заранее известно количество максимальное + действия должны быть одной природы (либо дискретными либо непрерывными). но и без этого эта огромная работа, которая в прямом смысле открывает пласт на новую подобласть современного рля (имхо)

👀LINK

by the way, нас читает первый автор этой работы, что очень приятно!

UPD: и не только первый

❤544

314 views07:27

rizzearch

Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning

another extending for in-context reinfrocement learning

только теперь авторы питают интуицию из учения о социальном обучении живых существ (людей), а именно о понятии cultural accumulation - что же это? если взять цитату из статьи с пабмеда, то получим

Cultural accumulation occurs if the amount of cultural knowledge attained in a population in a given generation increases with the amount of cultural knowledge available in the previous generation.

проще говоря, есть группа алгоритмов, которые следующему “поколению” переносят свой максимально достигнутый результат, чтобы в общем по задаче шло улучшение.

авторы сделали такую вещь в ин-контекст рл через мульти-агентное обучение - следующее поколение агентов имеет доступ статическому к поведению предыдущих агентов (которые живут кстати один эпизод для того, чтобы изолировать условие обучения ин-контекст), а основная модель (S5) еще и видит действия суб-оптимального оракула ⇒ сохраняется мульти-агентность, контекст имеет степень случайности и обучаемости + тренировочные семплы оверолл не сбиваются с достижения цели за счет доступа к оракулу

так же есть in-weights learning сетап, где агенты живут не эпизод, а все время обучения

сходимость к оптимальной награде ин-контекст мульти-агента происходит гораздо быстрее классической парадигмы, только дело в том, что они эксперименты проводили на своих же средах. просто до них пока не было развития в этой ветви - область пока настолько нова (как и рл), что только недавно выложили первый адекватный большой датасет для единого знаменателя следующих работ (подробнее про него можно здесь прочитать)

ждем развития событий

👀LINK

54🔥3

305 views11:03

About

Blog

Apps

Platform