rizzearch

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

лютая статья по диффузии в теме генерации видео, планировании, созданию рл политики и роботике - и это все про один метод! + в аппендиксе еще есть результаты time series forecasting

so, авторы объединили идею каузального моделирования следующего токена с диффузией и гайденсом → получили diffusion forcing

но все куда глубже, чем кажется

- показывают, что зашумление можно интерпретировать как обобщение маскирования - при накладывании маски мы либо делаем токен видимым, либо полностью невидимым для модели, а потокенно-зависимое зашумление добавляет степень информативности, которая сохраняется при изначальном токене
- для придания каузальности зашумляют токены во времени в разной степени (при том понятие токена зависит от задачи, чтоб подходило для видео генерации и планирования/взаимодействия в 2д лабиринтах рля)
- может адаптироваться к длинному контекст за счет легкого зашумления partial masking и не расходиться в плане генерации (в отличие от методов full sequence diffusion, где длина последовательности заранее фиксирована из-за отсутствия next-token prediction парадигмы)
- и дополнительно за счет guidance способен составлять желаемые траектории, в случае рл это получаем goal-based алгоритм, ревард для которого можно получать ансупервайзд методом

это из основного. а дополнительно эти фичи привносят разность в uncertainty между разными таймстепами - более близкое будущее намного определенее, нежели далекое, что в рл задачах и планировании синонимично в принципе определениям оптимальных value functions по Беллману

по результатам на лабиринтах вообще разносит оффлайн рл алгоритмы, теперь еще бы подумать как это все ускорять, потому что я успел устать скроллить код метода одного шага в среде, а как это на деле медленно происходит боюсь представить. только чекните эту анимацию https://boyuan.space/diffusion-forcing/static/videos/planning/planning.mp4

👀LINK

как выяснить, что авторы - рлщики? демонстрируют качество генерации видео на примерах майнкрафта и симуляторов дипмаинд лаборатории

4❤1👍11

297 views16:38

rizzearch

In-Context Reinforcement Learning for Variable Action Spaces

мы уже ни раз писали про восходящую область ин-контекст рля, и эта папира не является исключением в расширении такой крутоты

изначально авторы поднимают тот момент, что вроде область называется ин-контекст, а многое тут связано c in-weights learning понятием. например, если вы переставите на тесте порядок действий, то все поломается (в лучших традициях классической задачи классификации и того принципа, что за каждым классом сохранено определенное порядковое число)

но этим не заканчиваются проблемы. когда бы ни были эти алгоритмы произведены в реальные сценарии, они (почти) смогут адаптироваться к новым задачам, но с тем же сетом действий. что по идее не совсем уж и реалистично. и авторы решают эту проблему, показывая сценарии, что во время евала некоторые действия могут быть скрыты, перемешаны (при том в разных пропорциях относительно того, что было на трейне)

а решается это довольно практично, без придумывания своей теории - за каждым действием фиксируется свой рандомный вектор. и эти векторы подаются на каждом степе в качестве контекста для того, чтобы трансформер мог поставить соответствия между векторами и (интуитивно) какую роль они выполняют в среде. и это работает! (при том лучше всего показывает свой результат ортогональная инициализация векторов, что не далеко от интуиции упрощенной разделимости векторов и действиями, которые за ними скрываются)

правда пока еще не решен питфолл в том, чтобы количество действий по ходу тестового времени увеличивалось, должно быть заранее известно количество максимальное + действия должны быть одной природы (либо дискретными либо непрерывными). но и без этого эта огромная работа, которая в прямом смысле открывает пласт на новую подобласть современного рля (имхо)

👀LINK

by the way, нас читает первый автор этой работы, что очень приятно!

UPD: и не только первый

❤544

314 views07:27

rizzearch

Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning

another extending for in-context reinfrocement learning

только теперь авторы питают интуицию из учения о социальном обучении живых существ (людей), а именно о понятии cultural accumulation - что же это? если взять цитату из статьи с пабмеда, то получим

Cultural accumulation occurs if the amount of cultural knowledge attained in a population in a given generation increases with the amount of cultural knowledge available in the previous generation.

проще говоря, есть группа алгоритмов, которые следующему “поколению” переносят свой максимально достигнутый результат, чтобы в общем по задаче шло улучшение.

авторы сделали такую вещь в ин-контекст рл через мульти-агентное обучение - следующее поколение агентов имеет доступ статическому к поведению предыдущих агентов (которые живут кстати один эпизод для того, чтобы изолировать условие обучения ин-контекст), а основная модель (S5) еще и видит действия суб-оптимального оракула ⇒ сохраняется мульти-агентность, контекст имеет степень случайности и обучаемости + тренировочные семплы оверолл не сбиваются с достижения цели за счет доступа к оракулу

так же есть in-weights learning сетап, где агенты живут не эпизод, а все время обучения

сходимость к оптимальной награде ин-контекст мульти-агента происходит гораздо быстрее классической парадигмы, только дело в том, что они эксперименты проводили на своих же средах. просто до них пока не было развития в этой ветви - область пока настолько нова (как и рл), что только недавно выложили первый адекватный большой датасет для единого знаменателя следующих работ (подробнее про него можно здесь прочитать)

ждем развития событий

👀LINK

54🔥3

305 views11:03

rizzearch

UPD: и не только первый

This media is not supported in your browser

VIEW IN TELEGRAM

265 views11:18

rizzearch

A Definition of Continual Reinforcement Learning

верхнеуровнево процесс появления АИ алгоритмов можно описать как обучение выполнять более лучшие решения исходя из собственного опыта. этим можно описать и градиентный спуск, но поближе все-таки формулировка к обучению с подкреплением

но как в анекдоте, есть один нюанс - в настоящих задачах цель, награда, супервайзд лейблы да и в целом какое-то таргет распределение зафиксировано - достигли какого-то пункта, и на опыте учиться более не надо

применимо не ко всем задачам из реальности, даже к меньшей части всех задач → появилось понятие континуал лернинг (и континуал рл, о котором мы писали здесь), которое интуитивно понятно: есть таска, обучаешься на ней норм результату, таска начинает постепенно или резко меняться и стоит переобучиваться вновь (желательно с сохранением опыта о предыдущих тасках)

авторы решили формализовать это дело и перейти от рл к континуал рл посредством перехода от задачи по нахождению решения к задаче бесконечной возможности адаптации к меняющимся условиям неявным поиском оптимальности

более того, мульти-таск рл и континуал супервайзд лернинг по их определениям становится частным случаем континуал рл (как и в принципе супервайзд лернинг можно назвать частным и упрощенным случаем рл)

имхо, в ближайшем будущем темпы развития в континуал сетапе будут нарастать, потому что потенциально упрощает дл область как в ресерче, так и в бизнесе (если это будет работать)

👀LINK

👍5❤1🔥1

284 views15:30

rizzearch

Refusal in Language Models Is Mediated by a Single Direction

хотел написать какое-то смешное вступление про, как сейчас забавно обходить можно меры защиты против ЛЛМ и генерить что-то вредное, опасное и всякое такое; и какой интересной и важной задачей является отказ в генерации на такие запросы. но описание вступления - уже вступление

так вот авторы, в свою очередь, задались вопросом - а можно ли на внутреннем уровне модели отличать вредоносные запросы от безопасных? как оказывается, да. если по аналогии с ворд2век свойством Россия - Москва + Париж = Франция поиграть с активациями слоев, то можно найти вектор, который описывает понятие вредоносности - через разницу усредненных векторов активаций вредных и обычных промптов

добавляют/вычитают этот вектор к активациям - и реально работает, при том (почти) безотказно и не влияет на остальные свойства модели в генерации связного, релевантного, серо-буро-малинового текста

в качестве евала, является ли промпт безопасным (safety_score), использовали затюненную на это дело лламу чтобы результаты были как можно точнее, в качестве метрики использовали log-odds ratio от ее аутпутов. так же считали, отказывалась ли модель отвечать (refusal_score), потому что бывают сценарии, когда модель не отказывается ответить, но при этом ниче опасного не выводит

но добавлять постоянно вектор к активациям не оч удобно. авторы пошли дальше и сформулировали ортогонализацию весов с помощью этого вектора → убираем фактор вредосности из самих параметров и модель начинает отказываться от запросов-плохишей. по метрикам и скейлу моделек выглядит все очень вкусно и появляется желание самому такое заимплементить в своих задачах (потому что код есть, но для такой идеи негромоздким его сделать вряд ли возможно)

при том один вектор отказа от генерации вреда можно найти не только для чат-моделей, но и для обычных лм моделей ⇒ это больше относится к понятию языка в общем и/или пространству параметров, семантическому пространству или чему-либо еще. на практике можно спекулировать, что еще очень много таких векторов можно найти для желаемых целей (и этого будет достаточно для изменения генерации в нужную сторону)

но, несмотря на то, что добавление такой ортогонализации (вроде наверянка) не влияет на другие способности ЛЛМок и напрямую помогает с реджектом вредоносных запросов, если задать мета-вопросы, какие промпты нужно принять/отклонить, начинаются какие-то обтекаемые и непоследовательные ответы (что оптимизировали, по тому результат и улучшился, а не прибавилось понимание модели о понятии вреда в более сложных рассуждениях)

👀LINK

611

380 views14:11

rizzearch

Baba Is AI: Break the Rules to Beat the Benchmark

обучение с подкреплением, пожалуй, ближе всех приближено к концепции того, а как именно обучается человек (в детском возрасте) сквозь trial-and-error, без супервайзд лейблов. однако область молода, и в основном алгоритмы стараются решить somewhat несложные задачи (одну или несколько) в рамках зафиксированных правил. однако как писал Айзек Азимов:

Your assumptions are your windows on the world. Scrub them off every once in a while, or the light won’t come in.

и человек был бы не человек, если бы не взаимодействовал с миром, одновременно меняя правила игры. вот и авторы решили сделать такую же сложную среду

что же пытались отследить?

- возможность распознать, что можно взаимодействовать с определенными объектами и тем самым менять правила игры, чтобы получить в конце золотую морковку
- игнорировать отвлекающие факторы, которые не помогут дойти до конечной цели
- совмещать текст с визуальной репрезентацией
- комбинировать предыдущие правила для достижения новой цели

а реализовано это через 2д карту, где на некоторых блоках есть слова → составляя комбинацию слов “door is win” можно получить награду, достигнув двери (иначе никак). или же сломав кубики со словами “wall is stop” стены более не становятся преградой и можно жоско хаслить и выигрывать

интересное и нетривиально сочетание идей вылилось в такой метод проверки умноты модели, котоый точно запомнится и поможет в развитии области

статья читается быстро и свежо, даже по диагонали можно четко понять, что именно делали авторы и что получили

👀LINK

6❤5🔥2👍1

380 views18:27

About

Blog

Apps

Platform