In-Context Reinforcement Learning for Variable Action Spaces
мы уже ни раз писали про восходящую область ин-контекст рля, и эта папира не является исключением в расширении такой крутоты
изначально авторы поднимают тот момент, что вроде область называется ин-контекст, а многое тут связано c in-weights learning понятием. например, если вы переставите на тесте порядок действий, то все поломается (в лучших традициях классической задачи классификации и того принципа, что за каждым классом сохранено определенное порядковое число)
но этим не заканчиваются проблемы. когда бы ни были эти алгоритмы произведены в реальные сценарии, они (почти) смогут адаптироваться к новым задачам, но с тем же сетом действий. что по идее не совсем уж и реалистично. и авторы решают эту проблему, показывая сценарии, что во время евала некоторые действия могут быть скрыты, перемешаны (при том в разных пропорциях относительно того, что было на трейне)
а решается это довольно практично, без придумывания своей теории - за каждым действием фиксируется свой рандомный вектор. и эти векторы подаются на каждом степе в качестве контекста для того, чтобы трансформер мог поставить соответствия между векторами и (интуитивно) какую роль они выполняют в среде. и это работает! (при том лучше всего показывает свой результат ортогональная инициализация векторов, что не далеко от интуиции упрощенной разделимости векторов и действиями, которые за ними скрываются)
правда пока еще не решен питфолл в том, чтобы количество действий по ходу тестового времени увеличивалось, должно быть заранее известно количество максимальное + действия должны быть одной природы (либо дискретными либо непрерывными). но и без этого эта огромная работа, которая в прямом смысле открывает пласт на новую подобласть современного рля (имхо)
👀LINK
by the way, нас читает первый автор этой работы, что очень приятно!
UPD: и не только первый
мы уже ни раз писали про восходящую область ин-контекст рля, и эта папира не является исключением в расширении такой крутоты
изначально авторы поднимают тот момент, что вроде область называется ин-контекст, а многое тут связано c in-weights learning понятием. например, если вы переставите на тесте порядок действий, то все поломается (в лучших традициях классической задачи классификации и того принципа, что за каждым классом сохранено определенное порядковое число)
но этим не заканчиваются проблемы. когда бы ни были эти алгоритмы произведены в реальные сценарии, они (почти) смогут адаптироваться к новым задачам, но с тем же сетом действий. что по идее не совсем уж и реалистично. и авторы решают эту проблему, показывая сценарии, что во время евала некоторые действия могут быть скрыты, перемешаны (при том в разных пропорциях относительно того, что было на трейне)
а решается это довольно практично, без придумывания своей теории - за каждым действием фиксируется свой рандомный вектор. и эти векторы подаются на каждом степе в качестве контекста для того, чтобы трансформер мог поставить соответствия между векторами и (интуитивно) какую роль они выполняют в среде. и это работает! (при том лучше всего показывает свой результат ортогональная инициализация векторов, что не далеко от интуиции упрощенной разделимости векторов и действиями, которые за ними скрываются)
правда пока еще не решен питфолл в том, чтобы количество действий по ходу тестового времени увеличивалось, должно быть заранее известно количество максимальное + действия должны быть одной природы (либо дискретными либо непрерывными). но и без этого эта огромная работа, которая в прямом смысле открывает пласт на новую подобласть современного рля (имхо)
👀LINK
UPD: и не только первый
❤5 4 4
Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning
another extending for in-context reinfrocement learning
только теперь авторы питают интуицию из учения о социальном обучении живых существ (людей), а именно о понятии cultural accumulation - что же это? если взять цитату из статьи с пабмеда, то получим
проще говоря, есть группа алгоритмов, которые следующему “поколению” переносят свой максимально достигнутый результат, чтобы в общем по задаче шло улучшение.
авторы сделали такую вещь в ин-контекст рл через мульти-агентное обучение - следующее поколение агентов имеет доступ статическому к поведению предыдущих агентов (которые живут кстати один эпизод для того, чтобы изолировать условие обучения ин-контекст), а основная модель (S5) еще и видит действия суб-оптимального оракула ⇒ сохраняется мульти-агентность, контекст имеет степень случайности и обучаемости + тренировочные семплы оверолл не сбиваются с достижения цели за счет доступа к оракулу
так же есть in-weights learning сетап, где агенты живут не эпизод, а все время обучения
сходимость к оптимальной награде ин-контекст мульти-агента происходит гораздо быстрее классической парадигмы, только дело в том, что они эксперименты проводили на своих же средах. просто до них пока не было развития в этой ветви - область пока настолько нова (как и рл), что только недавно выложили первый адекватный большой датасет для единого знаменателя следующих работ (подробнее про него можно здесь прочитать)
ждем развития событий
👀LINK
another extending for in-context reinfrocement learning
только теперь авторы питают интуицию из учения о социальном обучении живых существ (людей), а именно о понятии cultural accumulation - что же это? если взять цитату из статьи с пабмеда, то получим
Cultural accumulation occurs if the amount of cultural knowledge attained in a population in a given generation increases with the amount of cultural knowledge available in the previous generation.
проще говоря, есть группа алгоритмов, которые следующему “поколению” переносят свой максимально достигнутый результат, чтобы в общем по задаче шло улучшение.
авторы сделали такую вещь в ин-контекст рл через мульти-агентное обучение - следующее поколение агентов имеет доступ статическому к поведению предыдущих агентов (которые живут кстати один эпизод для того, чтобы изолировать условие обучения ин-контекст), а основная модель (S5) еще и видит действия суб-оптимального оракула ⇒ сохраняется мульти-агентность, контекст имеет степень случайности и обучаемости + тренировочные семплы оверолл не сбиваются с достижения цели за счет доступа к оракулу
так же есть in-weights learning сетап, где агенты живут не эпизод, а все время обучения
сходимость к оптимальной награде ин-контекст мульти-агента происходит гораздо быстрее классической парадигмы, только дело в том, что они эксперименты проводили на своих же средах. просто до них пока не было развития в этой ветви - область пока настолько нова (как и рл), что только недавно выложили первый адекватный большой датасет для единого знаменателя следующих работ (подробнее про него можно здесь прочитать)
ждем развития событий
👀LINK
A Definition of Continual Reinforcement Learning
верхнеуровнево процесс появления АИ алгоритмов можно описать как обучение выполнять более лучшие решения исходя из собственного опыта. этим можно описать и градиентный спуск, но поближе все-таки формулировка к обучению с подкреплением
но как в анекдоте, есть один нюанс - в настоящих задачах цель, награда, супервайзд лейблы да и в целом какое-то таргет распределение зафиксировано - достигли какого-то пункта, и на опыте учиться более не надо
применимо не ко всем задачам из реальности, даже к меньшей части всех задач → появилось понятие континуал лернинг (и континуал рл, о котором мы писали здесь), которое интуитивно понятно: есть таска, обучаешься на ней норм результату, таска начинает постепенно или резко меняться и стоит переобучиваться вновь (желательно с сохранением опыта о предыдущих тасках)
авторы решили формализовать это дело и перейти от рл к континуал рл посредством перехода от задачи по нахождению решения к задаче бесконечной возможности адаптации к меняющимся условиям неявным поиском оптимальности
более того, мульти-таск рл и континуал супервайзд лернинг по их определениям становится частным случаем континуал рл (как и в принципе супервайзд лернинг можно назвать частным и упрощенным случаем рл)
имхо, в ближайшем будущем темпы развития в континуал сетапе будут нарастать, потому что потенциально упрощает дл область как в ресерче, так и в бизнесе (если это будет работать)
👀LINK
верхнеуровнево процесс появления АИ алгоритмов можно описать как обучение выполнять более лучшие решения исходя из собственного опыта. этим можно описать и градиентный спуск, но поближе все-таки формулировка к обучению с подкреплением
но как в анекдоте, есть один нюанс - в настоящих задачах цель, награда, супервайзд лейблы да и в целом какое-то таргет распределение зафиксировано - достигли какого-то пункта, и на опыте учиться более не надо
применимо не ко всем задачам из реальности, даже к меньшей части всех задач → появилось понятие континуал лернинг (и континуал рл, о котором мы писали здесь), которое интуитивно понятно: есть таска, обучаешься на ней норм результату, таска начинает постепенно или резко меняться и стоит переобучиваться вновь (желательно с сохранением опыта о предыдущих тасках)
авторы решили формализовать это дело и перейти от рл к континуал рл посредством перехода от задачи по нахождению решения к задаче бесконечной возможности адаптации к меняющимся условиям неявным поиском оптимальности
более того, мульти-таск рл и континуал супервайзд лернинг по их определениям становится частным случаем континуал рл (как и в принципе супервайзд лернинг можно назвать частным и упрощенным случаем рл)
имхо, в ближайшем будущем темпы развития в континуал сетапе будут нарастать, потому что потенциально упрощает дл область как в ресерче, так и в бизнесе (если это будет работать)
👀LINK
👍5❤1🔥1
Refusal in Language Models Is Mediated by a Single Direction
хотел написать какое-то смешное вступление про, как сейчас забавно обходить можно меры защиты против ЛЛМ и генерить что-то вредное, опасное и всякое такое; и какой интересной и важной задачей является отказ в генерации на такие запросы. но описание вступления - уже вступление
так вот авторы, в свою очередь, задались вопросом - а можно ли на внутреннем уровне модели отличать вредоносные запросы от безопасных? как оказывается, да. если по аналогии с ворд2век свойством Россия - Москва + Париж = Франция поиграть с активациями слоев, то можно найти вектор, который описывает понятие вредоносности - через разницу усредненных векторов активаций вредных и обычных промптов
добавляют/вычитают этот вектор к активациям - и реально работает, при том (почти) безотказно и не влияет на остальные свойства модели в генерации связного, релевантного, серо-буро-малинового текста
в качестве евала, является ли промпт безопасным (safety_score), использовали затюненную на это дело лламу чтобы результаты были как можно точнее, в качестве метрики использовали log-odds ratio от ее аутпутов. так же считали, отказывалась ли модель отвечать (refusal_score), потому что бывают сценарии, когда модель не отказывается ответить, но при этом ниче опасного не выводит
но добавлять постоянно вектор к активациям не оч удобно. авторы пошли дальше и сформулировали ортогонализацию весов с помощью этого вектора → убираем фактор вредосности из самих параметров и модель начинает отказываться от запросов-плохишей. по метрикам и скейлу моделек выглядит все очень вкусно и появляется желание самому такое заимплементить в своих задачах (потому что код есть, но для такой идеи негромоздким его сделать вряд ли возможно)
при том один вектор отказа от генерации вреда можно найти не только для чат-моделей, но и для обычных лм моделей ⇒ это больше относится к понятию языка в общем и/или пространству параметров, семантическому пространству или чему-либо еще. на практике можно спекулировать, что еще очень много таких векторов можно найти для желаемых целей (и этого будет достаточно для изменения генерации в нужную сторону)
но, несмотря на то, что добавление такой ортогонализации (вроде наверянка) не влияет на другие способности ЛЛМок и напрямую помогает с реджектом вредоносных запросов, если задать мета-вопросы, какие промпты нужно принять/отклонить, начинаются какие-то обтекаемые и непоследовательные ответы (что оптимизировали, по тому результат и улучшился, а не прибавилось понимание модели о понятии вреда в более сложных рассуждениях)
👀LINK
хотел написать какое-то смешное вступление про, как сейчас забавно обходить можно меры защиты против ЛЛМ и генерить что-то вредное, опасное и всякое такое; и какой интересной и важной задачей является отказ в генерации на такие запросы. но описание вступления - уже вступление
так вот авторы, в свою очередь, задались вопросом - а можно ли на внутреннем уровне модели отличать вредоносные запросы от безопасных? как оказывается, да. если по аналогии с ворд2век свойством Россия - Москва + Париж = Франция поиграть с активациями слоев, то можно найти вектор, который описывает понятие вредоносности - через разницу усредненных векторов активаций вредных и обычных промптов
добавляют/вычитают этот вектор к активациям - и реально работает, при том (почти) безотказно и не влияет на остальные свойства модели в генерации связного, релевантного, серо-буро-малинового текста
в качестве евала, является ли промпт безопасным (safety_score), использовали затюненную на это дело лламу чтобы результаты были как можно точнее, в качестве метрики использовали log-odds ratio от ее аутпутов. так же считали, отказывалась ли модель отвечать (refusal_score), потому что бывают сценарии, когда модель не отказывается ответить, но при этом ниче опасного не выводит
но добавлять постоянно вектор к активациям не оч удобно. авторы пошли дальше и сформулировали ортогонализацию весов с помощью этого вектора → убираем фактор вредосности из самих параметров и модель начинает отказываться от запросов-плохишей. по метрикам и скейлу моделек выглядит все очень вкусно и появляется желание самому такое заимплементить в своих задачах (потому что код есть, но для такой идеи негромоздким его сделать вряд ли возможно)
при том один вектор отказа от генерации вреда можно найти не только для чат-моделей, но и для обычных лм моделей ⇒ это больше относится к понятию языка в общем и/или пространству параметров, семантическому пространству или чему-либо еще. на практике можно спекулировать, что еще очень много таких векторов можно найти для желаемых целей (и этого будет достаточно для изменения генерации в нужную сторону)
но, несмотря на то, что добавление такой ортогонализации (вроде наверянка) не влияет на другие способности ЛЛМок и напрямую помогает с реджектом вредоносных запросов, если задать мета-вопросы, какие промпты нужно принять/отклонить, начинаются какие-то обтекаемые и непоследовательные ответы (что оптимизировали, по тому результат и улучшился, а не прибавилось понимание модели о понятии вреда в более сложных рассуждениях)
👀LINK
Baba Is AI: Break the Rules to Beat the Benchmark
обучение с подкреплением, пожалуй, ближе всех приближено к концепции того, а как именно обучается человек (в детском возрасте) сквозь trial-and-error, без супервайзд лейблов. однако область молода, и в основном алгоритмы стараются решить somewhat несложные задачи (одну или несколько) в рамках зафиксированных правил. однако как писал Айзек Азимов:
и человек был бы не человек, если бы не взаимодействовал с миром, одновременно меняя правила игры. вот и авторы решили сделать такую же сложную среду
что же пытались отследить?
- возможность распознать, что можно взаимодействовать с определенными объектами и тем самым менять правила игры, чтобы получить в конце золотую морковку
- игнорировать отвлекающие факторы, которые не помогут дойти до конечной цели
- совмещать текст с визуальной репрезентацией
- комбинировать предыдущие правила для достижения новой цели
а реализовано это через 2д карту, где на некоторых блоках есть слова → составляя комбинацию слов “door is win” можно получить награду, достигнув двери (иначе никак). или же сломав кубики со словами “wall is stop” стены более не становятся преградой и можно жоско хаслить и выигрывать
интересное и нетривиально сочетание идей вылилось в такой метод проверки умноты модели, котоый точно запомнится и поможет в развитии области
статья читается быстро и свежо, даже по диагонали можно четко понять, что именно делали авторы и что получили
👀LINK
обучение с подкреплением, пожалуй, ближе всех приближено к концепции того, а как именно обучается человек (в детском возрасте) сквозь trial-and-error, без супервайзд лейблов. однако область молода, и в основном алгоритмы стараются решить somewhat несложные задачи (одну или несколько) в рамках зафиксированных правил. однако как писал Айзек Азимов:
Your assumptions are your windows on the world. Scrub them off every once in a while, or the light won’t come in.
и человек был бы не человек, если бы не взаимодействовал с миром, одновременно меняя правила игры. вот и авторы решили сделать такую же сложную среду
что же пытались отследить?
- возможность распознать, что можно взаимодействовать с определенными объектами и тем самым менять правила игры, чтобы получить в конце золотую морковку
- игнорировать отвлекающие факторы, которые не помогут дойти до конечной цели
- совмещать текст с визуальной репрезентацией
- комбинировать предыдущие правила для достижения новой цели
а реализовано это через 2д карту, где на некоторых блоках есть слова → составляя комбинацию слов “door is win” можно получить награду, достигнув двери (иначе никак). или же сломав кубики со словами “wall is stop” стены более не становятся преградой и можно жоско хаслить и выигрывать
интересное и нетривиально сочетание идей вылилось в такой метод проверки умноты модели, котоый точно запомнится и поможет в развитии области
статья читается быстро и свежо, даже по диагонали можно четко понять, что именно делали авторы и что получили
👀LINK
Multi-turn Reinforcement Learning from Preference Human Feedback
в основном сейчас ресерч в алайменте происходит на предположении, что нужно предоставить оптимальный ответ модели в моменте, при том контекст фиксирован и далее не будет влиять на задачу. справедливо, но не все практические задачки удовлетворяют такому. вернее даже меньшинство - если взять тот же пример чат-бот ассистента, то тут все поломается, ибо в начале диалога вряд ли возможно будет моментально дать оптимальный ответ из-за недостатка информации
сюда приходит идея мульти-терна: предположения о том, что часто действовать оптимально не получается и надо выдать настолько хороший аутпут в моменте (который необязательно будет решать поставленную промптом таску), что быстрее приведет к оптимальному результату *в целом от диалога*
авторы формулируют свою теорию, которая хорошо сводится к более-менее привычным Q, V-value функциям из рл (и так же уже из алаймента). только тут они зависят от двух политик - которую тюнят и SFT - при том первой надо выступать лучше на данном таймстепе референсной модели, которая имеет доступ к контексту с самого начала и вообще негарантированно проходит через тот стейт, через который проходит в моменте первая политика. сделано это для того, чтобы обучаемая политика была лучше всех возможных вариаций моделей (лучшие из которых совершенно необязательно выдают такие же ответы в моменте, что и первая моделька). довольно интересная и сложная концепция (и непривычная для рл), но она подвергается теории и анализу
обобщается что на preference-based методы, что на ревард-бейзд методы реформулировкой self-play Q функции. при том и то, и то теоретически подкреплены (в соответствии в их же теоретическими ограничениями ага, но не суть)
так же есть расширение на смесь двух политик из геометрического распределения (от основной идеи отличается добавленным гипером, который балансирует между долями политики для финальной смеси)
реализуют (почти) по рльному дефолту: актор-критик схема обновляется в advantage-weighted стиле. тренируем Value function, которая оперирует только над стейтами, через нее вычисляем advantage (с помощью GAE) & обновляем валью мсе лоссом, а актора через лог_проб + адвантэдж. а на вход модели в качестве последовательности поступают как запросы юзера, так и ответы модели (или того, что подразумевается под ответом модели в трейне)
но не менее важно как именно они конструировали датасет и на чем еще евалились
- Education Dialogue: сценарий норм подходит под измерение действий не в моменте (ибо они далеко могут быть неоптимальны из-за недостатка информации с преференсами). создавали через одну ллм как ответы учителя, так и строчки ученика, чтобы контекст был консистентным
- Car Dealer - энву брали для reward-based сетапа, где надо загнать автомобиль как можно дороже в соответствии с тем, кому именно продаешь и какую именно машину
по экспериментам очевидно обгоняет имеющиеся методы, потому что пока это единственная статья, где явно прописывается такой сеттинг
сами подмечают небольшой скейл моделек - 770М & 3B + только версии Т5 из соображения удобства авторам, как я понял
👀LINK
в основном сейчас ресерч в алайменте происходит на предположении, что нужно предоставить оптимальный ответ модели в моменте, при том контекст фиксирован и далее не будет влиять на задачу. справедливо, но не все практические задачки удовлетворяют такому. вернее даже меньшинство - если взять тот же пример чат-бот ассистента, то тут все поломается, ибо в начале диалога вряд ли возможно будет моментально дать оптимальный ответ из-за недостатка информации
сюда приходит идея мульти-терна: предположения о том, что часто действовать оптимально не получается и надо выдать настолько хороший аутпут в моменте (который необязательно будет решать поставленную промптом таску), что быстрее приведет к оптимальному результату *в целом от диалога*
авторы формулируют свою теорию, которая хорошо сводится к более-менее привычным Q, V-value функциям из рл (и так же уже из алаймента). только тут они зависят от двух политик - которую тюнят и SFT - при том первой надо выступать лучше на данном таймстепе референсной модели, которая имеет доступ к контексту с самого начала и вообще негарантированно проходит через тот стейт, через который проходит в моменте первая политика. сделано это для того, чтобы обучаемая политика была лучше всех возможных вариаций моделей (лучшие из которых совершенно необязательно выдают такие же ответы в моменте, что и первая моделька). довольно интересная и сложная концепция (и непривычная для рл), но она подвергается теории и анализу
обобщается что на preference-based методы, что на ревард-бейзд методы реформулировкой self-play Q функции. при том и то, и то теоретически подкреплены (в соответствии в их же теоретическими ограничениями ага, но не суть)
так же есть расширение на смесь двух политик из геометрического распределения (от основной идеи отличается добавленным гипером, который балансирует между долями политики для финальной смеси)
реализуют (почти) по рльному дефолту: актор-критик схема обновляется в advantage-weighted стиле. тренируем Value function, которая оперирует только над стейтами, через нее вычисляем advantage (с помощью GAE) & обновляем валью мсе лоссом, а актора через лог_проб + адвантэдж. а на вход модели в качестве последовательности поступают как запросы юзера, так и ответы модели (или того, что подразумевается под ответом модели в трейне)
но не менее важно как именно они конструировали датасет и на чем еще евалились
- Education Dialogue: сценарий норм подходит под измерение действий не в моменте (ибо они далеко могут быть неоптимальны из-за недостатка информации с преференсами). создавали через одну ллм как ответы учителя, так и строчки ученика, чтобы контекст был консистентным
- Car Dealer - энву брали для reward-based сетапа, где надо загнать автомобиль как можно дороже в соответствии с тем, кому именно продаешь и какую именно машину
по экспериментам очевидно обгоняет имеющиеся методы, потому что пока это единственная статья, где явно прописывается такой сеттинг
сами подмечают небольшой скейл моделек - 770М & 3B + только версии Т5 из соображения удобства авторам, как я понял
👀LINK
🔥3❤1 1