Efficient World Models with Context-Aware Tokenization
какое-то время назад понятие “модель мира” начало всплывать в контексте ЛЛМ, в то время как свои корни оно имеет из рл. так вот с ней в рл тоже часто не всегда все понятно
что же такое модель мира в сетапе рл? есть ответвление, как model-based алгоритмы, которые помимо основной модели полиси (которая притворяет действия по данным ею состояниям) учат еще и модель среды, или же динамику среды, которая ловит паттерны по истории и предиктит, а что же произойдет на следующем таймстепе. зачем это нужно? при достаточно качественной модели динамики, можно получать данные при помощи нее, не действуя в среде ⇒ экономия времени, ресурсов, да и безопасность повышается, если ошибки на реальной задаче очень как критичны
так же такую штуку называют learning in imagination. так вот авторы берут один из сота методов, iris, который работает через дискретный автоэнкодер + каузальный трансформер для предикта динамики по заданному контексту. и улучшают его! а иначе никак
а что можно улучшить? ирис перед этапом энкодинга разбивает историю на отдельные токены, которые затем подаются в трансформер. а такая отдельность не всегда оптимальна, поскольку, как говорят авторы и что интуитивно понятно, независимое разбиение на токены не всегда оптимально, когда не берется контекст прошлого, ибо выгоднее порой обращать внимание не на само состояние, сколько на *разницу,* которая успела произойти за это время
вот авторы такое и имплементят, просто вставляя на этапе энкодинга и декодинга кусок предыдущей истории. дальше над этим оперирует трансформер, который является моделью мира для актор-критика. в остальном сетап довольно классичен. и происходит норм такой буст по результатам
правда проевалили пока только на атари и крафтере, а что в том же майнкрафте происходит непонятно (где очень крут DreamerV3) - там наверняка надо брать горизонт побольше из-за специфики движений и состояний стива, что уже будет вызывать трудности у метода имхо.
👀LINK
UPD: надо еще учитывать что майнкрафт сильно упрощен на дримере, так что все может быть ок с дельта-ирис
какое-то время назад понятие “модель мира” начало всплывать в контексте ЛЛМ, в то время как свои корни оно имеет из рл. так вот с ней в рл тоже часто не всегда все понятно
что же такое модель мира в сетапе рл? есть ответвление, как model-based алгоритмы, которые помимо основной модели полиси (которая притворяет действия по данным ею состояниям) учат еще и модель среды, или же динамику среды, которая ловит паттерны по истории и предиктит, а что же произойдет на следующем таймстепе. зачем это нужно? при достаточно качественной модели динамики, можно получать данные при помощи нее, не действуя в среде ⇒ экономия времени, ресурсов, да и безопасность повышается, если ошибки на реальной задаче очень как критичны
так же такую штуку называют learning in imagination. так вот авторы берут один из сота методов, iris, который работает через дискретный автоэнкодер + каузальный трансформер для предикта динамики по заданному контексту. и улучшают его! а иначе никак
а что можно улучшить? ирис перед этапом энкодинга разбивает историю на отдельные токены, которые затем подаются в трансформер. а такая отдельность не всегда оптимальна, поскольку, как говорят авторы и что интуитивно понятно, независимое разбиение на токены не всегда оптимально, когда не берется контекст прошлого, ибо выгоднее порой обращать внимание не на само состояние, сколько на *разницу,* которая успела произойти за это время
вот авторы такое и имплементят, просто вставляя на этапе энкодинга и декодинга кусок предыдущей истории. дальше над этим оперирует трансформер, который является моделью мира для актор-критика. в остальном сетап довольно классичен. и происходит норм такой буст по результатам
правда проевалили пока только на атари и крафтере, а что в том же майнкрафте происходит непонятно (где очень крут DreamerV3) - там наверняка надо брать горизонт побольше из-за специфики движений и состояний стива, что уже будет вызывать трудности у метода имхо.
👀LINK
UPD: надо еще учитывать что майнкрафт сильно упрощен на дримере, так что все может быть ок с дельта-ирис
🔥4❤1 1 1
Diffusion for World Modeling: Visual Details Matter in Atari
в продолжение темы про модели мира
в основном используют дискретные автоэнкодеры, ибо с дискретными латентами снижается проблема накопительной ошибки при процессинге данных. но в более сложных задачах дискретизация может быть чревата слишком сильной потерей инфрмации, отчего все плоховато. в принципе можно тогда увеличивать количество дискретных эмбеддингов, но и повышаются требования на компьют. а какая есть альтернатива - диффузия🤑🤑🤑
и в качестве решения используют score-based diffusion, а именно EDM (есть так же сравнение результатов с обычным DDPM), где таргет адаптивно миксует signal-to-noise ratio в соотношении с нойз шедулингом. в качестве чистого таргета выступает фиксированная последовательность из предыдущих интеракций. а интуитивно такие трюки с адаптивным таргетом нужны для того, чтобы аутпуты модели оставались вариативными (в силу сложности задачи) когда шума мало.
правда авторы так же указывают, что для предикта реварда и флага терминации используются отдельные модели → диффузия не оч хороша в моделировании таких скаляров вместе с динамикой по состояниям, либо авторы не смогли нормально это прикрутить
по mean human normalized score обыгрываем все методы, на одну сотую только проигрывает по interquantile mean методу выше
👀LINK
в продолжение темы про модели мира
в основном используют дискретные автоэнкодеры, ибо с дискретными латентами снижается проблема накопительной ошибки при процессинге данных. но в более сложных задачах дискретизация может быть чревата слишком сильной потерей инфрмации, отчего все плоховато. в принципе можно тогда увеличивать количество дискретных эмбеддингов, но и повышаются требования на компьют. а какая есть альтернатива - диффузия🤑🤑🤑
и в качестве решения используют score-based diffusion, а именно EDM (есть так же сравнение результатов с обычным DDPM), где таргет адаптивно миксует signal-to-noise ratio в соотношении с нойз шедулингом. в качестве чистого таргета выступает фиксированная последовательность из предыдущих интеракций. а интуитивно такие трюки с адаптивным таргетом нужны для того, чтобы аутпуты модели оставались вариативными (в силу сложности задачи) когда шума мало.
правда авторы так же указывают, что для предикта реварда и флага терминации используются отдельные модели → диффузия не оч хороша в моделировании таких скаляров вместе с динамикой по состояниям, либо авторы не смогли нормально это прикрутить
по mean human normalized score обыгрываем все методы, на одну сотую только проигрывает по interquantile mean методу выше
👀LINK
👍5❤1🔥1 1
SLiC-HF: Sequence Likelihood Calibration with Human Feedback
есть очень классная статья с простой идей. SLiC помогает улучшить генерации ЛЛМ посредством калибровки своих же аутпутов с таргет последовательностями. и авторы этой статьи заметили, что такое легко можно переложить и на алаймент
в качестве задачи взяли суммаризацию на реддите
что же они сделали? добавили калибровочный лосс на перевес лайклихуда позитивного семлпа над негативным с некоторым марджином + регуляризацию на повышение лайклихуда таргетов из СФТ датасета
представили 2 способа калибровки (выбора позитивного/негативного семпла) - с обучением ранкинг/ревард модели или напрямую через преференции, данные в датасете. но как вы можете понять, последнее составляет основной контрибьюшн
правда не очень понятно почему решили сравниться с тем, чтобы продолжать файнтюн моделей на правильных ответах без преференций. да, там есть разные варианты подбора таргета, которые использовали ранкинг модели, но по этой работе теперь мы понимаем, что это не оч + было бы неплохо в принципе сделать рлхф-ппо эксперименты, а не просто предоставлять сравнительную таблицу (чтобы подкреплять свои доводы эмпирикой)
👀LINK
есть очень классная статья с простой идей. SLiC помогает улучшить генерации ЛЛМ посредством калибровки своих же аутпутов с таргет последовательностями. и авторы этой статьи заметили, что такое легко можно переложить и на алаймент
в качестве задачи взяли суммаризацию на реддите
что же они сделали? добавили калибровочный лосс на перевес лайклихуда позитивного семлпа над негативным с некоторым марджином + регуляризацию на повышение лайклихуда таргетов из СФТ датасета
представили 2 способа калибровки (выбора позитивного/негативного семпла) - с обучением ранкинг/ревард модели или напрямую через преференции, данные в датасете. но как вы можете понять, последнее составляет основной контрибьюшн
правда не очень понятно почему решили сравниться с тем, чтобы продолжать файнтюн моделей на правильных ответах без преференций. да, там есть разные варианты подбора таргета, которые использовали ранкинг модели, но по этой работе теперь мы понимаем, что это не оч + было бы неплохо в принципе сделать рлхф-ппо эксперименты, а не просто предоставлять сравнительную таблицу (чтобы подкреплять свои доводы эмпирикой)
👀LINK
👍3 1 1
A General Theoretical Paradigm to Understand Learning from Human Preferences
как-то пропустили от дипмаинда папиру насчет теоретической формалзации рлхф + дпо
на чем строятся эти основные фреймворки в алайменте?
1) из датасета пар преференций можно составить поточечную ревард функцию (Bradley-Terry model )
2) эту ревард функцию можно аппроксимировать какой-то нейронкой так, что на ООД семплах она все равно будет выдавать адекватные результаты
у рлхф 2 предположения, в то время как дпо отказывается от второго, но сохраняет 1
и авторы обобщают эти две концепции, называя более общий метод ΨPO (хз почему именно так назвали) с введением через неубывающую нелинейную функцию
но это еще не все - они пробуют ввести линейный маппинг в эту обобщенную концепцию и получают IPO. а что значит линейный маппинг, когда вроде вот ета h функция все равно нелинейная?
я не понял до конца 😐. но следствия такие, что обучение происходит напрямую на преференциях, при том отличие от дпо в том, что отсутствует предположение 1 чтобы не произошел оверфит попы (хотя тут все равно остаются вопросы оптимален ли практический семплинг чтобы предотвратить оверфиттинг в реализации)
на бандитах работает неплохо, но в рл зачастую это еще ничего не значит. ждем что будет на большом скейле и на реальной задаче языкового моделирования
👀LINK
как-то пропустили от дипмаинда папиру насчет теоретической формалзации рлхф + дпо
на чем строятся эти основные фреймворки в алайменте?
1) из датасета пар преференций можно составить поточечную ревард функцию (Bradley-Terry model )
2) эту ревард функцию можно аппроксимировать какой-то нейронкой так, что на ООД семплах она все равно будет выдавать адекватные результаты
у рлхф 2 предположения, в то время как дпо отказывается от второго, но сохраняет 1
и авторы обобщают эти две концепции, называя более общий метод ΨPO (хз почему именно так назвали) с введением через неубывающую нелинейную функцию
но это еще не все - они пробуют ввести линейный маппинг в эту обобщенную концепцию и получают IPO. а что значит линейный маппинг, когда вроде вот ета h функция все равно нелинейная?
я не понял до конца 😐. но следствия такие, что обучение происходит напрямую на преференциях, при том отличие от дпо в том, что отсутствует предположение 1 чтобы не произошел оверфит попы (хотя тут все равно остаются вопросы оптимален ли практический семплинг чтобы предотвратить оверфиттинг в реализации)
на бандитах работает неплохо, но в рл зачастую это еще ничего не значит. ждем что будет на большом скейле и на реальной задаче языкового моделирования
👀LINK
In-context learning agents are asymmetric belief updaters
мы уже упоминали о том, какие прикольные штуки происходят под капотом ин-контекст лернинг понятия
- https://t.me/rizzearch/208
- https://t.me/rizzearch/204
но этим дело не заканчивается, и у явления есть схожесть с людьми, при том в сетапах ллм и мета-рл одновременно. а схожесть заключается в обновлении релевантной задачи для апдейта своих убеждений
как это формально определяют авторы? через когнитивные науки - там есть находка в разной асиметрии убеждений, когда человеку предоставляют разные способы показа награды за свои действия (точнее одно из двух для упрощения эксперимента, Two-alternative forced choice tasks, 2AFC). вводится в данном случае это через ассиметричную модель Rescorla-Wagner, которая моделирует значимость действия в долгосроке через реварды, тесно связана с TD методами, но отличается понятие таймстепа и степени обновления (об этом очень хорошо пишут Саттон и Барто в большой главе on Neuroscience). а ассиметрична она в том плане, что используются разные лернинг рейты в зависимости от знака предиктивной ошибки. эта модель фиттится на историю интеракций ллм и метарля, и можно из этого делать выводы
и что же получается? когда присутствует свойство “агентности”, то есть модель только по своим действиям получает ревард, появляется позитивная асимметрия ⇒ модель извлекает больше опыта из результатов, которые лучше “ожидаемых” (positive prediction error). если же показывать фидбек и по действиям, которые не были выбраны, то тенденция меняется на негативную асимметрию ⇒ модель больше учится на семплах, которые хуже ожидаемых (negative predcition error). но еще и асимметрия полностью пропадает, если полностью убрать свойство агентности: заранее выбирается семпл и под него выказывается ревард независимо от поведения модели в данный момент времени
и что интересно - такое поведение нейронок в ин-контекст сценарии соответствует поведению людей на таких же задачах! степень асимметрии правда у моделей побольше, чем у людей, но она всегда идет в ту же сторону
так же стоит учесть, что задачи здесь довольно упрощены под конкретный сетап проверки асимметрии, где они оптимальны. в более реальных проблемах такая асимметрия может быть субоптимальной и потому невыгодна (да и не факт что на более сложных задачах поведение будет совпадать с человеческим)
ну и остается на будущее вопросы как раз по поводу субоптимальности - когда она присуствует в других задачах, это значит, что выучена асимметрия в неправильную сторону? или опору на негативные и позитивные ошибки наоборот надо комбинировать, а модель быстро сошлась к однозначному поведению
👀LINK
код
мы уже упоминали о том, какие прикольные штуки происходят под капотом ин-контекст лернинг понятия
- https://t.me/rizzearch/208
- https://t.me/rizzearch/204
но этим дело не заканчивается, и у явления есть схожесть с людьми, при том в сетапах ллм и мета-рл одновременно. а схожесть заключается в обновлении релевантной задачи для апдейта своих убеждений
как это формально определяют авторы? через когнитивные науки - там есть находка в разной асиметрии убеждений, когда человеку предоставляют разные способы показа награды за свои действия (точнее одно из двух для упрощения эксперимента, Two-alternative forced choice tasks, 2AFC). вводится в данном случае это через ассиметричную модель Rescorla-Wagner, которая моделирует значимость действия в долгосроке через реварды, тесно связана с TD методами, но отличается понятие таймстепа и степени обновления (об этом очень хорошо пишут Саттон и Барто в большой главе on Neuroscience). а ассиметрична она в том плане, что используются разные лернинг рейты в зависимости от знака предиктивной ошибки. эта модель фиттится на историю интеракций ллм и метарля, и можно из этого делать выводы
и что же получается? когда присутствует свойство “агентности”, то есть модель только по своим действиям получает ревард, появляется позитивная асимметрия ⇒ модель извлекает больше опыта из результатов, которые лучше “ожидаемых” (positive prediction error). если же показывать фидбек и по действиям, которые не были выбраны, то тенденция меняется на негативную асимметрию ⇒ модель больше учится на семплах, которые хуже ожидаемых (negative predcition error). но еще и асимметрия полностью пропадает, если полностью убрать свойство агентности: заранее выбирается семпл и под него выказывается ревард независимо от поведения модели в данный момент времени
и что интересно - такое поведение нейронок в ин-контекст сценарии соответствует поведению людей на таких же задачах! степень асимметрии правда у моделей побольше, чем у людей, но она всегда идет в ту же сторону
так же стоит учесть, что задачи здесь довольно упрощены под конкретный сетап проверки асимметрии, где они оптимальны. в более реальных проблемах такая асимметрия может быть субоптимальной и потому невыгодна (да и не факт что на более сложных задачах поведение будет совпадать с человеческим)
ну и остается на будущее вопросы как раз по поводу субоптимальности - когда она присуствует в других задачах, это значит, что выучена асимметрия в неправильную сторону? или опору на негативные и позитивные ошибки наоборот надо комбинировать, а модель быстро сошлась к однозначному поведению
👀LINK
код
Diffusion Posterior Sampling for General Noisy Inverse Problems
Inverse problems➡️ ⬅️ плохо решаются диффузионками. Давайте сделаем общий подход к этому. Напонимаю, inverse problems, то когда имеет представление y из x, но при этом отображение x в y имеет много вариантов, то есть ill-posed problem. Пример: deblurring, есть y - noisy observation, а вариантов получить x много, деблюрить можно по-разному 🤥
Мы хотим при семплировании семплировать из постериора p(x|y), чтобы решить inverse problem. Для этого можно использовать unconditional семпилирование из p(x) и p(y|x), однако во втором проблема
p(y|x_t) нельзя напрямую посчитать, так как тут нет зависимости. Нужно аппроксимировать
Среднее постериора p(x_0|x_t) дано через score estimate. Потом пишут, что итоговый p(y|x_t) можно аппроксимировать как матожидание по p(y|x_0). Ну и в итоге у нас градиент лог p(y|x_t) = градиент лог p(y|x_0), а последнее у нас есть как матожидание
В общем, у нас для разных inverse problems можно записать гауссовский или пуассоновский kernel. Так вот алгоритм использует measurement (насколько понял) из этого кернела. То есть по сути p(y|x_t) мы получаем из градиента y минус наша функция inverse проблемы с estimate x_0 диффузии. На словах сложно, но на картинке понятно
В целом есть limitation из-за стохастичности, так вот в будущем CNF помогут это решить. Однако еще не очевидно как эту штуку применить для LDM, как будто там проблема будет, ибо как сформулировать inverse problem для латентного пространства👜
👀 LINK
Inverse problems
Мы хотим при семплировании семплировать из постериора p(x|y), чтобы решить inverse problem. Для этого можно использовать unconditional семпилирование из p(x) и p(y|x), однако во втором проблема
p(y|x_t) нельзя напрямую посчитать, так как тут нет зависимости. Нужно аппроксимировать
Среднее постериора p(x_0|x_t) дано через score estimate. Потом пишут, что итоговый p(y|x_t) можно аппроксимировать как матожидание по p(y|x_0). Ну и в итоге у нас градиент лог p(y|x_t) = градиент лог p(y|x_0), а последнее у нас есть как матожидание
В общем, у нас для разных inverse problems можно записать гауссовский или пуассоновский kernel. Так вот алгоритм использует measurement (насколько понял) из этого кернела. То есть по сути p(y|x_t) мы получаем из градиента y минус наша функция inverse проблемы с estimate x_0 диффузии. На словах сложно, но на картинке понятно
В целом есть limitation из-за стохастичности, так вот в будущем CNF помогут это решить. Однако еще не очевидно как эту штуку применить для LDM, как будто там проблема будет, ибо как сформулировать inverse problem для латентного пространства
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4 2 1