rizzearch

Explaining RL Decisions with Trajectories

Довольно простой и работающий пайплайн, как выявить значимость траекторий принятий решений при обучении алгоритма: appropriate encoding + clustering, затем обучаем много-много политик, в каждой исключая по определенному кластеру, разница в перформансе указывает на значимость соответствующих кластеров траекторий

Можно ли применить не только к рл? Конечно, замените в тексте выше «траекторию» на «последовательность», «политику» на «модель» и получите простой метод интерпретации чего-то там для séquence data

👀LINK

#rl #decisionmaking #sequence #interpretability #representationlearning

👍2

201 views07:56

rizzearch

Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL

Момент, когда специфичная теория на стыке областей работает. Применяют теорию диффуров для linear iteration dynamics + neural tangent kernel, чтобы получить метрику под названием Self-Excite Eigenvalue Measure (SEEM), которая показывает в начале обучения, разойдется ли метод оффлайн рл или нет. Если воспроизводить код - (вроде) работает + дает повод логгировать хоть что-то во время обучения, не относящееся к евалу ( с этим в рл туго, потому что зачастую тот же самый лосс практически никогда не говорит о том, какой результат будет на тесте )

Теперь и думай, как это соотносится со статьей про инстинкт выживания

👀LINK

#r #offlinerl #differentialequations #neuraltangentkernel #stability

🤔2

173 viewsedited 05:10

rizzearch

Generative Models as Distributions of Functions (AISTATS 2022)

А вы когда-нибудь задумывались о представлении картинок не с помощью решетки пикселей, а с помощью функций?

Авторы этой статьи задумались и предложили моделировать картинки именно таким способом. Достигается это с помощью неявного представления функции преобразования координат в RGB значения. В такие представления добавляют random Fourier feature encoding, чтобы выучивать сигнал разной частоты. Нейронка состоит из генератора hypernetwork, веса которой и представляют функцию преобразования, и дискриминатора PointConv, который расценивает выход нашей функции как набор точек с мерой дистанции, т.е это point cloud. Модель учится как GAN с minimax игрой

А спросите, нафиг это нужно? Тема в том, что тут размер сети скейлится линейно от размера данных + мы можем юзать одну сеть для разных модельностей типо картинок, вокселей или даже данных на сфере

Забавная идейка в общем, что сказать 🤑

👀 LINK

#generative #hypernetwork #functionrepresentation

❤1

177 views21:40

rizzearch

Large Language Models as General Pattern Machines

Really profound paper, который еще больше раскрывает способности инконтекста ллмок. Обученная выполнять языковые задачи, ллм способна принимать на вход закодированные состояния среды и производить адекватные низкоуровневые действия, то есть решать задачу планирования, не говоря уже о том, что в целом решает задачки Abstraction and Reasoning, поданные в виде ascii art

Conclusion: «LLMs can serve as general sequence modelers, driven by in-context learning.»

👀LINK

#nlp #llm #patternrecognition #incontextlearning

❤2🔥2

203 views10:21

rizzearch

The Difficulty of Passive Learning in Deep Reinforcement Learning

Вспомним базу рл: агент учится правильным действиям, исправляя свои ошибки, которые он сделал в среде. Тем не менее, учиться только на онлайн данных ооочень долго, практически все время нейронка на цпу (можно даже не переключаться на гпу, так чуть быстрее будет). К тому же, в реальных ситуациях такой открытый доступ к среде почти невозможен

поэтому уже очень долго разрабатывали всякие методы, где учатся и на заранее сохраненных примерах состояния-действия-награды, при том не факт, что они были собраны этим самым агентом. Самый простой пример - хранить в памяти довольно большой буффер данных с произведенными ранее действиями агента и прочим, обучаться на них и постепенно его обновлять. Даже после одного обновления весов по факту модель уже не та - веса другие, поэтому тут агент тоже обучается не совсем на своих же данных (своем поведении)

Гугловские ребята еще давно нашли в этом слабость на глубинном уровне, связанном с понятием пассивного обучения из эксперимента 20-ого века, где котенок не понимает последствия своих действий, потому что он напрямую и не влияет на ситуацию (логично) 🐱

🐱

К сожалению, эта проблема остается (и видимо останется) открытой, ведь аналогично человек тоже хуже вычленяет каузальные паттерны, которые улучшают его жизнь в каком-то смысле, не на своих собственных примерах поведения

👀LINK

#rl #passivelearning

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🔥1

212 views18:11

rizzearch

Training Diffusion Models with Reinforcement Learning

Беркли и MIT показывают, что процесс денойзинга в диффузиях можно переформулировать в Марковский Процесс принятия решений (MDP), а значит и использовать функцию награды. А еще лучше использовать ее там, где промптом или определенным лоссом нужды извне так просто не выразишь (эстетичность, компрессибилити, соответствие промпту, подсчет объектов и так далее)

Вопросом остается, как все-таки сделать эту ревард функцию и как именно файнтюнить модель с ее учетом - авторы формулируют ревард функции при помощи других моделек, сохраняя ту семантику, которую они встраивают + используют простой метод reinforce для дообучения

Результаты прикольные, особенно учитывая то, что методы в рл используются относительно примитивные и здесь еще много непаханного поля по улучшению результата (+ генеративные модели здесь так же относительно старые, скорее всего из-за сложностей во времени обучения)

👀LINK

#rl #diffusion #text2img #promptalignment #mdp

🔥3❤1

217 views20:23

rizzearch

Layer-wise linear mode connectivity

Прикольная статья, которая теоретически и эмпирически показывает, почему прямое усреднение параметров моделей с одинаковой архитектурой улучшает результат, а точнее усреднение параметров конкретных слоев

Позволяет выйти в поверхности функции потерь на место с отсутствием linear barrier => parameters averaging снижает лосс, что далеко нетривиально для невыпуклых лоссов глубоких сетей

👀LINK

#representationlearning #parametersaveraging #losssurface

🔥2

224 views17:22

rizzearch

Data Distributional Properties Drive Emergent In-Context Learning in Transformers (NeurIPS 2022)

Интересная статейка с нипса 22 года про причины in-context learning (ICL). Тут авторы приводят несколько наблюдений

1) Есть свойства данных, которые коррелируют с возможностью модели в ICL. Это "burstiness" (насколько классы в последовательности собираются в кластера), число и частота классов, различность в значениях одного класса и внутреклассовые вариации семплов. Эти выводы можно использовать для анализа различных ICL сетапов

2) In-context learning зачастую идет в трейд-офф с in-weights learning (IWL), а свойства в данных для двух сетапов разнятся

3) Трансформеры более способны в ICL, чем рннки, что в целом не сюрприз

4) Существуют сетапы, где модель все может показать и ICL и IWL, например, если данные семплируются из распределения Ципфа, которое несет важную информацию о распредлении частотности слова в языке

👀

LINK

#nlp #incontextlearning #inweightslearning

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🤔1

216 views10:26

rizzearch

Foundation Policies with Hilbert Representations

фаундейшн модели остаются открытым вопросом в области рл, поскольку зачастую эти методы требуют большого разнообразия и высокой экспертности данных для того, чтобы хоть что-то завелось. Беркли, а именно Seohong Park, решают эту проблему через латентное представление в Гильбертовом пространстве (звучит умно, а на самом деле в этом пространстве просто достаточно, чтобы inner product соответствовал метрике), которое сохраняет временные зависимости между состояниями в пространственных между эмбеддингами.

Политика же обучается после этого с формулированием подобного же intrinsic reward'a

Что это дает? возможность решать много разных goal-conditioned и zero-shot rl задач, обгоняя алгоритмы, которые затюнены специально под каждую конкретную таску

👀LINK

#rl #zeroshot #goalconditioning #hilbert #offlinerl

👀2

220 views18:44

rizzearch

Identifying Policy Gradient Subspaces

В оптимизации супервайзд лернинга есть находка относительно градиентов - они лежат в каком-то подпространстве параметров, при этом это подпространство меняет свою форму относительно медленно

Авторы решили поискать то же самое и в полиси градиент методах рл - и выяснили то же самое!

А что ето значит? А то, что любые методы по ускорению обучения супервайзд лернинга, которые используют факт low-dimensional gradient subspace coverage, можно без зазрения совести использовать и в классичных алгоритмах рл, задумываясь о других аспектах методов

👀LINK

#rl #optimization #subspace #policygradient

❤2👍2

203 views20:59

rizzearch

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

А вот и невероятно крутой пример, как использовать факт из поста выше

Сложно найти человека, который ни разу не слышал про ЛоРУ и многие ее производные, которые оч сильно помогают файнтюнить большие модельки при непосредственном обучении отдельного относительно небольшого количества параметров

А вот можно лучше, как оказывается!😼

Авторы показывают, что оптимизацию в низкоранговом пространстве можно сделать эффективно относительно памяти для всех параметров модели. А как? Да просто проецировать градиенты в подпространство, делать там апдейт, и возвращаться в исходное пространство

А как найти это подпространство? Через сингулярное разложение, оф корс😎

😎

👀LINK

#llm #optimization #lowrank #memory #lora

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍1

237 views21:01

rizzearch

Massively Scalable Inverse Reinforcement Learning in Google Maps

Что насчет применения инверс рейнфорсмент лернинга, задачки где надо восстановить ревард функцию, на графах, где граф - маршруты на нашей земле. А ревард функция зачем? - чтобы научить алгоритм находить кратчайшие маршруты, конечно

А такое возможно 🤔?
А что насчет компрессии графов, пространственной параллелизации и увеличения производительности? - ну тоже есть, вот Гугл раскрыл как применяет рл и нормально так времени на маршрут сбавляет по всему миру

👀LINK

#rl #graph #mdp #inverserl

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

209 views14:06

rizzearch

To the Max: Reinventing Reward in Reinforcement Learning

Все обучение с подкреплением зиждится на максимизации функции награды, а точнее на ее максимизации в долгосрочной перспективе, в основном - это (дисконтированная) сумма наград

Но что делать в ситуациях, когда сумма наград не подходит под решение задачи? Например, награды, сделанные в лоб для того, чтобы заставить агента делать то, что человек хочет, зачастую разреженные, а такое оптимизируется ой как непросто и в классическом дип лернинге, не то что в рл

Авторы предлагают в таком случае переформулировать постановку оптимизации не суммы наград, а максимума из наград, что поможет в таких случаях
А как такое сделоть? Через доп переменную, которая интуитивно является аккумулируемой переменной максимума, а остальные детали не отличаются от классических имплементаций

👀LINK

#rl #reward

236 views15:17

rizzearch

Forwarded from Complete AI (Andrey Kuznetsov)

🕯️Друзья, вчера случилась большая трагедия!

Нападение террористов на Крокус привело к большому числу жертв и пострадавших.

Сбер не остался в стороне и вместе с Российским красным крестом запустил благотворительный фонд. Прошу не оставаться в стороне, помощь каждого из вас безмерно важна🙏

➡️По ссылке сразу перейдёте в Сбербанк Онлайн и сможете внести пожертвование.

Берегите себя🙏

Sberbank

СберБанк Онлайн

🙏5

206 views11:57

rizzearch

CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation

⚡️

CVPR 2024

⚡️

Новый метод дистилляции unconditional диффузии для conditional данных в один этап. Напоминание - дистилляция в consistency models работает в два шага, если мы хотим иметь какое-то условие для генерации. Сначала мы дистиллируем, а потом тюним с каким-нибудь адаптером, ну или наоборот. Так вот CoDi позволяет это делать в один шаг

Модель учится на подобие ControlNet, что позволяет принимать conditioning. Лосс же (уже conditional модели) состоит из двух частей для self-consistency: дистанция по предиктам шума и дистанция по предикту сигнала изображения. Вторая часть приближает предсказанный conditional сигнал к изначальной картинке, что помогает бороться с over-saturated генерациями

Модель отлично себя показывает в 1-4-step генерациях против LDM, ControlNet, CM, Instruct-Pix2Pix и разных видов дистилляций

👀

LINK

#diffusion #diffusiondistillation #consistency #controlnet

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

225 views10:01

rizzearch

Simple and Principled Uncertainty Estimation with Deterministic Deep Learning via Distance Awareness

А вот вам немного OOD с приколами 🥶

Авторы формулируют задачу подсчета неуверенности модели через minimax проблему, где нам интересно минимизировать worst-case риск по всем тренировочнм распределениям. Такая формулировка в стандартном сетапе ведет к предсказаниям с максимальной энтропией для OOD данных. Но для того, чтобы оценить вероятность домена данных нам нужна мера расстояния конкретного семпла до тренировочной выборки (звучит логично 💯)

Логиты нейронных сетей не несут в себе меры расстояния от in-domain данных, в отличие от гауссовских процессов с радиальной базисной функцией (RBF). В них дисперсия постериора растет по мере удаления тестового семпла от in-domain выборки

Для того, чтобы получить distance-aware нейронку, авторы вставляют вместо последнего слоя гауссовский процесс. Однако просто так это сделать нельзя из-за вычислительных сложностей. Давайте аппроксимировать гауссовский процесс с помощью случайных признаков Фурье, получая байесовскую линейную модель. Для таких сетапов есть много вариантов аппроксимации постериора, и авторы выбирают аппроксимацию Лапласа. В итоге получается дешевый distance-aware метод для uncertainty estimation

Последний штрих - спектральная нормализация для гарантии на ограниченность фичей по Липшицу. Это нам нужно опять же для полной уверенности в связи наших предиктов и меры расстояния

👀

LINK

#uncertainty #laplaceapproximation #gaussianprocess #bayesian #ood

Please open Telegram to view this post

VIEW IN TELEGRAM

👀6👍2🔥2

227 views14:27

rizzearch

Inference via Interpolation:
Contrastive Representations Provably Enable Planning and Inference

Работать с временными рядами сложно, особенно когда эти ряды еще и многомерны. Но можно ли снизить размерность -> облегчить инференс, который интуитивно отвечает на вопрос "а что произойдет в будущем?"

Ну можно перевести в какие-то эмбеддинги, а лучше не просто, а применить метрик или контрастив лернинг

А как именно применить контрастив лернинг? - перевести ряды в такие эмбеддинги, чтобы временная разность между рядами сохранялась в пространственной между эмбеддингами

Авторы делают такой процесс при помощи классического InfoNCE, да и теоретически показывают, что такие репрезентации следуют процессу Гаусса-Маркова, а значит и инференс благодаря этому получается analytically tractable, да и еще можно интерполяцию делать между дискретными таймстепами

👀LINK

#timeseries #representationlearning #contrastivelearning #decisionmaking

❤1👍1🔥1

283 views09:39

rizzearch

Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual Reinforcement Learning

Мы привыкли, что трансфер лернинг - полезная вещь, потому что дает отфайнтюнить крутую модель на более узкую задачу (в основном). На самом деле это не совсем так, ведь если домен претрена и домен для файнтюна сильно не совпадают, то трансфер лернинг только ухудшит перформанс, чем если обучать модель с нуля с рандом инитом

Это более глубокая проблема, потому что она происходит как в continual learning, так и в continual rl, где с течением времени домен (таска) тем или иным Образом обновляется и надо показывать хороший результат как на нем, так и на всех предыдущих доменах (тасках)

Загвоздка в том, что по отдельности эти таски хорошо выучиваются, но вот если файнтюнить агента на новой таске, то все ломается, а нам бы хотелось не много-много агентов, каждый из которых хорошо работает на отдельных тасках, а одного мультитаск гигачада

Авторы в континуал рл решают эту проблему тем, что на каждую таску тренят отдельного агента (онлайн агента), собирают его экспертный датасет, и уже потом дистиллят этот датасет в основного агента (оффлайн), который старается сохранять мультитаскность по истории тасок, онлайн агент ресетится и все повторяется

(Костыльная) Простота - сестра таланта😎

👀LINK

#rl #continuallearning #continualrl #reset #distillation #behaviorcloning #plasticity #stability

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1🔥1

201 views13:36

About

Blog

Apps

Platform