rizzearch

DoRA: Weight-Decomposed Low-Rank Adaptation

Простая (и одновременно гениальная) модификация ЛоРЫ, которая разделяет претрейн веса на magnitude & direction для улучшения генерализации (по сравнению с полным файнтюнингом) и стабильности при обучении, при этом нету никаких доп вычислений на инференсе

👀LINK

#lora #decomposition #finetuning #stability

❤4👍1

387 views19:32

rizzearch

Visual Instruction Inversion: Image Editing via Visual Prompting (NeurIPS 2023)

Новый улучшенный способ image editing с помощью диффузий

Решают проблему того, что в image editing зачастую промпт не может хорошо описать редактирование, которое мы хотим применить. Метод состоит из 2 компонентов:

1) Берут модель, использующую картинку со стилем в качестве conditioning, тут это InstructPix2Pix и тюнят в ней только токен инструкции преобразования в эмбеддинге промпта

2) Добавляют лосс, регулирующий направления преобразования и его промпта в латентном пространстве. Тут это просто косинусовое расстояние между промптом стиля и разницей между CLIP эмбеддингами картинок “до” и ”после”

Во время инференса, мы имеет более точное соотношение эмбеддингов промпта стиля и картинок + можем делать конкатенацию нескольких токенов инструкций, чтобы вносить больше деталей

Метод работает по качеству сравнимо с InstructPix2Pix и SDEdit

👀

LINK

#diffusion #imageediting #visualprompting

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍1

176 views15:14

rizzearch

Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning Environments

Очень Крутая визуальная статья, которая показывает, как всего лишь на одной 3д картинке можно посмотреть на «обобщенную внутреннюю реакцию» модели на награду. Подтверждает некоторые common wisdom, например, что клиппинг в PPO реально не дает агенту сделать слишком большой шаг и разойтись - теперь это видно по графику во время оптимизации

Можно ли такое применить не в рл? Да, можно визуализировать любую метрику, которую вы евалите во время обучения (да или даже после), если вам это надо. Вопрос остается за тем, будет ли валидно смотреть на такие графики для подтверждения или опровержения каких-то гипотез относительно этой метрики

👀LINK

#rl #visualization

🔥2

227 views19:41

rizzearch

Explaining RL Decisions with Trajectories

Довольно простой и работающий пайплайн, как выявить значимость траекторий принятий решений при обучении алгоритма: appropriate encoding + clustering, затем обучаем много-много политик, в каждой исключая по определенному кластеру, разница в перформансе указывает на значимость соответствующих кластеров траекторий

Можно ли применить не только к рл? Конечно, замените в тексте выше «траекторию» на «последовательность», «политику» на «модель» и получите простой метод интерпретации чего-то там для séquence data

👀LINK

#rl #decisionmaking #sequence #interpretability #representationlearning

👍2

201 views07:56

rizzearch

Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL

Момент, когда специфичная теория на стыке областей работает. Применяют теорию диффуров для linear iteration dynamics + neural tangent kernel, чтобы получить метрику под названием Self-Excite Eigenvalue Measure (SEEM), которая показывает в начале обучения, разойдется ли метод оффлайн рл или нет. Если воспроизводить код - (вроде) работает + дает повод логгировать хоть что-то во время обучения, не относящееся к евалу ( с этим в рл туго, потому что зачастую тот же самый лосс практически никогда не говорит о том, какой результат будет на тесте )

Теперь и думай, как это соотносится со статьей про инстинкт выживания

👀LINK

#r #offlinerl #differentialequations #neuraltangentkernel #stability

🤔2

173 viewsedited 05:10

rizzearch

Generative Models as Distributions of Functions (AISTATS 2022)

А вы когда-нибудь задумывались о представлении картинок не с помощью решетки пикселей, а с помощью функций?

Авторы этой статьи задумались и предложили моделировать картинки именно таким способом. Достигается это с помощью неявного представления функции преобразования координат в RGB значения. В такие представления добавляют random Fourier feature encoding, чтобы выучивать сигнал разной частоты. Нейронка состоит из генератора hypernetwork, веса которой и представляют функцию преобразования, и дискриминатора PointConv, который расценивает выход нашей функции как набор точек с мерой дистанции, т.е это point cloud. Модель учится как GAN с minimax игрой

А спросите, нафиг это нужно? Тема в том, что тут размер сети скейлится линейно от размера данных + мы можем юзать одну сеть для разных модельностей типо картинок, вокселей или даже данных на сфере

Забавная идейка в общем, что сказать 🤑

👀 LINK

#generative #hypernetwork #functionrepresentation

❤1

177 views21:40

rizzearch

Large Language Models as General Pattern Machines

Really profound paper, который еще больше раскрывает способности инконтекста ллмок. Обученная выполнять языковые задачи, ллм способна принимать на вход закодированные состояния среды и производить адекватные низкоуровневые действия, то есть решать задачу планирования, не говоря уже о том, что в целом решает задачки Abstraction and Reasoning, поданные в виде ascii art

Conclusion: «LLMs can serve as general sequence modelers, driven by in-context learning.»

👀LINK

#nlp #llm #patternrecognition #incontextlearning

❤2🔥2

203 views10:21

rizzearch

The Difficulty of Passive Learning in Deep Reinforcement Learning

Вспомним базу рл: агент учится правильным действиям, исправляя свои ошибки, которые он сделал в среде. Тем не менее, учиться только на онлайн данных ооочень долго, практически все время нейронка на цпу (можно даже не переключаться на гпу, так чуть быстрее будет). К тому же, в реальных ситуациях такой открытый доступ к среде почти невозможен

поэтому уже очень долго разрабатывали всякие методы, где учатся и на заранее сохраненных примерах состояния-действия-награды, при том не факт, что они были собраны этим самым агентом. Самый простой пример - хранить в памяти довольно большой буффер данных с произведенными ранее действиями агента и прочим, обучаться на них и постепенно его обновлять. Даже после одного обновления весов по факту модель уже не та - веса другие, поэтому тут агент тоже обучается не совсем на своих же данных (своем поведении)

Гугловские ребята еще давно нашли в этом слабость на глубинном уровне, связанном с понятием пассивного обучения из эксперимента 20-ого века, где котенок не понимает последствия своих действий, потому что он напрямую и не влияет на ситуацию (логично) 🐱

🐱

К сожалению, эта проблема остается (и видимо останется) открытой, ведь аналогично человек тоже хуже вычленяет каузальные паттерны, которые улучшают его жизнь в каком-то смысле, не на своих собственных примерах поведения

👀LINK

#rl #passivelearning

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🔥1

212 views18:11

rizzearch

Training Diffusion Models with Reinforcement Learning

Беркли и MIT показывают, что процесс денойзинга в диффузиях можно переформулировать в Марковский Процесс принятия решений (MDP), а значит и использовать функцию награды. А еще лучше использовать ее там, где промптом или определенным лоссом нужды извне так просто не выразишь (эстетичность, компрессибилити, соответствие промпту, подсчет объектов и так далее)

Вопросом остается, как все-таки сделать эту ревард функцию и как именно файнтюнить модель с ее учетом - авторы формулируют ревард функции при помощи других моделек, сохраняя ту семантику, которую они встраивают + используют простой метод reinforce для дообучения

Результаты прикольные, особенно учитывая то, что методы в рл используются относительно примитивные и здесь еще много непаханного поля по улучшению результата (+ генеративные модели здесь так же относительно старые, скорее всего из-за сложностей во времени обучения)

👀LINK

#rl #diffusion #text2img #promptalignment #mdp

🔥3❤1

217 views20:23

rizzearch

Layer-wise linear mode connectivity

Прикольная статья, которая теоретически и эмпирически показывает, почему прямое усреднение параметров моделей с одинаковой архитектурой улучшает результат, а точнее усреднение параметров конкретных слоев

Позволяет выйти в поверхности функции потерь на место с отсутствием linear barrier => parameters averaging снижает лосс, что далеко нетривиально для невыпуклых лоссов глубоких сетей

👀LINK

#representationlearning #parametersaveraging #losssurface

🔥2

224 views17:22

rizzearch

Data Distributional Properties Drive Emergent In-Context Learning in Transformers (NeurIPS 2022)

Интересная статейка с нипса 22 года про причины in-context learning (ICL). Тут авторы приводят несколько наблюдений

1) Есть свойства данных, которые коррелируют с возможностью модели в ICL. Это "burstiness" (насколько классы в последовательности собираются в кластера), число и частота классов, различность в значениях одного класса и внутреклассовые вариации семплов. Эти выводы можно использовать для анализа различных ICL сетапов

2) In-context learning зачастую идет в трейд-офф с in-weights learning (IWL), а свойства в данных для двух сетапов разнятся

3) Трансформеры более способны в ICL, чем рннки, что в целом не сюрприз

4) Существуют сетапы, где модель все может показать и ICL и IWL, например, если данные семплируются из распределения Ципфа, которое несет важную информацию о распредлении частотности слова в языке

👀

LINK

#nlp #incontextlearning #inweightslearning

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🤔1

216 views10:26

rizzearch

Foundation Policies with Hilbert Representations

фаундейшн модели остаются открытым вопросом в области рл, поскольку зачастую эти методы требуют большого разнообразия и высокой экспертности данных для того, чтобы хоть что-то завелось. Беркли, а именно Seohong Park, решают эту проблему через латентное представление в Гильбертовом пространстве (звучит умно, а на самом деле в этом пространстве просто достаточно, чтобы inner product соответствовал метрике), которое сохраняет временные зависимости между состояниями в пространственных между эмбеддингами.

Политика же обучается после этого с формулированием подобного же intrinsic reward'a

Что это дает? возможность решать много разных goal-conditioned и zero-shot rl задач, обгоняя алгоритмы, которые затюнены специально под каждую конкретную таску

👀LINK

#rl #zeroshot #goalconditioning #hilbert #offlinerl

👀2

220 views18:44

rizzearch

Identifying Policy Gradient Subspaces

В оптимизации супервайзд лернинга есть находка относительно градиентов - они лежат в каком-то подпространстве параметров, при этом это подпространство меняет свою форму относительно медленно

Авторы решили поискать то же самое и в полиси градиент методах рл - и выяснили то же самое!

А что ето значит? А то, что любые методы по ускорению обучения супервайзд лернинга, которые используют факт low-dimensional gradient subspace coverage, можно без зазрения совести использовать и в классичных алгоритмах рл, задумываясь о других аспектах методов

👀LINK

#rl #optimization #subspace #policygradient

❤2👍2

203 views20:59

rizzearch

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

А вот и невероятно крутой пример, как использовать факт из поста выше

Сложно найти человека, который ни разу не слышал про ЛоРУ и многие ее производные, которые оч сильно помогают файнтюнить большие модельки при непосредственном обучении отдельного относительно небольшого количества параметров

А вот можно лучше, как оказывается!😼

Авторы показывают, что оптимизацию в низкоранговом пространстве можно сделать эффективно относительно памяти для всех параметров модели. А как? Да просто проецировать градиенты в подпространство, делать там апдейт, и возвращаться в исходное пространство

А как найти это подпространство? Через сингулярное разложение, оф корс😎

😎

👀LINK

#llm #optimization #lowrank #memory #lora

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍1

237 views21:01

rizzearch

Massively Scalable Inverse Reinforcement Learning in Google Maps

Что насчет применения инверс рейнфорсмент лернинга, задачки где надо восстановить ревард функцию, на графах, где граф - маршруты на нашей земле. А ревард функция зачем? - чтобы научить алгоритм находить кратчайшие маршруты, конечно

А такое возможно 🤔?
А что насчет компрессии графов, пространственной параллелизации и увеличения производительности? - ну тоже есть, вот Гугл раскрыл как применяет рл и нормально так времени на маршрут сбавляет по всему миру

👀LINK

#rl #graph #mdp #inverserl

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

209 views14:06

rizzearch

To the Max: Reinventing Reward in Reinforcement Learning

Все обучение с подкреплением зиждится на максимизации функции награды, а точнее на ее максимизации в долгосрочной перспективе, в основном - это (дисконтированная) сумма наград

Но что делать в ситуациях, когда сумма наград не подходит под решение задачи? Например, награды, сделанные в лоб для того, чтобы заставить агента делать то, что человек хочет, зачастую разреженные, а такое оптимизируется ой как непросто и в классическом дип лернинге, не то что в рл

Авторы предлагают в таком случае переформулировать постановку оптимизации не суммы наград, а максимума из наград, что поможет в таких случаях
А как такое сделоть? Через доп переменную, которая интуитивно является аккумулируемой переменной максимума, а остальные детали не отличаются от классических имплементаций

👀LINK

#rl #reward

236 views15:17

rizzearch

Forwarded from Complete AI (Andrey Kuznetsov)

🕯️Друзья, вчера случилась большая трагедия!

Нападение террористов на Крокус привело к большому числу жертв и пострадавших.

Сбер не остался в стороне и вместе с Российским красным крестом запустил благотворительный фонд. Прошу не оставаться в стороне, помощь каждого из вас безмерно важна🙏

➡️По ссылке сразу перейдёте в Сбербанк Онлайн и сможете внести пожертвование.

Берегите себя🙏

Sberbank

СберБанк Онлайн

🙏5

206 views11:57

rizzearch

CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation

⚡️

CVPR 2024

⚡️

Новый метод дистилляции unconditional диффузии для conditional данных в один этап. Напоминание - дистилляция в consistency models работает в два шага, если мы хотим иметь какое-то условие для генерации. Сначала мы дистиллируем, а потом тюним с каким-нибудь адаптером, ну или наоборот. Так вот CoDi позволяет это делать в один шаг

Модель учится на подобие ControlNet, что позволяет принимать conditioning. Лосс же (уже conditional модели) состоит из двух частей для self-consistency: дистанция по предиктам шума и дистанция по предикту сигнала изображения. Вторая часть приближает предсказанный conditional сигнал к изначальной картинке, что помогает бороться с over-saturated генерациями

Модель отлично себя показывает в 1-4-step генерациях против LDM, ControlNet, CM, Instruct-Pix2Pix и разных видов дистилляций

👀

LINK

#diffusion #diffusiondistillation #consistency #controlnet

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

225 views10:01

rizzearch

Simple and Principled Uncertainty Estimation with Deterministic Deep Learning via Distance Awareness

А вот вам немного OOD с приколами 🥶

Авторы формулируют задачу подсчета неуверенности модели через minimax проблему, где нам интересно минимизировать worst-case риск по всем тренировочнм распределениям. Такая формулировка в стандартном сетапе ведет к предсказаниям с максимальной энтропией для OOD данных. Но для того, чтобы оценить вероятность домена данных нам нужна мера расстояния конкретного семпла до тренировочной выборки (звучит логично 💯)

Логиты нейронных сетей не несут в себе меры расстояния от in-domain данных, в отличие от гауссовских процессов с радиальной базисной функцией (RBF). В них дисперсия постериора растет по мере удаления тестового семпла от in-domain выборки

Для того, чтобы получить distance-aware нейронку, авторы вставляют вместо последнего слоя гауссовский процесс. Однако просто так это сделать нельзя из-за вычислительных сложностей. Давайте аппроксимировать гауссовский процесс с помощью случайных признаков Фурье, получая байесовскую линейную модель. Для таких сетапов есть много вариантов аппроксимации постериора, и авторы выбирают аппроксимацию Лапласа. В итоге получается дешевый distance-aware метод для uncertainty estimation

Последний штрих - спектральная нормализация для гарантии на ограниченность фичей по Липшицу. Это нам нужно опять же для полной уверенности в связи наших предиктов и меры расстояния

👀

LINK

#uncertainty #laplaceapproximation #gaussianprocess #bayesian #ood

Please open Telegram to view this post

VIEW IN TELEGRAM

👀6👍2🔥2

227 views14:27

About

Blog

Apps

Platform