rizzearch
1.01K subscribers
988 photos
11 videos
320 links
Кайфули на каждый день

Авторы:
@zzmtsvv
@maxnygma (AI4Science посты)
Download Telegram
https://openreview.net/pdf?id=Zbt9z0a95l

хороший фреймворк по тому как делать кусочно-линейные интерпретируемые аппроксиматоры. разделяем выходное пространство на куски, фиттим сетку определять, к какому куску выходного пространства определить аутпут + ею же фиттим коэффициенты для линейного преобразования

#rl #interpretability
https://openreview.net/pdf?id=b3Cu426njo

мета лернинг метод, где приоры, относительно которых происходит апдейт параметров, так же смещаются постепенно по ходу обучения (в рамках теоретических границ)


#optimization #metalearning
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

Авторы ставят целью разработку zero-shot модели генерации видео. Для этого они вводят два нововведения:

1. Модификация латентов изображений для задания имитации движения объектов по оси времени.
2. Межкадровый механизм внимания между первым кадром видео и всеми остальными для сохранения контекста

Более того авторы используют данную архитектуру для задач условной генерации видео, модификации видео, *Video Instruct-Pix2Pix*

👀 LINK

#video #diffusion
Decision ConvFormer: Local Filtering in MetaFormer is Sufficient for Decision Making

Заменяют аттеншн в десижн трансформере на очень хитрую depthwise свертку. Сделано для того, чтобы трансформер блок мог легче обрабатывать последовательности с марковской ассоциативностью

Где-то есть прирост в результатах, где-то не особо

Attention is not (sometimes) all you need

👀 LINK

#transformer #attention #convolution #mdp #rl
DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps

Быстрый солвер probability flow ODE

Идея такая. У нас есть probability flow ODE, этот диффур имеет линейную и нелинейные части → является semi-linear ODE. Стандартные солверы игнорируют такую природу диффуров, что вызывает дополнительные ошибки при дискретизации. Однако, для semi-linear ODE есть формулировка решения через вариацию констант, которая позволяет напрямую оценивать линейную часть. Применяя ее, и расписывая интеграл с нелинейной частью через логарифм SNR-ratio, мы получаем exact решение для всего ODE. Важно, что итоговая форма решения имеет в себе так называемый экспоненциально взвешенный интеграл, который был хорошо изучен в контексте ODE солверов

В солвере раскладывают экспоненциально взвешенный интеграл с помощью разложение модели скора в ряд Тейлора n раз, получая сумму производных модели n-ого порядка (аппроксимируется уравнениями с жесткими условиями) и аналитический интеграл

Шаги в солвере надо выбрать заранее и есть два варианта: разбить [T, 0) равномерно или же делать адаптивные шаги, используя солверы с постепенно снижающимся порядком

DDIM идентичен DPM-солверу первого порядка, т.е он также использует semi-linearity of probability flow

👀 LINK

#Diffusion #DiffusionSampling #ODE
🔥1
Generalized Policy Iteration Using Tensor Approximation for Hybrid Control

Введение Tensor-Train Approximation в мир RL. Хорошо показывают надобность в генерализации пространства смешанного контроля ( когда состояния/действия могут быть как непрерывными, так и дискретными) + хороший вводный текст про такую сферу как тензорные поезда 🚂

👀 LINK

#rl #optimization #tensortrain
Reflected Diffusion Models

Вам, наверное, знакома тема трешхолдинга в диффузиях. При больших весах guidance выход модели может выходить за допустимые границы значений картинок, поэтому семплирование может выдавать полную дичь, и нам хотелось бы клипать все до адекватных значений. Трешхолдинг, например, является одной из центральных идей в гугловском Imagen. Так вот, делать это тоже не очень хорошо, т.к мы нарушаем наш диффузионных процесс. Он все же генерит красивые картинки, но уже не имеет теоретических гарантий

В статье предлагают делать forward и backward процессы на носителе данных. Для этого используют reflected SDEs, где у нас добавляет часть dL, которая нейтрализует шаги за границу data domain. Все конечно не так просто, и в статье объясняют, что для такого случая нам нужен constrained score matching, у которого есть пара способов аппроксимации + теоретические детали про связь ELBO и их score matching

👀 LINK

#Diffusion #SDE
👍4
Privileged Sensing Scaffolds Reinforcement Learning

«We need to look at our shoelaces as we first learn to tie them but having mastered this skill, can do it from touch alone. We call this phenomenon “sensory scaffolding”: observation streams that are not needed by a master might yet aid a novice learner.»

Почему бы не разделить обсервейшны, которые принимает на вход агент, на подчасти, которые важны всегда, и которые становятся бесполезными после (удачного) обучения?

👀 LINK


#rl #mdp
🔥2👍1
Non-negative Contrastive Learning

Хочется интерпретируемости эмбеддингам, полученным при помощи контрастив лернинг метода + интересует проблема ротационной симметрии? Попробуйте Non-negative constrastive learning. Показывают связь с Non-Negative Matrix Factorization + показывают, что над эмбеддингами достаточно применить неотрицательную активацию и выдвинутый метод оптимизации для достижения всех упомянутых свойств

👀 LINK


#representationlearning #explainability #interpretability
🔥2👍1
A Good Learner can Teach Better: TEACHER-STUDENT COLLABORATIVE KNOWLEDGE DISTILLATION


Как улучшить существующий Knowledge Distillation? Взять интуицию из реальной жизни, где студент совершенствуются в основном на своих же ошибках. Как это реализовать? - добавить рл награду, которая легко получается сравнением аутпутов моделей тичера и стьюдента

Стильно, просто, модно, молодежно
RL шагает вширь и вглубь

👀LINK

#rl #optimization #knowledgedistillation #reinforce #metalearning
👍1
Common Diffusion Noise Schedules and Sample Steps are Flawed

Ребята из тиктока заметили проблемку в схеме наложения шума в диффузиях. Проблема в том, что текущие модели во время обучения на последних шагах сохраняют какую-то порцию сигнала в данных. А мы хотели бы иметь чистый шум

Почему? Сигнал, который может остаться на шаге T на самом деле очень мощный, и это ведет к несоответствию forward-backward процессов и генерациям примерно одной яркости. Например, Stable Diffusion не сгенерит вам полностью черный квадрат из-за этой проблемы

Решение простое - рескейлим noise schedule и дополнительно инпут в guidance, чтобы иметь нулевой конечный signal-to-noise ratio

👀 LINK

#Diffusion #DiffusionSampling
🔥4👍2
Improving Image Generation with Better Captions (DALL-E 3)

Авторы адресует проблему плохого понимания текста моделью плохой разметке тренировочного датасета и предполагают что синтетические описания собранные image-captioner-ом могут исправить данную проблему. Они провели несколько экспериментов, обучив модель на исходных промптах, коротких из captioner-a, длинных из captioner-a. В ходе экспериментов подтвердилось, что использование синтетических промптов благотворно влияет на качество выходной модели. Почему?

Важные детали часто упускаемые из описаний к изображениям в интернете:

- детали типо: дорожных знаков на улице, описания различных объектов
- позиции объектов и их число
- размеры объектов, цвета, какие-то общие признаки
- текст на изображении

Также существует проблема, заключающаяся в том, что часто в описаниях изображений используются хештеги и текст не относящийся к самому изображению.


Провели эксперимент по сравнению качества моделей, обученных на синтетике:

1. A text-to-image model trained only on ground truth captions.
2. A text-to-image model trained on 95% short synthetic captions.
3. A text-to-image model trained on 95% descriptive synthetic captions.

Эксперимент показал что обучение на синтетических данных помогло увеличить CLIP score.
Также доказано предположение о том что re-captioner модель будет выполнять роль “усреднителя”, дисперсия выходных данных уменьшилась.

Caption blending ratios

Авторы экспериментировали с отношением синтетических данных в тренировочном наборе, 65%, 80%, 90% и 95%. 65% исключены из графика так как модель показала слишком низкий результат относительно своих конкурентов.

👀 LINK

#Diffusion #text2image
👍6
t^3-Variational Autoencoder: Learning Heavy-tailed Data with Student's t and Power Divergence


Реальные данные часто сопровождаются тяжелыми выбросами или имеют в своем поведении что-то похожее на распределения с тяжелыми хвостами (если не знаете, что это, можете почитать «Черного Лебедя» Нассима Талеба), а это, в свою очередь, тяжело моделируется любимым нормальным распределением. To overcome this issue, придумали ВАЕ, который способен вылавливать эти тяжелые хвосты

Ждем чистой имплементации

👀LINK

#optimization #ae #vae #bayesian #representationlearning
4
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

MS учат LLM с параметрами в один бит. Но не совсем. Биты тут тернарные, - ребята сделали каждый параметр в модели принимающим значения из множества {-1, 0, 1}.

Исследование интересно следующим:
Во-первых, модели из статьи, эквивалентные по количеству параметров LLAMA в FP16, выдают сравнимую перплексию и метрики на downstream задачах, при этом потребление VRAM-ы и Latency значительно ниже.

Во-вторых, квантование до 1 бита (пусть и тернарного) позволит гораздо более эффективно выполнять некоторые операции на специализированном железе. В общем, наблюдаем за Groq и другими стартапами, которые делают LPU.

Предлагаю адаптировать меру ебучих шакалов, используемую для оценки степени сжатия изображения, для оценки статей, в которых упоминаются веса с меньшей битностью, чем 32. Сколько шакалов дадите этой статье?

👀LINK

#nlp #llm #weight_quantization
🔥6
Gradual Domain Adaptation via Gradient Flow

Предположим, есть методы плавной доменной адаптации, а как можно их улучшить? Может, при помощи flow? Так и есть, а именно при помощи Gradient flow, где динамически генерируются промежуточные домены, на которых постепенно файнтюнится классификатор и тем самым адаптируется к изначальным, которые и были даны в датасете


👀LINK


#domainadaptation #flow #gradientflow #wasserstein
Bridging Associative Memory and Probabilistic Modeling (ICML 2024 submit)

Статья с кучей авторов описывает связь ассоциативной памяти и вероятностных моделей. Контрибьюшенов много из них есть:

1) Самое интересное. Модели ассоциативной памяти (рнн, трансформеры и тд) и energy-based models (EBMs) обе работают с функцией энергии. В первых динамика состояния связана с минимизацией энергии, а во вторых мы моделируем плотность данных с помощью распределения Гиббса, где фигурирует энергия. Так вот, associative memory models способны легко менять ландшафт функций энергии для новых данных. Авторы предлагают EBM, которая использует энергию условную от данных. Это ведет к наблюдению нового феномена in-context обучения функций энергии, подобного in-context обучению в NLP

2) Предлагают две новые модели с ассоциативной памятью, базирующиеся на ELBO и на стохастическом Китайском ресторанном процессе (CRP). Тут глубоко почитать не удалось

3) KDE связан с концептом памяти + дают теорию объясняющую нормализацию перед self-attention в трансформерах, используя пункт (2)

Интересно, можно ли будет сделать новые вероятностные методы, используя понимания связи associative memory и EBM-ок 🤔

👀 LINK

#associative_memory #EBM #clustering #transformers #RNN #in_context_learning
🔥3👍1
Lion Secretly Solves a Constrained Optimization: As Lyapunov Predicts (ICLR 2024 Spotlight)


Though Lion выглядит впечатляющим из-за своей простоты и быстроты, в деле оптимизации всегда важны теоретические выкладки. Авторы приводят их в виде анализа на уровне функций Ляпунова и показывают, какую задачу условной оптимизации решает Лион

Теперь этот оптимизатор можно в работе использовать еще увереннее


👀LINK

#optimization #lyapunov #hamiltonian #adam #adamw
🤔41
Matryoshka Diffusion Models (ICLR 2024)

Apple показали как можно генерировать картинки разного скейла с помощью одной диффузии. Без всяких каскадных штук. Метод называется "матрешкой" не просто так. Он совмещает в себе модифицированный U-net - Nested U-Net, где наряду с латентными переменными для даунскейлинга и апсемплинга используются картинки с предыдущего шага, а также тренировочный процесс, в котором мы подаем в диффузию картинки сразу нескольких размеров

Тренируется все это стандартным лоссом, взвешенным от размера картинки. Также авторы указывают, что multi-aspect training в GAN также работает и тут: полезно начинать обучение с маленького размера, постепенно его повышая

Ждем, когда большие игроки натренят такое решение на больших датасетах, т.к авторы решили ограничиться CC12 (это не отменяет неплохих результатов)

👀 LINK

#diffusion #unet
🔥3💩1
DrM: Mastering Visual Reinforcement Learning through Dormant Ratio Minimization (ICLR 2024 Spotlight)


Знаете проблему dead neurons? Не такая уж она и нечастая. Авторы обобщают эту идею до «спящих» (dormant) нейронов, когда активации настолько малы, что не превышают заранее заданный малюююююююсенький порог. Это довольно проблематично в рл, поскольку такой феномен не дает не только нормального обучения, но и агенту расследовать (explore) среду, в которую его погрузили

Есть ли решение, которое применимо не только к рл? Да!! Достаточно применить шум напрямую к весам (называемый в статье perturb factor, улавливаете аналогию с регуляризацией посредством добавления шума в веса?), который повысит стохастичность нейронов, но не даст им угаснуть вовсе, что стабилизирует картину к концу обучения

Что есть прикольного применительно к рл? Через понятие dormant ratio выводят формулы для коэффициента, связанного с исследованием среды (exploration noise standard deviation), что, по эмпирике, улучшает картину exploration-exploitation при засыпающих нейронах


👀LINK


#rl #relu #deadneuron #exploration #exploitation #regularization #perturbation #mdp
1🔥1