rizzearch

ANIMATEDIFF: ANIMATE YOUR PERSONALIZED
TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT
SPECIFIC TUNING

Abstract
Целью данного исследования является создание архитектуры генерации видео поддерживающей подмену фундаментальной модели генерации изображений на дообученные с использованием LoRA или DreamBooth версиями. Таком образом задачей становится разработка plug and play модуля моделирования временной оси.

ссылка

#Diffusion #Video #LoRA

186 views18:04

rizzearch

Neural Network Diffusion

Тренят латентную диффузию для генерации весов модели. Интересно, что для этого достаточно стандартного сетапа, а полученные генерации on-par по сравнению с SGD тренировкой. Имхо, есть интересный потенциал

P.S. но их там что-то реджектнули на iclr ((

Link

#Diffusion

179 views18:04

rizzearch

https://openreview.net/forum?id=C61sk5LsK6

Простой метод прунинга данных с сохранением несмещенности градиента относительно исходного датасета

Вроде их приняли но я не уверен

#optimization

openreview.net

InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning

Data pruning aims to obtain lossless performances with less overall cost. A common approach is to filter out samples that make less contribution to the training. This could lead to gradient...

192 views18:04

rizzearch

https://openreview.net/pdf?id=nfIAEJFiBZ

добавляют контролируемый шум в градиент апдейт для повышения эксплоративности моделей рл
потенциально можно вставить в любую задачу и посмотреть что выдает (например, вставляем шум в в обновление градиента - узнаем о характере loss surface или превентим/ускоряем оверфит)

#rl #exploration #optimization

🔥1

185 views18:04

rizzearch

https://openreview.net/pdf?id=Zbt9z0a95l

хороший фреймворк по тому как делать кусочно-линейные интерпретируемые аппроксиматоры. разделяем выходное пространство на куски, фиттим сетку определять, к какому куску выходного пространства определить аутпут + ею же фиттим коэффициенты для линейного преобразования

#rl #interpretability

197 views18:04

rizzearch

https://openreview.net/pdf?id=b3Cu426njo

мета лернинг метод, где приоры, относительно которых происходит апдейт параметров, так же смещаются постепенно по ходу обучения (в рамках теоретических границ)

#optimization #metalearning

204 viewsedited 18:23

rizzearch

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

Авторы ставят целью разработку zero-shot модели генерации видео. Для этого они вводят два нововведения:

1. Модификация латентов изображений для задания имитации движения объектов по оси времени.
2. Межкадровый механизм внимания между первым кадром видео и всеми остальными для сохранения контекста

Более того авторы используют данную архитектуру для задач условной генерации видео, модификации видео, *Video Instruct-Pix2Pix*

👀 LINK

#video #diffusion

arXiv.org

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot...

Recent text-to-video generation approaches rely on computationally heavy training and require large-scale video datasets. In this paper, we introduce a new task of zero-shot text-to-video...

219 viewsedited 18:28

rizzearch

Decision ConvFormer: Local Filtering in MetaFormer is Sufficient for Decision Making

Заменяют аттеншн в десижн трансформере на очень хитрую depthwise свертку. Сделано для того, чтобы трансформер блок мог легче обрабатывать последовательности с марковской ассоциативностью

Где-то есть прирост в результатах, где-то не особо

Attention is not (sometimes) all you need

👀 LINK

#transformer #attention #convolution #mdp #rl

224 viewsedited 20:45

rizzearch

DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps

Быстрый солвер probability flow ODE

Идея такая. У нас есть probability flow ODE, этот диффур имеет линейную и нелинейные части → является semi-linear ODE. Стандартные солверы игнорируют такую природу диффуров, что вызывает дополнительные ошибки при дискретизации. Однако, для semi-linear ODE есть формулировка решения через вариацию констант, которая позволяет напрямую оценивать линейную часть. Применяя ее, и расписывая интеграл с нелинейной частью через логарифм SNR-ratio, мы получаем exact решение для всего ODE. Важно, что итоговая форма решения имеет в себе так называемый экспоненциально взвешенный интеграл, который был хорошо изучен в контексте ODE солверов

В солвере раскладывают экспоненциально взвешенный интеграл с помощью разложение модели скора в ряд Тейлора n раз, получая сумму производных модели n-ого порядка (аппроксимируется уравнениями с жесткими условиями) и аналитический интеграл

Шаги в солвере надо выбрать заранее и есть два варианта: разбить [T, 0) равномерно или же делать адаптивные шаги, используя солверы с постепенно снижающимся порядком

DDIM идентичен DPM-солверу первого порядка, т.е он также использует semi-linearity of probability flow

👀 LINK

#Diffusion #DiffusionSampling #ODE

🔥1

234 viewsedited 08:24

rizzearch

Generalized Policy Iteration Using Tensor Approximation for Hybrid Control

Введение Tensor-Train Approximation в мир RL. Хорошо показывают надобность в генерализации пространства смешанного контроля ( когда состояния/действия могут быть как непрерывными, так и дискретными) + хороший вводный текст про такую сферу как тензорные поезда 🚂

👀 LINK

#rl #optimization #tensortrain

250 viewsedited 20:07

rizzearch

Reflected Diffusion Models

Вам, наверное, знакома тема трешхолдинга в диффузиях. При больших весах guidance выход модели может выходить за допустимые границы значений картинок, поэтому семплирование может выдавать полную дичь, и нам хотелось бы клипать все до адекватных значений. Трешхолдинг, например, является одной из центральных идей в гугловском Imagen. Так вот, делать это тоже не очень хорошо, т.к мы нарушаем наш диффузионных процесс. Он все же генерит красивые картинки, но уже не имеет теоретических гарантий

В статье предлагают делать forward и backward процессы на носителе данных. Для этого используют reflected SDEs, где у нас добавляет часть dL, которая нейтрализует шаги за границу data domain. Все конечно не так просто, и в статье объясняют, что для такого случая нам нужен constrained score matching, у которого есть пара способов аппроксимации + теоретические детали про связь ELBO и их score matching

👀 LINK

#Diffusion #SDE

👍4

278 views20:28

rizzearch

Privileged Sensing Scaffolds Reinforcement Learning

«We need to look at our shoelaces as we first learn to tie them but having mastered this skill, can do it from touch alone. We call this phenomenon “sensory scaffolding”: observation streams that are not needed by a master might yet aid a novice learner.»

Почему бы не разделить обсервейшны, которые принимает на вход агент, на подчасти, которые важны всегда, и которые становятся бесполезными после (удачного) обучения?

👀 LINK

#rl #mdp

🔥2👍1

304 viewsedited 21:31

rizzearch

Non-negative Contrastive Learning

Хочется интерпретируемости эмбеддингам, полученным при помощи контрастив лернинг метода + интересует проблема ротационной симметрии? Попробуйте Non-negative constrastive learning. Показывают связь с Non-Negative Matrix Factorization + показывают, что над эмбеддингами достаточно применить неотрицательную активацию и выдвинутый метод оптимизации для достижения всех упомянутых свойств

👀 LINK

#representationlearning #explainability #interpretability

🔥2👍1

331 viewsedited 21:45

rizzearch

A Good Learner can Teach Better: TEACHER-STUDENT COLLABORATIVE KNOWLEDGE DISTILLATION

Как улучшить существующий Knowledge Distillation? Взять интуицию из реальной жизни, где студент совершенствуются в основном на своих же ошибках. Как это реализовать? - добавить рл награду, которая легко получается сравнением аутпутов моделей тичера и стьюдента

Стильно, просто, модно, молодежно
RL шагает вширь и вглубь

👀LINK

#rl #optimization #knowledgedistillation #reinforce #metalearning

👍1

220 views10:20

rizzearch

Common Diffusion Noise Schedules and Sample Steps are Flawed

Ребята из тиктока заметили проблемку в схеме наложения шума в диффузиях. Проблема в том, что текущие модели во время обучения на последних шагах сохраняют какую-то порцию сигнала в данных. А мы хотели бы иметь чистый шум

Почему? Сигнал, который может остаться на шаге T на самом деле очень мощный, и это ведет к несоответствию forward-backward процессов и генерациям примерно одной яркости. Например, Stable Diffusion не сгенерит вам полностью черный квадрат из-за этой проблемы

Решение простое - рескейлим noise schedule и дополнительно инпут в guidance, чтобы иметь нулевой конечный signal-to-noise ratio

👀 LINK

#Diffusion #DiffusionSampling

🔥4👍2

227 views13:57

rizzearch

Improving Image Generation with Better Captions (DALL-E 3)

Авторы адресует проблему плохого понимания текста моделью плохой разметке тренировочного датасета и предполагают что синтетические описания собранные image-captioner-ом могут исправить данную проблему. Они провели несколько экспериментов, обучив модель на исходных промптах, коротких из captioner-a, длинных из captioner-a. В ходе экспериментов подтвердилось, что использование синтетических промптов благотворно влияет на качество выходной модели. Почему?

Важные детали часто упускаемые из описаний к изображениям в интернете:

- детали типо: дорожных знаков на улице, описания различных объектов
- позиции объектов и их число
- размеры объектов, цвета, какие-то общие признаки
- текст на изображении

Также существует проблема, заключающаяся в том, что часто в описаниях изображений используются хештеги и текст не относящийся к самому изображению.

Провели эксперимент по сравнению качества моделей, обученных на синтетике:

1. A text-to-image model trained only on ground truth captions.
2. A text-to-image model trained on 95% short synthetic captions.
3. A text-to-image model trained on 95% descriptive synthetic captions.

Эксперимент показал что обучение на синтетических данных помогло увеличить CLIP score.
Также доказано предположение о том что re-captioner модель будет выполнять роль “усреднителя”, дисперсия выходных данных уменьшилась.

Caption blending ratios

Авторы экспериментировали с отношением синтетических данных в тренировочном наборе, 65%, 80%, 90% и 95%. 65% исключены из графика так как модель показала слишком низкий результат относительно своих конкурентов.

👀 LINK

#Diffusion #text2image

👍6

241 viewsedited 18:36

About

Blog

Apps

Platform