ANIMATEDIFF: ANIMATE YOUR PERSONALIZED
TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT
SPECIFIC TUNING
Abstract
Целью данного исследования является создание архитектуры генерации видео поддерживающей подмену фундаментальной модели генерации изображений на дообученные с использованием LoRA или DreamBooth версиями. Таком образом задачей становится разработка plug and play модуля моделирования временной оси.
ссылка
#Diffusion #Video #LoRA
TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT
SPECIFIC TUNING
Abstract
Целью данного исследования является создание архитектуры генерации видео поддерживающей подмену фундаментальной модели генерации изображений на дообученные с использованием LoRA или DreamBooth версиями. Таком образом задачей становится разработка plug and play модуля моделирования временной оси.
ссылка
#Diffusion #Video #LoRA
Neural Network Diffusion
Тренят латентную диффузию для генерации весов модели. Интересно, что для этого достаточно стандартного сетапа, а полученные генерации on-par по сравнению с SGD тренировкой. Имхо, есть интересный потенциал
P.S. но их там что-то реджектнули на iclr ((
Link
#Diffusion
Тренят латентную диффузию для генерации весов модели. Интересно, что для этого достаточно стандартного сетапа, а полученные генерации on-par по сравнению с SGD тренировкой. Имхо, есть интересный потенциал
P.S. но их там что-то реджектнули на iclr ((
Link
#Diffusion
https://openreview.net/forum?id=C61sk5LsK6
Простой метод прунинга данных с сохранением несмещенности градиента относительно исходного датасета
Вроде их приняли но я не уверен
#optimization
Простой метод прунинга данных с сохранением несмещенности градиента относительно исходного датасета
Вроде их приняли но я не уверен
#optimization
openreview.net
InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning
Data pruning aims to obtain lossless performances with less overall cost. A common approach is to filter out samples that make less contribution to the training. This could lead to gradient...
https://openreview.net/pdf?id=nfIAEJFiBZ
добавляют контролируемый шум в градиент апдейт для повышения эксплоративности моделей рл
потенциально можно вставить в любую задачу и посмотреть что выдает (например, вставляем шум в в обновление градиента - узнаем о характере loss surface или превентим/ускоряем оверфит)
#rl #exploration #optimization
добавляют контролируемый шум в градиент апдейт для повышения эксплоративности моделей рл
потенциально можно вставить в любую задачу и посмотреть что выдает (например, вставляем шум в в обновление градиента - узнаем о характере loss surface или превентим/ускоряем оверфит)
#rl #exploration #optimization
🔥1
https://openreview.net/pdf?id=Zbt9z0a95l
хороший фреймворк по тому как делать кусочно-линейные интерпретируемые аппроксиматоры. разделяем выходное пространство на куски, фиттим сетку определять, к какому куску выходного пространства определить аутпут + ею же фиттим коэффициенты для линейного преобразования
#rl #interpretability
хороший фреймворк по тому как делать кусочно-линейные интерпретируемые аппроксиматоры. разделяем выходное пространство на куски, фиттим сетку определять, к какому куску выходного пространства определить аутпут + ею же фиттим коэффициенты для линейного преобразования
#rl #interpretability
https://openreview.net/pdf?id=b3Cu426njo
мета лернинг метод, где приоры, относительно которых происходит апдейт параметров, так же смещаются постепенно по ходу обучения (в рамках теоретических границ)
#optimization #metalearning
мета лернинг метод, где приоры, относительно которых происходит апдейт параметров, так же смещаются постепенно по ходу обучения (в рамках теоретических границ)
#optimization #metalearning
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
Авторы ставят целью разработку zero-shot модели генерации видео. Для этого они вводят два нововведения:
1. Модификация латентов изображений для задания имитации движения объектов по оси времени.
2. Межкадровый механизм внимания между первым кадром видео и всеми остальными для сохранения контекста
Более того авторы используют данную архитектуру для задач условной генерации видео, модификации видео, *Video Instruct-Pix2Pix*
👀 LINK
#video #diffusion
Авторы ставят целью разработку zero-shot модели генерации видео. Для этого они вводят два нововведения:
1. Модификация латентов изображений для задания имитации движения объектов по оси времени.
2. Межкадровый механизм внимания между первым кадром видео и всеми остальными для сохранения контекста
Более того авторы используют данную архитектуру для задач условной генерации видео, модификации видео, *Video Instruct-Pix2Pix*
👀 LINK
#video #diffusion
arXiv.org
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot...
Recent text-to-video generation approaches rely on computationally heavy training and require large-scale video datasets. In this paper, we introduce a new task of zero-shot text-to-video...
Decision ConvFormer: Local Filtering in MetaFormer is Sufficient for Decision Making
Заменяют аттеншн в десижн трансформере на очень хитрую depthwise свертку. Сделано для того, чтобы трансформер блок мог легче обрабатывать последовательности с марковской ассоциативностью
Где-то есть прирост в результатах, где-то не особо
Attention is not (sometimes) all you need
👀 LINK
#transformer #attention #convolution #mdp #rl
Заменяют аттеншн в десижн трансформере на очень хитрую depthwise свертку. Сделано для того, чтобы трансформер блок мог легче обрабатывать последовательности с марковской ассоциативностью
Где-то есть прирост в результатах, где-то не особо
Attention is not (sometimes) all you need
👀 LINK
#transformer #attention #convolution #mdp #rl
DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps
Быстрый солвер probability flow ODE
Идея такая. У нас есть probability flow ODE, этот диффур имеет линейную и нелинейные части → является semi-linear ODE. Стандартные солверы игнорируют такую природу диффуров, что вызывает дополнительные ошибки при дискретизации. Однако, для semi-linear ODE есть формулировка решения через вариацию констант, которая позволяет напрямую оценивать линейную часть. Применяя ее, и расписывая интеграл с нелинейной частью через логарифм SNR-ratio, мы получаем exact решение для всего ODE. Важно, что итоговая форма решения имеет в себе так называемый экспоненциально взвешенный интеграл, который был хорошо изучен в контексте ODE солверов
В солвере раскладывают экспоненциально взвешенный интеграл с помощью разложение модели скора в ряд Тейлора n раз, получая сумму производных модели n-ого порядка (аппроксимируется уравнениями с жесткими условиями) и аналитический интеграл
Шаги в солвере надо выбрать заранее и есть два варианта: разбить [T, 0) равномерно или же делать адаптивные шаги, используя солверы с постепенно снижающимся порядком
DDIM идентичен DPM-солверу первого порядка, т.е он также использует semi-linearity of probability flow
👀 LINK
#Diffusion #DiffusionSampling #ODE
Быстрый солвер probability flow ODE
Идея такая. У нас есть probability flow ODE, этот диффур имеет линейную и нелинейные части → является semi-linear ODE. Стандартные солверы игнорируют такую природу диффуров, что вызывает дополнительные ошибки при дискретизации. Однако, для semi-linear ODE есть формулировка решения через вариацию констант, которая позволяет напрямую оценивать линейную часть. Применяя ее, и расписывая интеграл с нелинейной частью через логарифм SNR-ratio, мы получаем exact решение для всего ODE. Важно, что итоговая форма решения имеет в себе так называемый экспоненциально взвешенный интеграл, который был хорошо изучен в контексте ODE солверов
В солвере раскладывают экспоненциально взвешенный интеграл с помощью разложение модели скора в ряд Тейлора n раз, получая сумму производных модели n-ого порядка (аппроксимируется уравнениями с жесткими условиями) и аналитический интеграл
Шаги в солвере надо выбрать заранее и есть два варианта: разбить [T, 0) равномерно или же делать адаптивные шаги, используя солверы с постепенно снижающимся порядком
DDIM идентичен DPM-солверу первого порядка, т.е он также использует semi-linearity of probability flow
👀 LINK
#Diffusion #DiffusionSampling #ODE
🔥1
Generalized Policy Iteration Using Tensor Approximation for Hybrid Control
Введение Tensor-Train Approximation в мир RL. Хорошо показывают надобность в генерализации пространства смешанного контроля ( когда состояния/действия могут быть как непрерывными, так и дискретными) + хороший вводный текст про такую сферу как тензорные поезда 🚂
👀 LINK
#rl #optimization #tensortrain
Введение Tensor-Train Approximation в мир RL. Хорошо показывают надобность в генерализации пространства смешанного контроля ( когда состояния/действия могут быть как непрерывными, так и дискретными) + хороший вводный текст про такую сферу как тензорные поезда 🚂
👀 LINK
#rl #optimization #tensortrain
Reflected Diffusion Models
Вам, наверное, знакома тема трешхолдинга в диффузиях. При больших весах guidance выход модели может выходить за допустимые границы значений картинок, поэтому семплирование может выдавать полную дичь, и нам хотелось бы клипать все до адекватных значений. Трешхолдинг, например, является одной из центральных идей в гугловском Imagen. Так вот, делать это тоже не очень хорошо, т.к мы нарушаем наш диффузионных процесс. Он все же генерит красивые картинки, но уже не имеет теоретических гарантий
В статье предлагают делать forward и backward процессы на носителе данных. Для этого используют reflected SDEs, где у нас добавляет часть dL, которая нейтрализует шаги за границу data domain. Все конечно не так просто, и в статье объясняют, что для такого случая нам нужен constrained score matching, у которого есть пара способов аппроксимации + теоретические детали про связь ELBO и их score matching
👀 LINK
#Diffusion #SDE
Вам, наверное, знакома тема трешхолдинга в диффузиях. При больших весах guidance выход модели может выходить за допустимые границы значений картинок, поэтому семплирование может выдавать полную дичь, и нам хотелось бы клипать все до адекватных значений. Трешхолдинг, например, является одной из центральных идей в гугловском Imagen. Так вот, делать это тоже не очень хорошо, т.к мы нарушаем наш диффузионных процесс. Он все же генерит красивые картинки, но уже не имеет теоретических гарантий
В статье предлагают делать forward и backward процессы на носителе данных. Для этого используют reflected SDEs, где у нас добавляет часть dL, которая нейтрализует шаги за границу data domain. Все конечно не так просто, и в статье объясняют, что для такого случая нам нужен constrained score matching, у которого есть пара способов аппроксимации + теоретические детали про связь ELBO и их score matching
👀 LINK
#Diffusion #SDE
👍4
Privileged Sensing Scaffolds Reinforcement Learning
«We need to look at our shoelaces as we first learn to tie them but having mastered this skill, can do it from touch alone. We call this phenomenon “sensory scaffolding”: observation streams that are not needed by a master might yet aid a novice learner.»
Почему бы не разделить обсервейшны, которые принимает на вход агент, на подчасти, которые важны всегда, и которые становятся бесполезными после (удачного) обучения?
👀 LINK
#rl #mdp
«We need to look at our shoelaces as we first learn to tie them but having mastered this skill, can do it from touch alone. We call this phenomenon “sensory scaffolding”: observation streams that are not needed by a master might yet aid a novice learner.»
Почему бы не разделить обсервейшны, которые принимает на вход агент, на подчасти, которые важны всегда, и которые становятся бесполезными после (удачного) обучения?
👀 LINK
#rl #mdp
🔥2👍1
Non-negative Contrastive Learning
Хочется интерпретируемости эмбеддингам, полученным при помощи контрастив лернинг метода + интересует проблема ротационной симметрии? Попробуйте Non-negative constrastive learning. Показывают связь с Non-Negative Matrix Factorization + показывают, что над эмбеддингами достаточно применить неотрицательную активацию и выдвинутый метод оптимизации для достижения всех упомянутых свойств
👀 LINK
#representationlearning #explainability #interpretability
Хочется интерпретируемости эмбеддингам, полученным при помощи контрастив лернинг метода + интересует проблема ротационной симметрии? Попробуйте Non-negative constrastive learning. Показывают связь с Non-Negative Matrix Factorization + показывают, что над эмбеддингами достаточно применить неотрицательную активацию и выдвинутый метод оптимизации для достижения всех упомянутых свойств
👀 LINK
#representationlearning #explainability #interpretability
🔥2👍1
A Good Learner can Teach Better: TEACHER-STUDENT COLLABORATIVE KNOWLEDGE DISTILLATION
Как улучшить существующий Knowledge Distillation? Взять интуицию из реальной жизни, где студент совершенствуются в основном на своих же ошибках. Как это реализовать? - добавить рл награду, которая легко получается сравнением аутпутов моделей тичера и стьюдента
Стильно, просто, модно, молодежно
RL шагает вширь и вглубь
👀LINK
#rl #optimization #knowledgedistillation #reinforce #metalearning
Как улучшить существующий Knowledge Distillation? Взять интуицию из реальной жизни, где студент совершенствуются в основном на своих же ошибках. Как это реализовать? - добавить рл награду, которая легко получается сравнением аутпутов моделей тичера и стьюдента
Стильно, просто, модно, молодежно
RL шагает вширь и вглубь
👀LINK
#rl #optimization #knowledgedistillation #reinforce #metalearning
👍1
Common Diffusion Noise Schedules and Sample Steps are Flawed
Ребята из тиктока заметили проблемку в схеме наложения шума в диффузиях. Проблема в том, что текущие модели во время обучения на последних шагах сохраняют какую-то порцию сигнала в данных. А мы хотели бы иметь чистый шум
Почему? Сигнал, который может остаться на шаге T на самом деле очень мощный, и это ведет к несоответствию forward-backward процессов и генерациям примерно одной яркости. Например, Stable Diffusion не сгенерит вам полностью черный квадрат из-за этой проблемы
Решение простое - рескейлим noise schedule и дополнительно инпут в guidance, чтобы иметь нулевой конечный signal-to-noise ratio
👀 LINK
#Diffusion #DiffusionSampling
Ребята из тиктока заметили проблемку в схеме наложения шума в диффузиях. Проблема в том, что текущие модели во время обучения на последних шагах сохраняют какую-то порцию сигнала в данных. А мы хотели бы иметь чистый шум
Почему? Сигнал, который может остаться на шаге T на самом деле очень мощный, и это ведет к несоответствию forward-backward процессов и генерациям примерно одной яркости. Например, Stable Diffusion не сгенерит вам полностью черный квадрат из-за этой проблемы
Решение простое - рескейлим noise schedule и дополнительно инпут в guidance, чтобы иметь нулевой конечный signal-to-noise ratio
👀 LINK
#Diffusion #DiffusionSampling
🔥4👍2
Improving Image Generation with Better Captions (DALL-E 3)
Авторы адресует проблему плохого понимания текста моделью плохой разметке тренировочного датасета и предполагают что синтетические описания собранные image-captioner-ом могут исправить данную проблему. Они провели несколько экспериментов, обучив модель на исходных промптах, коротких из captioner-a, длинных из captioner-a. В ходе экспериментов подтвердилось, что использование синтетических промптов благотворно влияет на качество выходной модели. Почему?
Важные детали часто упускаемые из описаний к изображениям в интернете:
- детали типо: дорожных знаков на улице, описания различных объектов
- позиции объектов и их число
- размеры объектов, цвета, какие-то общие признаки
- текст на изображении
Также существует проблема, заключающаяся в том, что часто в описаниях изображений используются хештеги и текст не относящийся к самому изображению.
Провели эксперимент по сравнению качества моделей, обученных на синтетике:
1. A text-to-image model trained only on ground truth captions.
2. A text-to-image model trained on 95% short synthetic captions.
3. A text-to-image model trained on 95% descriptive synthetic captions.
Эксперимент показал что обучение на синтетических данных помогло увеличить CLIP score.
Также доказано предположение о том что re-captioner модель будет выполнять роль “усреднителя”, дисперсия выходных данных уменьшилась.
Caption blending ratios
Авторы экспериментировали с отношением синтетических данных в тренировочном наборе, 65%, 80%, 90% и 95%. 65% исключены из графика так как модель показала слишком низкий результат относительно своих конкурентов.
👀 LINK
#Diffusion #text2image
Авторы адресует проблему плохого понимания текста моделью плохой разметке тренировочного датасета и предполагают что синтетические описания собранные image-captioner-ом могут исправить данную проблему. Они провели несколько экспериментов, обучив модель на исходных промптах, коротких из captioner-a, длинных из captioner-a. В ходе экспериментов подтвердилось, что использование синтетических промптов благотворно влияет на качество выходной модели. Почему?
Важные детали часто упускаемые из описаний к изображениям в интернете:
- детали типо: дорожных знаков на улице, описания различных объектов
- позиции объектов и их число
- размеры объектов, цвета, какие-то общие признаки
- текст на изображении
Также существует проблема, заключающаяся в том, что часто в описаниях изображений используются хештеги и текст не относящийся к самому изображению.
Провели эксперимент по сравнению качества моделей, обученных на синтетике:
1. A text-to-image model trained only on ground truth captions.
2. A text-to-image model trained on 95% short synthetic captions.
3. A text-to-image model trained on 95% descriptive synthetic captions.
Эксперимент показал что обучение на синтетических данных помогло увеличить CLIP score.
Также доказано предположение о том что re-captioner модель будет выполнять роль “усреднителя”, дисперсия выходных данных уменьшилась.
Caption blending ratios
Авторы экспериментировали с отношением синтетических данных в тренировочном наборе, 65%, 80%, 90% и 95%. 65% исключены из графика так как модель показала слишком низкий результат относительно своих конкурентов.
👀 LINK
#Diffusion #text2image
👍6