ANIMATEDIFF: ANIMATE YOUR PERSONALIZED
TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT
SPECIFIC TUNING
Abstract
Целью данного исследования является создание архитектуры генерации видео поддерживающей подмену фундаментальной модели генерации изображений на дообученные с использованием LoRA или DreamBooth версиями. Таком образом задачей становится разработка plug and play модуля моделирования временной оси.
ссылка
#Diffusion #Video #LoRA
TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT
SPECIFIC TUNING
Abstract
Целью данного исследования является создание архитектуры генерации видео поддерживающей подмену фундаментальной модели генерации изображений на дообученные с использованием LoRA или DreamBooth версиями. Таком образом задачей становится разработка plug and play модуля моделирования временной оси.
ссылка
#Diffusion #Video #LoRA
Neural Network Diffusion
Тренят латентную диффузию для генерации весов модели. Интересно, что для этого достаточно стандартного сетапа, а полученные генерации on-par по сравнению с SGD тренировкой. Имхо, есть интересный потенциал
P.S. но их там что-то реджектнули на iclr ((
Link
#Diffusion
Тренят латентную диффузию для генерации весов модели. Интересно, что для этого достаточно стандартного сетапа, а полученные генерации on-par по сравнению с SGD тренировкой. Имхо, есть интересный потенциал
P.S. но их там что-то реджектнули на iclr ((
Link
#Diffusion
https://openreview.net/forum?id=C61sk5LsK6
Простой метод прунинга данных с сохранением несмещенности градиента относительно исходного датасета
Вроде их приняли но я не уверен
#optimization
Простой метод прунинга данных с сохранением несмещенности градиента относительно исходного датасета
Вроде их приняли но я не уверен
#optimization
openreview.net
InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning
Data pruning aims to obtain lossless performances with less overall cost. A common approach is to filter out samples that make less contribution to the training. This could lead to gradient...
https://openreview.net/pdf?id=nfIAEJFiBZ
добавляют контролируемый шум в градиент апдейт для повышения эксплоративности моделей рл
потенциально можно вставить в любую задачу и посмотреть что выдает (например, вставляем шум в в обновление градиента - узнаем о характере loss surface или превентим/ускоряем оверфит)
#rl #exploration #optimization
добавляют контролируемый шум в градиент апдейт для повышения эксплоративности моделей рл
потенциально можно вставить в любую задачу и посмотреть что выдает (например, вставляем шум в в обновление градиента - узнаем о характере loss surface или превентим/ускоряем оверфит)
#rl #exploration #optimization
🔥1
https://openreview.net/pdf?id=Zbt9z0a95l
хороший фреймворк по тому как делать кусочно-линейные интерпретируемые аппроксиматоры. разделяем выходное пространство на куски, фиттим сетку определять, к какому куску выходного пространства определить аутпут + ею же фиттим коэффициенты для линейного преобразования
#rl #interpretability
хороший фреймворк по тому как делать кусочно-линейные интерпретируемые аппроксиматоры. разделяем выходное пространство на куски, фиттим сетку определять, к какому куску выходного пространства определить аутпут + ею же фиттим коэффициенты для линейного преобразования
#rl #interpretability
https://openreview.net/pdf?id=b3Cu426njo
мета лернинг метод, где приоры, относительно которых происходит апдейт параметров, так же смещаются постепенно по ходу обучения (в рамках теоретических границ)
#optimization #metalearning
мета лернинг метод, где приоры, относительно которых происходит апдейт параметров, так же смещаются постепенно по ходу обучения (в рамках теоретических границ)
#optimization #metalearning
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
Авторы ставят целью разработку zero-shot модели генерации видео. Для этого они вводят два нововведения:
1. Модификация латентов изображений для задания имитации движения объектов по оси времени.
2. Межкадровый механизм внимания между первым кадром видео и всеми остальными для сохранения контекста
Более того авторы используют данную архитектуру для задач условной генерации видео, модификации видео, *Video Instruct-Pix2Pix*
👀 LINK
#video #diffusion
Авторы ставят целью разработку zero-shot модели генерации видео. Для этого они вводят два нововведения:
1. Модификация латентов изображений для задания имитации движения объектов по оси времени.
2. Межкадровый механизм внимания между первым кадром видео и всеми остальными для сохранения контекста
Более того авторы используют данную архитектуру для задач условной генерации видео, модификации видео, *Video Instruct-Pix2Pix*
👀 LINK
#video #diffusion
arXiv.org
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot...
Recent text-to-video generation approaches rely on computationally heavy training and require large-scale video datasets. In this paper, we introduce a new task of zero-shot text-to-video...
Decision ConvFormer: Local Filtering in MetaFormer is Sufficient for Decision Making
Заменяют аттеншн в десижн трансформере на очень хитрую depthwise свертку. Сделано для того, чтобы трансформер блок мог легче обрабатывать последовательности с марковской ассоциативностью
Где-то есть прирост в результатах, где-то не особо
Attention is not (sometimes) all you need
👀 LINK
#transformer #attention #convolution #mdp #rl
Заменяют аттеншн в десижн трансформере на очень хитрую depthwise свертку. Сделано для того, чтобы трансформер блок мог легче обрабатывать последовательности с марковской ассоциативностью
Где-то есть прирост в результатах, где-то не особо
Attention is not (sometimes) all you need
👀 LINK
#transformer #attention #convolution #mdp #rl
DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps
Быстрый солвер probability flow ODE
Идея такая. У нас есть probability flow ODE, этот диффур имеет линейную и нелинейные части → является semi-linear ODE. Стандартные солверы игнорируют такую природу диффуров, что вызывает дополнительные ошибки при дискретизации. Однако, для semi-linear ODE есть формулировка решения через вариацию констант, которая позволяет напрямую оценивать линейную часть. Применяя ее, и расписывая интеграл с нелинейной частью через логарифм SNR-ratio, мы получаем exact решение для всего ODE. Важно, что итоговая форма решения имеет в себе так называемый экспоненциально взвешенный интеграл, который был хорошо изучен в контексте ODE солверов
В солвере раскладывают экспоненциально взвешенный интеграл с помощью разложение модели скора в ряд Тейлора n раз, получая сумму производных модели n-ого порядка (аппроксимируется уравнениями с жесткими условиями) и аналитический интеграл
Шаги в солвере надо выбрать заранее и есть два варианта: разбить [T, 0) равномерно или же делать адаптивные шаги, используя солверы с постепенно снижающимся порядком
DDIM идентичен DPM-солверу первого порядка, т.е он также использует semi-linearity of probability flow
👀 LINK
#Diffusion #DiffusionSampling #ODE
Быстрый солвер probability flow ODE
Идея такая. У нас есть probability flow ODE, этот диффур имеет линейную и нелинейные части → является semi-linear ODE. Стандартные солверы игнорируют такую природу диффуров, что вызывает дополнительные ошибки при дискретизации. Однако, для semi-linear ODE есть формулировка решения через вариацию констант, которая позволяет напрямую оценивать линейную часть. Применяя ее, и расписывая интеграл с нелинейной частью через логарифм SNR-ratio, мы получаем exact решение для всего ODE. Важно, что итоговая форма решения имеет в себе так называемый экспоненциально взвешенный интеграл, который был хорошо изучен в контексте ODE солверов
В солвере раскладывают экспоненциально взвешенный интеграл с помощью разложение модели скора в ряд Тейлора n раз, получая сумму производных модели n-ого порядка (аппроксимируется уравнениями с жесткими условиями) и аналитический интеграл
Шаги в солвере надо выбрать заранее и есть два варианта: разбить [T, 0) равномерно или же делать адаптивные шаги, используя солверы с постепенно снижающимся порядком
DDIM идентичен DPM-солверу первого порядка, т.е он также использует semi-linearity of probability flow
👀 LINK
#Diffusion #DiffusionSampling #ODE
🔥1
Generalized Policy Iteration Using Tensor Approximation for Hybrid Control
Введение Tensor-Train Approximation в мир RL. Хорошо показывают надобность в генерализации пространства смешанного контроля ( когда состояния/действия могут быть как непрерывными, так и дискретными) + хороший вводный текст про такую сферу как тензорные поезда 🚂
👀 LINK
#rl #optimization #tensortrain
Введение Tensor-Train Approximation в мир RL. Хорошо показывают надобность в генерализации пространства смешанного контроля ( когда состояния/действия могут быть как непрерывными, так и дискретными) + хороший вводный текст про такую сферу как тензорные поезда 🚂
👀 LINK
#rl #optimization #tensortrain