ANIMATEDIFF: ANIMATE YOUR PERSONALIZED
TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT
SPECIFIC TUNING
Abstract
Целью данного исследования является создание архитектуры генерации видео поддерживающей подмену фундаментальной модели генерации изображений на дообученные с использованием LoRA или DreamBooth версиями. Таком образом задачей становится разработка plug and play модуля моделирования временной оси.
ссылка
#Diffusion #Video #LoRA
TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT
SPECIFIC TUNING
Abstract
Целью данного исследования является создание архитектуры генерации видео поддерживающей подмену фундаментальной модели генерации изображений на дообученные с использованием LoRA или DreamBooth версиями. Таком образом задачей становится разработка plug and play модуля моделирования временной оси.
ссылка
#Diffusion #Video #LoRA
Neural Network Diffusion
Тренят латентную диффузию для генерации весов модели. Интересно, что для этого достаточно стандартного сетапа, а полученные генерации on-par по сравнению с SGD тренировкой. Имхо, есть интересный потенциал
P.S. но их там что-то реджектнули на iclr ((
Link
#Diffusion
Тренят латентную диффузию для генерации весов модели. Интересно, что для этого достаточно стандартного сетапа, а полученные генерации on-par по сравнению с SGD тренировкой. Имхо, есть интересный потенциал
P.S. но их там что-то реджектнули на iclr ((
Link
#Diffusion
https://openreview.net/forum?id=C61sk5LsK6
Простой метод прунинга данных с сохранением несмещенности градиента относительно исходного датасета
Вроде их приняли но я не уверен
#optimization
Простой метод прунинга данных с сохранением несмещенности градиента относительно исходного датасета
Вроде их приняли но я не уверен
#optimization
openreview.net
InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning
Data pruning aims to obtain lossless performances with less overall cost. A common approach is to filter out samples that make less contribution to the training. This could lead to gradient...
https://openreview.net/pdf?id=nfIAEJFiBZ
добавляют контролируемый шум в градиент апдейт для повышения эксплоративности моделей рл
потенциально можно вставить в любую задачу и посмотреть что выдает (например, вставляем шум в в обновление градиента - узнаем о характере loss surface или превентим/ускоряем оверфит)
#rl #exploration #optimization
добавляют контролируемый шум в градиент апдейт для повышения эксплоративности моделей рл
потенциально можно вставить в любую задачу и посмотреть что выдает (например, вставляем шум в в обновление градиента - узнаем о характере loss surface или превентим/ускоряем оверфит)
#rl #exploration #optimization
🔥1
https://openreview.net/pdf?id=Zbt9z0a95l
хороший фреймворк по тому как делать кусочно-линейные интерпретируемые аппроксиматоры. разделяем выходное пространство на куски, фиттим сетку определять, к какому куску выходного пространства определить аутпут + ею же фиттим коэффициенты для линейного преобразования
#rl #interpretability
хороший фреймворк по тому как делать кусочно-линейные интерпретируемые аппроксиматоры. разделяем выходное пространство на куски, фиттим сетку определять, к какому куску выходного пространства определить аутпут + ею же фиттим коэффициенты для линейного преобразования
#rl #interpretability
https://openreview.net/pdf?id=b3Cu426njo
мета лернинг метод, где приоры, относительно которых происходит апдейт параметров, так же смещаются постепенно по ходу обучения (в рамках теоретических границ)
#optimization #metalearning
мета лернинг метод, где приоры, относительно которых происходит апдейт параметров, так же смещаются постепенно по ходу обучения (в рамках теоретических границ)
#optimization #metalearning
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
Авторы ставят целью разработку zero-shot модели генерации видео. Для этого они вводят два нововведения:
1. Модификация латентов изображений для задания имитации движения объектов по оси времени.
2. Межкадровый механизм внимания между первым кадром видео и всеми остальными для сохранения контекста
Более того авторы используют данную архитектуру для задач условной генерации видео, модификации видео, *Video Instruct-Pix2Pix*
👀 LINK
#video #diffusion
Авторы ставят целью разработку zero-shot модели генерации видео. Для этого они вводят два нововведения:
1. Модификация латентов изображений для задания имитации движения объектов по оси времени.
2. Межкадровый механизм внимания между первым кадром видео и всеми остальными для сохранения контекста
Более того авторы используют данную архитектуру для задач условной генерации видео, модификации видео, *Video Instruct-Pix2Pix*
👀 LINK
#video #diffusion
arXiv.org
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot...
Recent text-to-video generation approaches rely on computationally heavy training and require large-scale video datasets. In this paper, we introduce a new task of zero-shot text-to-video...
Decision ConvFormer: Local Filtering in MetaFormer is Sufficient for Decision Making
Заменяют аттеншн в десижн трансформере на очень хитрую depthwise свертку. Сделано для того, чтобы трансформер блок мог легче обрабатывать последовательности с марковской ассоциативностью
Где-то есть прирост в результатах, где-то не особо
Attention is not (sometimes) all you need
👀 LINK
#transformer #attention #convolution #mdp #rl
Заменяют аттеншн в десижн трансформере на очень хитрую depthwise свертку. Сделано для того, чтобы трансформер блок мог легче обрабатывать последовательности с марковской ассоциативностью
Где-то есть прирост в результатах, где-то не особо
Attention is not (sometimes) all you need
👀 LINK
#transformer #attention #convolution #mdp #rl
DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps
Быстрый солвер probability flow ODE
Идея такая. У нас есть probability flow ODE, этот диффур имеет линейную и нелинейные части → является semi-linear ODE. Стандартные солверы игнорируют такую природу диффуров, что вызывает дополнительные ошибки при дискретизации. Однако, для semi-linear ODE есть формулировка решения через вариацию констант, которая позволяет напрямую оценивать линейную часть. Применяя ее, и расписывая интеграл с нелинейной частью через логарифм SNR-ratio, мы получаем exact решение для всего ODE. Важно, что итоговая форма решения имеет в себе так называемый экспоненциально взвешенный интеграл, который был хорошо изучен в контексте ODE солверов
В солвере раскладывают экспоненциально взвешенный интеграл с помощью разложение модели скора в ряд Тейлора n раз, получая сумму производных модели n-ого порядка (аппроксимируется уравнениями с жесткими условиями) и аналитический интеграл
Шаги в солвере надо выбрать заранее и есть два варианта: разбить [T, 0) равномерно или же делать адаптивные шаги, используя солверы с постепенно снижающимся порядком
DDIM идентичен DPM-солверу первого порядка, т.е он также использует semi-linearity of probability flow
👀 LINK
#Diffusion #DiffusionSampling #ODE
Быстрый солвер probability flow ODE
Идея такая. У нас есть probability flow ODE, этот диффур имеет линейную и нелинейные части → является semi-linear ODE. Стандартные солверы игнорируют такую природу диффуров, что вызывает дополнительные ошибки при дискретизации. Однако, для semi-linear ODE есть формулировка решения через вариацию констант, которая позволяет напрямую оценивать линейную часть. Применяя ее, и расписывая интеграл с нелинейной частью через логарифм SNR-ratio, мы получаем exact решение для всего ODE. Важно, что итоговая форма решения имеет в себе так называемый экспоненциально взвешенный интеграл, который был хорошо изучен в контексте ODE солверов
В солвере раскладывают экспоненциально взвешенный интеграл с помощью разложение модели скора в ряд Тейлора n раз, получая сумму производных модели n-ого порядка (аппроксимируется уравнениями с жесткими условиями) и аналитический интеграл
Шаги в солвере надо выбрать заранее и есть два варианта: разбить [T, 0) равномерно или же делать адаптивные шаги, используя солверы с постепенно снижающимся порядком
DDIM идентичен DPM-солверу первого порядка, т.е он также использует semi-linearity of probability flow
👀 LINK
#Diffusion #DiffusionSampling #ODE
🔥1
Generalized Policy Iteration Using Tensor Approximation for Hybrid Control
Введение Tensor-Train Approximation в мир RL. Хорошо показывают надобность в генерализации пространства смешанного контроля ( когда состояния/действия могут быть как непрерывными, так и дискретными) + хороший вводный текст про такую сферу как тензорные поезда 🚂
👀 LINK
#rl #optimization #tensortrain
Введение Tensor-Train Approximation в мир RL. Хорошо показывают надобность в генерализации пространства смешанного контроля ( когда состояния/действия могут быть как непрерывными, так и дискретными) + хороший вводный текст про такую сферу как тензорные поезда 🚂
👀 LINK
#rl #optimization #tensortrain
Reflected Diffusion Models
Вам, наверное, знакома тема трешхолдинга в диффузиях. При больших весах guidance выход модели может выходить за допустимые границы значений картинок, поэтому семплирование может выдавать полную дичь, и нам хотелось бы клипать все до адекватных значений. Трешхолдинг, например, является одной из центральных идей в гугловском Imagen. Так вот, делать это тоже не очень хорошо, т.к мы нарушаем наш диффузионных процесс. Он все же генерит красивые картинки, но уже не имеет теоретических гарантий
В статье предлагают делать forward и backward процессы на носителе данных. Для этого используют reflected SDEs, где у нас добавляет часть dL, которая нейтрализует шаги за границу data domain. Все конечно не так просто, и в статье объясняют, что для такого случая нам нужен constrained score matching, у которого есть пара способов аппроксимации + теоретические детали про связь ELBO и их score matching
👀 LINK
#Diffusion #SDE
Вам, наверное, знакома тема трешхолдинга в диффузиях. При больших весах guidance выход модели может выходить за допустимые границы значений картинок, поэтому семплирование может выдавать полную дичь, и нам хотелось бы клипать все до адекватных значений. Трешхолдинг, например, является одной из центральных идей в гугловском Imagen. Так вот, делать это тоже не очень хорошо, т.к мы нарушаем наш диффузионных процесс. Он все же генерит красивые картинки, но уже не имеет теоретических гарантий
В статье предлагают делать forward и backward процессы на носителе данных. Для этого используют reflected SDEs, где у нас добавляет часть dL, которая нейтрализует шаги за границу data domain. Все конечно не так просто, и в статье объясняют, что для такого случая нам нужен constrained score matching, у которого есть пара способов аппроксимации + теоретические детали про связь ELBO и их score matching
👀 LINK
#Diffusion #SDE
👍4
Privileged Sensing Scaffolds Reinforcement Learning
«We need to look at our shoelaces as we first learn to tie them but having mastered this skill, can do it from touch alone. We call this phenomenon “sensory scaffolding”: observation streams that are not needed by a master might yet aid a novice learner.»
Почему бы не разделить обсервейшны, которые принимает на вход агент, на подчасти, которые важны всегда, и которые становятся бесполезными после (удачного) обучения?
👀 LINK
#rl #mdp
«We need to look at our shoelaces as we first learn to tie them but having mastered this skill, can do it from touch alone. We call this phenomenon “sensory scaffolding”: observation streams that are not needed by a master might yet aid a novice learner.»
Почему бы не разделить обсервейшны, которые принимает на вход агент, на подчасти, которые важны всегда, и которые становятся бесполезными после (удачного) обучения?
👀 LINK
#rl #mdp
🔥2👍1
Non-negative Contrastive Learning
Хочется интерпретируемости эмбеддингам, полученным при помощи контрастив лернинг метода + интересует проблема ротационной симметрии? Попробуйте Non-negative constrastive learning. Показывают связь с Non-Negative Matrix Factorization + показывают, что над эмбеддингами достаточно применить неотрицательную активацию и выдвинутый метод оптимизации для достижения всех упомянутых свойств
👀 LINK
#representationlearning #explainability #interpretability
Хочется интерпретируемости эмбеддингам, полученным при помощи контрастив лернинг метода + интересует проблема ротационной симметрии? Попробуйте Non-negative constrastive learning. Показывают связь с Non-Negative Matrix Factorization + показывают, что над эмбеддингами достаточно применить неотрицательную активацию и выдвинутый метод оптимизации для достижения всех упомянутых свойств
👀 LINK
#representationlearning #explainability #interpretability
🔥2👍1
A Good Learner can Teach Better: TEACHER-STUDENT COLLABORATIVE KNOWLEDGE DISTILLATION
Как улучшить существующий Knowledge Distillation? Взять интуицию из реальной жизни, где студент совершенствуются в основном на своих же ошибках. Как это реализовать? - добавить рл награду, которая легко получается сравнением аутпутов моделей тичера и стьюдента
Стильно, просто, модно, молодежно
RL шагает вширь и вглубь
👀LINK
#rl #optimization #knowledgedistillation #reinforce #metalearning
Как улучшить существующий Knowledge Distillation? Взять интуицию из реальной жизни, где студент совершенствуются в основном на своих же ошибках. Как это реализовать? - добавить рл награду, которая легко получается сравнением аутпутов моделей тичера и стьюдента
Стильно, просто, модно, молодежно
RL шагает вширь и вглубь
👀LINK
#rl #optimization #knowledgedistillation #reinforce #metalearning
👍1