Reading Group | ControlGenAI
483 subscribers
120 links
Ридинг группа команды Controllable GenAI в AIRI. Расписание и материалы встреч можно найти по ссылке https://tinyurl.com/controlgenairg

Канал для связи: @aibrain
Download Telegram
В этот четверг 27 марта Дмитрий Баранчук рассказал о новом методе дистилляции диффузии, который помимо малошаговой генерации также позволяет сильно ускориться за счет постепенного повышения разрешения по ходу диффузионного процесса.

📁 Презентация
📹 Запись
10🔥3
В этот четверг 3 апреля послушаем два доклада:

1️⃣ Илья Белецкий расскажет про работу LIGHTNING-FAST IMAGE INVERSION AND EDITING FOR TEXT-TO-IMAGE DIFFUSION MODELS. В прикладных областях генеративного моделирования часто возникает необходимость в процедуре инверсии - получении латентного представления исходного изображения в пространстве модели. В диффузионных моделях наиболее популярный бейзлайн для получения инверсии - DDIM подход, который содержит в себе аппроксимацию, не являющуюся критичной из-за большого количества шагов генерации и их достаточно близкого расположения на траектории сэмплирования. Иначе ситуация обстоит у малошаговых методов, где отдельные шаги расположены достаточно далеко друг от друга, а аналогичная аппроксимация становится довольно грубой. Авторы предлагают метод повышения качества инверсии для малошаговых методов, который масштабируется на различные диффузионные модели, а также позволяет достичь высоких метрик в задаче редактирования.

2️⃣ Сергей Карпухин разберёт две работы ControlNet-XS и CtrLoRA - в первой рассматривается редизайн архитектуры классического ControlNet, а во второй изучается фреймворк для предобучения и дешевой адаптации ControlNet к новым доменам.

Ссылку на зум пришлем перед встречей!
👍43🔥1
В этот четверг 3 апреля мы послушали два доклада.

1️⃣ Илья Белецкий рассказал про работу LIGHTNING-FAST IMAGE INVERSION AND EDITING FOR TEXT-TO-IMAGE DIFFUSION MODELS.
2️⃣ Сергей Карпухин разобрал две статьи ControlNet-XS и CtrLoRA.

📁 Презентация
📹 Запись
8
Всем привет!

В связи с приближающимися дедлайнами в мае, мы приостанавливаем наши еженедельные встречи до середины мая!
Мы обязательно напишем, как только встречи возобновятся!
😈2🫡2
Всем привет!

Мы долго не выходили на связь, но с этой недели возобновляем нашу ридинг группу!

И уже этот четверг 17 июля в 14:30 Константин Соболев расскажет про методы генерации и редактирования видео.

Поговорим про эволюцию в области за последние 2-3 года: разберем основные принципы text-to-video генерации, и то, чем она отличается от text-to-image генерации. Так же обсудим различные побочные задачи, такие как image-to-video генерации и video editing.

Доклад будет обзорным, в частности будут рассмотрены следующие работы:

1) https://arxiv.org/abs/2503.20314
2) https://arxiv.org/abs/2503.07598
3) https://arxiv.org/abs/2506.09113

Ссылку на зум пришлем перед встречей! Приходите, будет интересно! 😊
🔥27
В этот четверг 17 июля Константин Соболев рассказал об эволюции в области генерации видео.

📁 Презентация
📹 Запись

Константин кстати с недавних пор ведёт классный канал! Подписывайтесь!
🔥143
Всем привет!

Рады сообщить вам, что мы вернулись! И в этот четверг 11 сентября в 15:00 мы послушаем двух докладчиков.

1️⃣ Максим Находнов разберёт статью Q-Eval, в которой авторы решают задачу автоматической оценки сгенерированных изображений и видео: Q-Eval-100K — датасет из 100K примеров (60K изображений и 40K видео) с почти 1M экспертных аннотаций по двум осям: визуальное качество и соответствие тексту. Для его построения использовались синтетические данные из разнообразных генеративных моделей, после чего каждое изображение и видео оценивалось аннотаторами по детализированной шкале. На основе датасета разработан Q-Eval-Score, который позволяет раздельно измерять визуальное качество и соответсвие текстовым описаниям.

2️⃣ Сергей Карпухин рассмотрит Knowledge editing 🤔 - интересную задачу, возникшую в области больших языковых моделей. Ее решение позволяет обойтись без дорогостоящего переобучения и тонко настроить работу модели на отдельных примерах данных. Мы обсудим общую постановку и подходы к решению этой задачи, и сосредоточимся на обсуждении результатов статьи AlphaEdit и какие проблемы получилось решить у авторов.

Ссылку на зум пришлем перед встречей! Приходите, будет интересно! 😊
15🔥4🥰2
В четверг 11 сентября мы послушали два доклада:

1️⃣ Сергей Карпухин разобрал статью AlphaEdit, посвященную задаче knowledge editing.

2️⃣ Максим Находнов рассказал про Q-Eval, в которой решается задача автоматической оценки сгенерированных изображений и видео.

📁 Презентации
📹 Запись

Спасибо всем, кто пришёл и будем вас ждать на следующей ридинг встрече!
3👍2🔥2
Всем привет! На этой неделе в четверг 9 октября в 14:00 мы возвращаемся с двумя докладами!

1️⃣ На первом докладе продолжим погружаться в LLM и Сергей Карпухин разберёт подход из Parallel Scaling Law for Language Models к поднятию качества модели за счет паралеллизации обучения и инференса, подходящий как для претрейна, так и для файтьюна - по сравнению с другими подходами этот особенно хорошо подходит для сценариев с небольшим количеством ресурсов

2️⃣ Нина Коновалова расскажет про работу SCALE-WISE VAR IS SECRETLY DISCRETE DIFFUSION. Возможно, вы помните нашумевшую работу VAR от стажера-саботёра, которая предложила картиночную авторегрессию, но с предсказанием не следующего токена, а следующего скейла. Так вот, оказывается, ребята сделали практически диффузию, но сами этого не поняли. В новой статье SCALE-WISE VAR IS SECRETLY DISCRETE DIFFUSION авторы показывают связь VAR с дискретной диффузией, а также применяют различные фишки диффузионного процесса для улучшения качества генерации. На докладе подробнее разберемся с работой VAR и его связью с диффузией.

Ссылку на зум пришлем перед встречей! Приходите, будет интересно! 😊
🔥115👍3
В прошлый четверг 9 октября мы послушали два доклада:

1️⃣ Сергей Карпухин рассказал про работу Parallel Scaling Law for Language Models, где обсуждалось улучшение качества за счёт паралеллизации обучения и инференса.

2️⃣ Нина Коновалова рассказала про работу VAR, а также следствие из нее SCALE-WISE VAR IS SECRETLY DISCRETE DIFFUSION, где объясняется, почему VAR можно рассматривать с точки зрения дискретной диффузии.

📁 Презентации
📹 Запись

Спасибо всем, кто пришёл и будем вас ждать на следующей ридинг встрече!
8👍2
Всем привет! На этой неделе в четверг 16 октября в 14:00 мы проведём нашу ридинг группу, на которой выступит Егор Шибаев.

В докладе будет дан короткий, практичный обзор диффузии для текста: сначала — мотивация и сравнение с авторегрессией (параллельное итеративное исправление), затем краткий ввод в дискретные диффузионные модели с интуицией обратного постериора; после этого — переход к маскированной диффузии как базовой схеме и разбор её ограничения «ранней фиксации».

Далее будут рассмотрены стратегии ремаскинга: инференс-временные без дообучения и обучаемые целевые политики, эффективные при малом числе шагов. Завершится выступление кратким обзором масштабирования диффузионных языковых моделей и выводами о том, как выбор стратегии ремаскинга и бюджета шагов влияет на баланс скорости и качества.

Основные работы по этой теме:
D3PM https://arxiv.org/pdf/2107.03006
MDLM https://arxiv.org/pdf/2406.07524
large scale модели
LLADA https://arxiv.org/pdf/2501.15781
Dream https://arxiv.org/pdf/2508.15487
Seed Diffusion https://arxiv.org/pdf/2508.02193
remasking (выделил работы в отделную группу)
ReMDM https://arxiv.org/pdf/2503.00307
G-Star https://www.arxiv.org/pdf/2510.08369
RemeDi https://arxiv.org/pdf/2509.23653

Ссылку на зум пришлем перед встречей! Приходите, будет интересно! 😊
18👍2😍2
Всем привет! В этот четверг 16 октября Егор Шибаев выступил на нашей ридинг группе и рассказал про использование диффузионных моделей для текста, начиная со сравнения с авторегрессией и заканчивая работой маскированной диффузии.

📁 Презентации
📹 Запись

Ждём вас на следующей встрече! 😊
10
Всем привет!
Мы возвращаемся после перерыва и в этот четверг 27 ноября в 15:00 Александр Оганов расскажет про новую работу GAS.

Диффузионные модели используют численные методы (солверы) для генерации. Generalized Adversarial Solver (GAS) — новая и эффективная параметризация солвера, который адаптируется под диффузионную модель.

GAS содержит ~200 обучаемых параметров и не изменяет весов диффузионной модели. GAS ускоряет генерацию до 2 раз без ухудшения визуального качества. Например, на ImageNet достигается FID=6 при NFE=4 за менее, чем за 3 часа обучения

ArXiv
GitHub

Ссылку на зум пришлем перед встречей! Будем ждать вас в этот четверг! 😊
6🔥5🙏3🥴2👍1🤯1