Reading Group | ControlGenAI
482 subscribers
120 links
Ридинг группа команды Controllable GenAI в AIRI. Расписание и материалы встреч можно найти по ссылке https://tinyurl.com/controlgenairg

Канал для связи: @aibrain
Download Telegram
В этот четверг 27 марта Дмитрий Баранчук расскажет про их последнюю работу, где предлагается новый метод дистилляции диффузии, который помимо малошаговой генерации также позволяет сильно ускориться за счет постепенного повышения разрешения по ходу диффузионного процесса.

Особенно интересно проговорить мотивацию и интуицию за этой процедурой через призму спектральной авторегрессии, а также тесную связь полученной модели с новыми идеями в авторегрессионной генерации картинок (VAR, MAR, Switti). Последнее обсудить скорее всего не успеем, но хочется посеять эту мысль для будущих размышлений.

Ссылку на зум пришлем перед встречей!
🔥13😱43😍1🐳1🏆1
В этот четверг 27 марта Дмитрий Баранчук рассказал о новом методе дистилляции диффузии, который помимо малошаговой генерации также позволяет сильно ускориться за счет постепенного повышения разрешения по ходу диффузионного процесса.

📁 Презентация
📹 Запись
10🔥3
В этот четверг 3 апреля послушаем два доклада:

1️⃣ Илья Белецкий расскажет про работу LIGHTNING-FAST IMAGE INVERSION AND EDITING FOR TEXT-TO-IMAGE DIFFUSION MODELS. В прикладных областях генеративного моделирования часто возникает необходимость в процедуре инверсии - получении латентного представления исходного изображения в пространстве модели. В диффузионных моделях наиболее популярный бейзлайн для получения инверсии - DDIM подход, который содержит в себе аппроксимацию, не являющуюся критичной из-за большого количества шагов генерации и их достаточно близкого расположения на траектории сэмплирования. Иначе ситуация обстоит у малошаговых методов, где отдельные шаги расположены достаточно далеко друг от друга, а аналогичная аппроксимация становится довольно грубой. Авторы предлагают метод повышения качества инверсии для малошаговых методов, который масштабируется на различные диффузионные модели, а также позволяет достичь высоких метрик в задаче редактирования.

2️⃣ Сергей Карпухин разберёт две работы ControlNet-XS и CtrLoRA - в первой рассматривается редизайн архитектуры классического ControlNet, а во второй изучается фреймворк для предобучения и дешевой адаптации ControlNet к новым доменам.

Ссылку на зум пришлем перед встречей!
👍43🔥1
В этот четверг 3 апреля мы послушали два доклада.

1️⃣ Илья Белецкий рассказал про работу LIGHTNING-FAST IMAGE INVERSION AND EDITING FOR TEXT-TO-IMAGE DIFFUSION MODELS.
2️⃣ Сергей Карпухин разобрал две статьи ControlNet-XS и CtrLoRA.

📁 Презентация
📹 Запись
8
Всем привет!

В связи с приближающимися дедлайнами в мае, мы приостанавливаем наши еженедельные встречи до середины мая!
Мы обязательно напишем, как только встречи возобновятся!
😈2🫡2
Всем привет!

Мы долго не выходили на связь, но с этой недели возобновляем нашу ридинг группу!

И уже этот четверг 17 июля в 14:30 Константин Соболев расскажет про методы генерации и редактирования видео.

Поговорим про эволюцию в области за последние 2-3 года: разберем основные принципы text-to-video генерации, и то, чем она отличается от text-to-image генерации. Так же обсудим различные побочные задачи, такие как image-to-video генерации и video editing.

Доклад будет обзорным, в частности будут рассмотрены следующие работы:

1) https://arxiv.org/abs/2503.20314
2) https://arxiv.org/abs/2503.07598
3) https://arxiv.org/abs/2506.09113

Ссылку на зум пришлем перед встречей! Приходите, будет интересно! 😊
🔥27
В этот четверг 17 июля Константин Соболев рассказал об эволюции в области генерации видео.

📁 Презентация
📹 Запись

Константин кстати с недавних пор ведёт классный канал! Подписывайтесь!
🔥143
Всем привет!

Рады сообщить вам, что мы вернулись! И в этот четверг 11 сентября в 15:00 мы послушаем двух докладчиков.

1️⃣ Максим Находнов разберёт статью Q-Eval, в которой авторы решают задачу автоматической оценки сгенерированных изображений и видео: Q-Eval-100K — датасет из 100K примеров (60K изображений и 40K видео) с почти 1M экспертных аннотаций по двум осям: визуальное качество и соответствие тексту. Для его построения использовались синтетические данные из разнообразных генеративных моделей, после чего каждое изображение и видео оценивалось аннотаторами по детализированной шкале. На основе датасета разработан Q-Eval-Score, который позволяет раздельно измерять визуальное качество и соответсвие текстовым описаниям.

2️⃣ Сергей Карпухин рассмотрит Knowledge editing 🤔 - интересную задачу, возникшую в области больших языковых моделей. Ее решение позволяет обойтись без дорогостоящего переобучения и тонко настроить работу модели на отдельных примерах данных. Мы обсудим общую постановку и подходы к решению этой задачи, и сосредоточимся на обсуждении результатов статьи AlphaEdit и какие проблемы получилось решить у авторов.

Ссылку на зум пришлем перед встречей! Приходите, будет интересно! 😊
15🔥4🥰2
В четверг 11 сентября мы послушали два доклада:

1️⃣ Сергей Карпухин разобрал статью AlphaEdit, посвященную задаче knowledge editing.

2️⃣ Максим Находнов рассказал про Q-Eval, в которой решается задача автоматической оценки сгенерированных изображений и видео.

📁 Презентации
📹 Запись

Спасибо всем, кто пришёл и будем вас ждать на следующей ридинг встрече!
3👍2🔥2
Всем привет! На этой неделе в четверг 9 октября в 14:00 мы возвращаемся с двумя докладами!

1️⃣ На первом докладе продолжим погружаться в LLM и Сергей Карпухин разберёт подход из Parallel Scaling Law for Language Models к поднятию качества модели за счет паралеллизации обучения и инференса, подходящий как для претрейна, так и для файтьюна - по сравнению с другими подходами этот особенно хорошо подходит для сценариев с небольшим количеством ресурсов

2️⃣ Нина Коновалова расскажет про работу SCALE-WISE VAR IS SECRETLY DISCRETE DIFFUSION. Возможно, вы помните нашумевшую работу VAR от стажера-саботёра, которая предложила картиночную авторегрессию, но с предсказанием не следующего токена, а следующего скейла. Так вот, оказывается, ребята сделали практически диффузию, но сами этого не поняли. В новой статье SCALE-WISE VAR IS SECRETLY DISCRETE DIFFUSION авторы показывают связь VAR с дискретной диффузией, а также применяют различные фишки диффузионного процесса для улучшения качества генерации. На докладе подробнее разберемся с работой VAR и его связью с диффузией.

Ссылку на зум пришлем перед встречей! Приходите, будет интересно! 😊
🔥115👍3
В прошлый четверг 9 октября мы послушали два доклада:

1️⃣ Сергей Карпухин рассказал про работу Parallel Scaling Law for Language Models, где обсуждалось улучшение качества за счёт паралеллизации обучения и инференса.

2️⃣ Нина Коновалова рассказала про работу VAR, а также следствие из нее SCALE-WISE VAR IS SECRETLY DISCRETE DIFFUSION, где объясняется, почему VAR можно рассматривать с точки зрения дискретной диффузии.

📁 Презентации
📹 Запись

Спасибо всем, кто пришёл и будем вас ждать на следующей ридинг встрече!
8👍2
Всем привет! На этой неделе в четверг 16 октября в 14:00 мы проведём нашу ридинг группу, на которой выступит Егор Шибаев.

В докладе будет дан короткий, практичный обзор диффузии для текста: сначала — мотивация и сравнение с авторегрессией (параллельное итеративное исправление), затем краткий ввод в дискретные диффузионные модели с интуицией обратного постериора; после этого — переход к маскированной диффузии как базовой схеме и разбор её ограничения «ранней фиксации».

Далее будут рассмотрены стратегии ремаскинга: инференс-временные без дообучения и обучаемые целевые политики, эффективные при малом числе шагов. Завершится выступление кратким обзором масштабирования диффузионных языковых моделей и выводами о том, как выбор стратегии ремаскинга и бюджета шагов влияет на баланс скорости и качества.

Основные работы по этой теме:
D3PM https://arxiv.org/pdf/2107.03006
MDLM https://arxiv.org/pdf/2406.07524
large scale модели
LLADA https://arxiv.org/pdf/2501.15781
Dream https://arxiv.org/pdf/2508.15487
Seed Diffusion https://arxiv.org/pdf/2508.02193
remasking (выделил работы в отделную группу)
ReMDM https://arxiv.org/pdf/2503.00307
G-Star https://www.arxiv.org/pdf/2510.08369
RemeDi https://arxiv.org/pdf/2509.23653

Ссылку на зум пришлем перед встречей! Приходите, будет интересно! 😊
18👍2😍2
Всем привет! В этот четверг 16 октября Егор Шибаев выступил на нашей ридинг группе и рассказал про использование диффузионных моделей для текста, начиная со сравнения с авторегрессией и заканчивая работой маскированной диффузии.

📁 Презентации
📹 Запись

Ждём вас на следующей встрече! 😊
10
Всем привет!
Мы возвращаемся после перерыва и в этот четверг 27 ноября в 15:00 Александр Оганов расскажет про новую работу GAS.

Диффузионные модели используют численные методы (солверы) для генерации. Generalized Adversarial Solver (GAS) — новая и эффективная параметризация солвера, который адаптируется под диффузионную модель.

GAS содержит ~200 обучаемых параметров и не изменяет весов диффузионной модели. GAS ускоряет генерацию до 2 раз без ухудшения визуального качества. Например, на ImageNet достигается FID=6 при NFE=4 за менее, чем за 3 часа обучения

ArXiv
GitHub

Ссылку на зум пришлем перед встречей! Будем ждать вас в этот четверг! 😊
6🔥5🙏3🥴2👍1🤯1