DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation, часть 1
Превратить авторегрессионную визуальную генерацию в диффузионную можно, если соблюдать три ограничения:
1. Фиксировать процесс зашумления.
2. Работать в парадигме, где модель зависит только от одного предыдущего состояния, а не от целой последовательности: тогда процесс становится Марковским.
3. Взвешивать loss на коэффициенты, которые зависят от timestamp и наложенного шума.
Авторы сегодняшнего препринта предлагают ослабить второе условие: добавить зависимость от предыдущих зашумлённых изображений. Такую модель они называют DART — Denoising Autoregressive Transformer или диффузионная авторегрессионная модель.
Саму последовательность при этом можно генерировать по-разному:
1. На каждом шаге генерировать частично расшумлëнное изображение — такой метод называется DART.
2. На каждой стадии расшумления авторегрессионно генерировать изображение по патчам — DART-AR (ДАРТ с авторегрессией).
3. Генерировать изображения, последовательно увеличивая их размер — Matryoshka-DART.
4. Кроме изображения, генерировать ещë и его текстовое описание — Kaleydo-DART.
В качестве трансформера для генерации на основе текстового промпта используется предобученная модель Flan-T5-XL, а для генерации на основе заданного класса — дополнительные слои Adaptive LayerNorm.
Разбор подготовил❣ Александр Шишеня
CV Time
Превратить авторегрессионную визуальную генерацию в диффузионную можно, если соблюдать три ограничения:
1. Фиксировать процесс зашумления.
2. Работать в парадигме, где модель зависит только от одного предыдущего состояния, а не от целой последовательности: тогда процесс становится Марковским.
3. Взвешивать loss на коэффициенты, которые зависят от timestamp и наложенного шума.
Авторы сегодняшнего препринта предлагают ослабить второе условие: добавить зависимость от предыдущих зашумлённых изображений. Такую модель они называют DART — Denoising Autoregressive Transformer или диффузионная авторегрессионная модель.
Саму последовательность при этом можно генерировать по-разному:
1. На каждом шаге генерировать частично расшумлëнное изображение — такой метод называется DART.
2. На каждой стадии расшумления авторегрессионно генерировать изображение по патчам — DART-AR (ДАРТ с авторегрессией).
3. Генерировать изображения, последовательно увеличивая их размер — Matryoshka-DART.
4. Кроме изображения, генерировать ещë и его текстовое описание — Kaleydo-DART.
В качестве трансформера для генерации на основе текстового промпта используется предобученная модель Flan-T5-XL, а для генерации на основе заданного класса — дополнительные слои Adaptive LayerNorm.
Разбор подготовил
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍6❤4
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation, часть 2
На иллюстрации к посту изображено устройство самой наивной имплементации такой модели — DART. У неё стандартный диффузионный loss, а её единственный существенный недостаток — слишком малый объём входных данных, 4000 токенов. Это накладывает ограничение на скорость обучения модели.
Обойти ограничение помогает модификация DART-AR. При этом один шаг обучения DART-AR занимает столько же времени, как и DART: сходится быстрее, но требует значительно больше времени на инференсе.
Ещё одна модификация — DART-FM, с Flow Matching. Схема усложняется: поверх основного алгоритма DART добавляют несколько прогонов простой нейросети. Эта легковесная «голова» используется на стадии инференса: для итерирования между основными шагами расшумления, чтобы повысить качество генераций.
Статья представляет скорее теоретический, чем практический интерес: инференс занимает слишком много времени, а для сравнения результатов авторы выбрали далеко не самые свежие модели.
Разбор подготовил❣ Александр Шишеня
CV Time
На иллюстрации к посту изображено устройство самой наивной имплементации такой модели — DART. У неё стандартный диффузионный loss, а её единственный существенный недостаток — слишком малый объём входных данных, 4000 токенов. Это накладывает ограничение на скорость обучения модели.
Обойти ограничение помогает модификация DART-AR. При этом один шаг обучения DART-AR занимает столько же времени, как и DART: сходится быстрее, но требует значительно больше времени на инференсе.
Ещё одна модификация — DART-FM, с Flow Matching. Схема усложняется: поверх основного алгоритма DART добавляют несколько прогонов простой нейросети. Эта легковесная «голова» используется на стадии инференса: для итерирования между основными шагами расшумления, чтобы повысить качество генераций.
Статья представляет скорее теоретический, чем практический интерес: инференс занимает слишком много времени, а для сравнения результатов авторы выбрали далеко не самые свежие модели.
Разбор подготовил
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👀7❤6👍3
Pyramidal Flow Matching for Efficient Video Generative Modeling
Чтобы сгенерировать видео, свежие Sora-like-модели (как на первой картинке) создают каждый кадр из чистого шума, а потом расшумляют его. Но сделать видео так гораздо сложнее, чем картинку:
1. Нужно смоделировать не одно изображение, а целую последовательность. То есть, если один кадр размером хотя бы 500 пикселей, а видео должно длиться 5 секунд с частотой 30 FPS, то нейросеть нарисует 150 кадров по 500 пикселей — потребуются значительные вычислительные мощности.
2. Sora-like-модели не авторегрессионные, а значит, не могут создать видео длиннее тех, на которых обучались. Это можно обойти трюками, например, генерируя кадры «внахлëст».
Авторы сегодняшнего препринта предлагают поступиться качеством изображений, чтобы повысить эффективность и обучения, и инференса: на низком пространственном разрешении и так много шума, а значит, можно генерировать кадры видео менее чёткими, чем обычные картинки. А ещё их модель by design использует фреймы из прошлого и поэтому в теории может предсказывать без склеек консистентные видео любой длины.
Как и все модные ребята, эти предлагают обучать модель на flow-matching-лоссе: предсказывать векторное поле пикселей. То есть, пытаться угадать, куда они сдвинутся и как изменят кадр с течением времени.
В чём же пирамидальность? Обычно для видео используют multistage-генерацию: сначала предсказывают кадры маленького разрешения, а потом апскейлят их. В препринте избавляются от multistage: моделируют все разрешения в одном лоссе.
На каждом уровне пирамиды есть своя степень зашумления, равномерно распределëнная по высоте. Внутри уровня картинка расшумляется специально предсказанным для него векторным полем. На последнем уровне шум обнуляется — получается чистый кадр.
Шум на разных уровнях пирамиды скоррелирован, чтобы добиться одинакового probability flow на всех этапах генерации и улучшить конечный результат.
Авторы не приводят сравнения с диффузионным лоссом. Как думаете, сошлось бы?
Разбор подготовил❣ Александр Маркович
CV Time
Чтобы сгенерировать видео, свежие Sora-like-модели (как на первой картинке) создают каждый кадр из чистого шума, а потом расшумляют его. Но сделать видео так гораздо сложнее, чем картинку:
1. Нужно смоделировать не одно изображение, а целую последовательность. То есть, если один кадр размером хотя бы 500 пикселей, а видео должно длиться 5 секунд с частотой 30 FPS, то нейросеть нарисует 150 кадров по 500 пикселей — потребуются значительные вычислительные мощности.
2. Sora-like-модели не авторегрессионные, а значит, не могут создать видео длиннее тех, на которых обучались. Это можно обойти трюками, например, генерируя кадры «внахлëст».
Авторы сегодняшнего препринта предлагают поступиться качеством изображений, чтобы повысить эффективность и обучения, и инференса: на низком пространственном разрешении и так много шума, а значит, можно генерировать кадры видео менее чёткими, чем обычные картинки. А ещё их модель by design использует фреймы из прошлого и поэтому в теории может предсказывать без склеек консистентные видео любой длины.
Как и все модные ребята, эти предлагают обучать модель на flow-matching-лоссе: предсказывать векторное поле пикселей. То есть, пытаться угадать, куда они сдвинутся и как изменят кадр с течением времени.
В чём же пирамидальность? Обычно для видео используют multistage-генерацию: сначала предсказывают кадры маленького разрешения, а потом апскейлят их. В препринте избавляются от multistage: моделируют все разрешения в одном лоссе.
На каждом уровне пирамиды есть своя степень зашумления, равномерно распределëнная по высоте. Внутри уровня картинка расшумляется специально предсказанным для него векторным полем. На последнем уровне шум обнуляется — получается чистый кадр.
Шум на разных уровнях пирамиды скоррелирован, чтобы добиться одинакового probability flow на всех этапах генерации и улучшить конечный результат.
Авторы не приводят сравнения с диффузионным лоссом. Как думаете, сошлось бы?
Разбор подготовил
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤6👍6
Тематическая подборка статей: галлюцинации VLM
Сегодня пробуем новый формат — делимся целой подборкой интересных статей по теме. Забирайте в избранное и читайте полные материалы в свободное время! А в комментариях пишите, полезен ли такой формат и хотите ли вы, чтобы наши авторы разобрали одну или несколько статей подробно.
Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions
Авторы получают на бенчмарке POPE буст, просто добавляя в промпт явную просьбу больше внимания обращать на изображение, а в случае конфликта знаний и содержимого изображения приоритизировать именно изображение.
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation
Для борьбы с галлюцинациями авторы предлагают костыльный фикс: определять, когда в средних слоях VLM уверена в ответе, и пропагейтить эти знания до финальных слоев, где они могут затираться знаниями LLM. Таким образом они исправляют ситуацию, когда по мере прохождения в более глубокие слои language bias начинает перевешивать токены изображения.
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio
Авторы винят в галлюцинациях "Over reliance on unimodal priors" и" Spurious inter-modality correlations", а на основе своих находок делают бенчмарк для диагностики VLM.
Trust but Verify: Programmatic VLM Evaluation in the Wild
Бенчмарк со сложным пайплайном для оценки галлюцинирования: берем картинки с подробными кэпшнами, строим по ним граф сцены, подаем в LLM, которая возвращает вопросы-ответы и программы верификации для них. Авторы утверждают, что такой подход позволяет разложить модель на helpfulness и trustfulness + делают анализ по этому разбиению. Спойлер: большинство моделей оказываются хороши только по одному из этих аспектов.
Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding
Авторы считают, что по мере написания кэпшна VLM все больше начинает зависеть от language prior’а, а не от изображения; при этом есть трейдофф между числом галлюцинаций и качеством текста. Для борьбы с проблемой предлагают укорачивать сгенерированный текст, а также используют дополнительную LLM.
Подборку подготовил❣ Артём Конев
CV Time
Сегодня пробуем новый формат — делимся целой подборкой интересных статей по теме. Забирайте в избранное и читайте полные материалы в свободное время! А в комментариях пишите, полезен ли такой формат и хотите ли вы, чтобы наши авторы разобрали одну или несколько статей подробно.
Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions
Авторы получают на бенчмарке POPE буст, просто добавляя в промпт явную просьбу больше внимания обращать на изображение, а в случае конфликта знаний и содержимого изображения приоритизировать именно изображение.
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation
Для борьбы с галлюцинациями авторы предлагают костыльный фикс: определять, когда в средних слоях VLM уверена в ответе, и пропагейтить эти знания до финальных слоев, где они могут затираться знаниями LLM. Таким образом они исправляют ситуацию, когда по мере прохождения в более глубокие слои language bias начинает перевешивать токены изображения.
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio
Авторы винят в галлюцинациях "Over reliance on unimodal priors" и" Spurious inter-modality correlations", а на основе своих находок делают бенчмарк для диагностики VLM.
Trust but Verify: Programmatic VLM Evaluation in the Wild
Бенчмарк со сложным пайплайном для оценки галлюцинирования: берем картинки с подробными кэпшнами, строим по ним граф сцены, подаем в LLM, которая возвращает вопросы-ответы и программы верификации для них. Авторы утверждают, что такой подход позволяет разложить модель на helpfulness и trustfulness + делают анализ по этому разбиению. Спойлер: большинство моделей оказываются хороши только по одному из этих аспектов.
Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding
Авторы считают, что по мере написания кэпшна VLM все больше начинает зависеть от language prior’а, а не от изображения; при этом есть трейдофф между числом галлюцинаций и качеством текста. Для борьбы с проблемой предлагают укорачивать сгенерированный текст, а также используют дополнительную LLM.
Подборку подготовил
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍9❤5
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis
Часть 1, предыстория и предшественники
Диффузионные модели уверенно занимают пьедестал почета в задаче генерации изображений по тексту. Но существует альтернативная парадигма — авторегрессионные модели, которые генерируют изображения последовательно патч за патчем (маленькими кусочками, скажем, 16x16 пикселей). На практике они работают медленнее и уступают в качестве диффузионкам, поэтому долгое время считались неконкурентоспособными.
Весной исследователи из ByteDance в работе VAR предложили альтернативную авторегрессионную парадигму для генерации изображений: из одного пикселя 1х1 генерируем картинку 2х2, потом 4х4 и так далее, причем каждое следующее разрешение предсказывается за один проход модели. В пиксельном пространстве работать все еще дорого, поэтому переходим в латентное пространство VAE, где с помощью метода Residual Quantization (RQ), представляем латентную переменную в виде пирамидки: нижние уровни соответствуют общей семантике, а верхние — мелким деталям и текстурам.
На нижних уровнях мало патчей, поэтому прогон модели дешевле. Стоимость возрастает с переходом на следующие уровни. Во время генерации модель смотрит на прошлые разрешения с помощью causal трансформера и генерирует текущее. Итоговую картинку получают, суммируя все предсказанные разрешения. Авторы добились качества, сопоставимого с современными диффузионками на ImageNet, при этом будучи значительно их быстрее.
Но генерация из фиксированного набора (1000 классов) не так интересна, как генерация по произвольным текстовым запросам. Поэтому очевидный шаг — перенести идею в более прикладной сценарий. Так появился STAR, который адаптировал подход для генерации изображений по тексту, но саму модель авторы так и не выложили. Поэтому мы решили обучить свою генеративную модель и опубликовать её в открытом доступе, чтобы стимулировать дальнейшее развитие парадигмы.
Обзор подготовил❣ Дмитрий Баранчук
CV Time
Часть 1, предыстория и предшественники
Диффузионные модели уверенно занимают пьедестал почета в задаче генерации изображений по тексту. Но существует альтернативная парадигма — авторегрессионные модели, которые генерируют изображения последовательно патч за патчем (маленькими кусочками, скажем, 16x16 пикселей). На практике они работают медленнее и уступают в качестве диффузионкам, поэтому долгое время считались неконкурентоспособными.
Весной исследователи из ByteDance в работе VAR предложили альтернативную авторегрессионную парадигму для генерации изображений: из одного пикселя 1х1 генерируем картинку 2х2, потом 4х4 и так далее, причем каждое следующее разрешение предсказывается за один проход модели. В пиксельном пространстве работать все еще дорого, поэтому переходим в латентное пространство VAE, где с помощью метода Residual Quantization (RQ), представляем латентную переменную в виде пирамидки: нижние уровни соответствуют общей семантике, а верхние — мелким деталям и текстурам.
На нижних уровнях мало патчей, поэтому прогон модели дешевле. Стоимость возрастает с переходом на следующие уровни. Во время генерации модель смотрит на прошлые разрешения с помощью causal трансформера и генерирует текущее. Итоговую картинку получают, суммируя все предсказанные разрешения. Авторы добились качества, сопоставимого с современными диффузионками на ImageNet, при этом будучи значительно их быстрее.
Но генерация из фиксированного набора (1000 классов) не так интересна, как генерация по произвольным текстовым запросам. Поэтому очевидный шаг — перенести идею в более прикладной сценарий. Так появился STAR, который адаптировал подход для генерации изображений по тексту, но саму модель авторы так и не выложили. Поэтому мы решили обучить свою генеративную модель и опубликовать её в открытом доступе, чтобы стимулировать дальнейшее развитие парадигмы.
Обзор подготовил
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Visual Autoregressive Modeling: Scalable Image Generation via...
We present Visual AutoRegressive modeling (VAR), a new generation paradigm that redefines the autoregressive learning on images as coarse-to-fine "next-scale prediction" or "next-resolution...
👍11❤8🔥6
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis
Часть 2, методы
Приступив к созданию Switti (Scale-wise transformer for text-to-image), мы взяли за основу архитектуру STAR и начали постепенно её улучшать. Оригинальная модель оказалась нестабильной при обучении, и, мотивируясь работами по диффузионным трансформерам, мы добавили в модель дополнительные нормализационные слои, что стабилизировало обучение и улучшило итоговое качество.
Затем мы обратили внимание, что модель на входе на текущем уровне уже получает информацию о всех предыдущих уровнях по построению и при этом дополнительно смотрит на них с помощью attention-слоев, что показалось нам лишним и неэффективным. Убрав авторегрессию на прошлые разрешения, удалось ускорить пайплайн генерации для 512х512 изображений на 11%, уменьшить потребление памяти и немного улучшить качество генерации.
Также мы заметили, что модель слабо опирается на текстовые описания на самых последних уровнях генерации. Это натолкнуло на мысль, что можно не использовать технику classifier-free-guidance (CFG) на уровнях высокого разрешения. Напомним, что CFG играет важную для повышения качества генерации и соответствия запросу в text-to-image моделях, но при этом требует дополнительный прогон модели на каждом шаге. Поэтому отключение CFG на последних уровнях значительно ускоряет генерацию. Более того, мы заметили, что помимо скорости, модель также продуцирует меньше артефактов при генерации мелких деталей и позволяет использовать более высокие значения CFG без ущерба качеству.
Обзор подготовил❣ Дмитрий Баранчук
CV Time
Часть 2, методы
Приступив к созданию Switti (Scale-wise transformer for text-to-image), мы взяли за основу архитектуру STAR и начали постепенно её улучшать. Оригинальная модель оказалась нестабильной при обучении, и, мотивируясь работами по диффузионным трансформерам, мы добавили в модель дополнительные нормализационные слои, что стабилизировало обучение и улучшило итоговое качество.
Затем мы обратили внимание, что модель на входе на текущем уровне уже получает информацию о всех предыдущих уровнях по построению и при этом дополнительно смотрит на них с помощью attention-слоев, что показалось нам лишним и неэффективным. Убрав авторегрессию на прошлые разрешения, удалось ускорить пайплайн генерации для 512х512 изображений на 11%, уменьшить потребление памяти и немного улучшить качество генерации.
Также мы заметили, что модель слабо опирается на текстовые описания на самых последних уровнях генерации. Это натолкнуло на мысль, что можно не использовать технику classifier-free-guidance (CFG) на уровнях высокого разрешения. Напомним, что CFG играет важную для повышения качества генерации и соответствия запросу в text-to-image моделях, но при этом требует дополнительный прогон модели на каждом шаге. Поэтому отключение CFG на последних уровнях значительно ускоряет генерацию. Более того, мы заметили, что помимо скорости, модель также продуцирует меньше артефактов при генерации мелких деталей и позволяет использовать более высокие значения CFG без ущерба качеству.
Обзор подготовил
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍8❤6
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis
Часть 3, эксперименты и результаты
Мы обучили 2.5B модель на внутреннем датасете из 100М картинок. В качестве бейзлайнов взяли сравнимые по размеру SD3-Medium, Lumina-Next, Stable Diffusion XL и её дистиллированные версии: SDXL-Turbo, DMD2; а также авторегрессионные модели: Emu3, Lumina-mGPT, LlamaGen и HART.
Для оценки качества использовали стандартные метрики: FID, CLIP, Pickscore, Image Reward, — а также бенчмарк GenEval и пользовательские предпочтения на корзинке из 128 запросов (Parti Prompts). Юзеры оценивали релевантность, эстетичность, комплексность и дефектность изображений.
Switti значительно превзошла существующие авторегрессионные подходы, как по метрикам, так и по пользовательским предпочтениям. С диффузионками добились паритета по качеству, но при этом Switti генерирует в 7 раз быстрее оригинальной SDXL-модели и в 2 раза быстрее её ускоренных версий.
Отметим, что это пока лишь шаг в развитии новой генеративной парадигмы и ещё есть, куда расти, чтобы дотянуть качество до уровня ведущих генеративных моделей: YaART, Midjourney, FLUX, Recraft и Ideogram-v2. Наша команда уже приступает к дальнейшему развитию Switti. Так что следите за обновлениями!
Обзор подготовил❣ Дмитрий Баранчук
CV Time
Часть 3, эксперименты и результаты
Мы обучили 2.5B модель на внутреннем датасете из 100М картинок. В качестве бейзлайнов взяли сравнимые по размеру SD3-Medium, Lumina-Next, Stable Diffusion XL и её дистиллированные версии: SDXL-Turbo, DMD2; а также авторегрессионные модели: Emu3, Lumina-mGPT, LlamaGen и HART.
Для оценки качества использовали стандартные метрики: FID, CLIP, Pickscore, Image Reward, — а также бенчмарк GenEval и пользовательские предпочтения на корзинке из 128 запросов (Parti Prompts). Юзеры оценивали релевантность, эстетичность, комплексность и дефектность изображений.
Switti значительно превзошла существующие авторегрессионные подходы, как по метрикам, так и по пользовательским предпочтениям. С диффузионками добились паритета по качеству, но при этом Switti генерирует в 7 раз быстрее оригинальной SDXL-модели и в 2 раза быстрее её ускоренных версий.
Отметим, что это пока лишь шаг в развитии новой генеративной парадигмы и ещё есть, куда расти, чтобы дотянуть качество до уровня ведущих генеративных моделей: YaART, Midjourney, FLUX, Recraft и Ideogram-v2. Наша команда уже приступает к дальнейшему развитию Switti. Так что следите за обновлениями!
Обзор подготовил
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥11❤7
Тематическая подборка статей: картиночные модели
Сегодня у нас новая подборка с рекомендациями нескольких интересных статей. В центре внимания — модели для работы с изображениями и статьи, где авторы предлагают идеи для их развития и улучшения в разных аспектах.
Архитектура
MoH: Multi-Head Attention as Mixture-of-Head Attention
Авторы переносят Mixture-of-Experts в аттеншн: предлагают относиться к головам как к экспертам и активировать только часть из них. Показывают, что так можно дотюнить обученные модели и что этот подход работает для широкого класса задач. На ViT и Llama3 получили неплохие результаты, но непонятно, можно ли теоретический профит перенести на практику.
Дообучение
Locality Alignment Improves Vision-Language Models
Ресерчеры предлагают использовать схему с маскированием для дообучения CLIP-трансформеров, которое улучшает их качество как VLM-бэкбонов на пространственных задачах.
When Does Perceptual Alignment Benefit Vision Representations?
Исследователи файнтюнят через LoRA бэкбоны на датасете Nights (20 тысяч триплетов с разметкой, где отражено, какое из двух изображений более похоже на первое с т. з. человека) и пишут, что после этого модели извлекают более хорошие фичи для широкого класса задач. Удивляет, что в 20 тысячах триплетов оказалось достаточно информации, чтобы заметно повлиять на качество модели.
Дистилляция
TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant
Авторы говорят, что при дистилляции между моделями разных семейств (CNN/MLP/ViT) можно использовать модель-ассистента, состоящую из блоков разного типа. Это позволяет повысить гибкость и расширить потенциал дистилляции знаний в случае, если у модели-учителя и ученика разные архитектуры.
Датасеты
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines
Датасет с блюдами разных стран и культур, 6 тысяч изображений. Очень много авторов для такой узкой темы и разнообразная аннотация как бонус.
Подборку подготовил❣ Артём Конев
CV Time
Сегодня у нас новая подборка с рекомендациями нескольких интересных статей. В центре внимания — модели для работы с изображениями и статьи, где авторы предлагают идеи для их развития и улучшения в разных аспектах.
Архитектура
MoH: Multi-Head Attention as Mixture-of-Head Attention
Авторы переносят Mixture-of-Experts в аттеншн: предлагают относиться к головам как к экспертам и активировать только часть из них. Показывают, что так можно дотюнить обученные модели и что этот подход работает для широкого класса задач. На ViT и Llama3 получили неплохие результаты, но непонятно, можно ли теоретический профит перенести на практику.
Дообучение
Locality Alignment Improves Vision-Language Models
Ресерчеры предлагают использовать схему с маскированием для дообучения CLIP-трансформеров, которое улучшает их качество как VLM-бэкбонов на пространственных задачах.
When Does Perceptual Alignment Benefit Vision Representations?
Исследователи файнтюнят через LoRA бэкбоны на датасете Nights (20 тысяч триплетов с разметкой, где отражено, какое из двух изображений более похоже на первое с т. з. человека) и пишут, что после этого модели извлекают более хорошие фичи для широкого класса задач. Удивляет, что в 20 тысячах триплетов оказалось достаточно информации, чтобы заметно повлиять на качество модели.
Дистилляция
TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant
Авторы говорят, что при дистилляции между моделями разных семейств (CNN/MLP/ViT) можно использовать модель-ассистента, состоящую из блоков разного типа. Это позволяет повысить гибкость и расширить потенциал дистилляции знаний в случае, если у модели-учителя и ученика разные архитектуры.
Датасеты
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines
Датасет с блюдами разных стран и культур, 6 тысяч изображений. Очень много авторов для такой узкой темы и разнообразная аннотация как бонус.
Подборку подготовил
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤5👀4
LLaVa-CoT: Let Vision Language Models Reason Step-by-Step
Сегодня разберём статью о подходе к обучению и инференсу VLM, вдохновлённом o1-preview от OpenAI.
Авторы начали со сбора 100 тысяч сэмплов из открытых VQA-бенчмарков (и пообещали выложить получившийся датасет!). Потом для этих сэмплов с помощью GPT-4o сгенерировали CoT-синтетику со следующими блоками:
⚪ Summary — развернутое описание решаемой проблемы;
⚪ Caption — описание изображения с учетом деталей, релевантных задаче;
⚪ Reasoning — step-by-step решение задачи;
⚪ Conclusion — финальный ответ.
После на этих данных сделали full-finetune поверх Llama-3.2-11B-Vision-Instruct (кстати, всего на восьми H100).
Уже на этом этапе модель стала заметно умнее своего бейзлайна: 56,6 → 63,5 средних попугаев. Но авторы выбили еще полтора попугая за счет собственного inference-time скейлинга: Stage level Beam Search. По сути, это обычный BS. Только ветвление происходит на уровне целых блоков CoT, а не на уровне отдельных предложений.
По замерам авторов, их модель в максимальном сетапе обходит Gemini-1.5-Pro и приближается к Claude3.5-Sonnet (см. табличку). До GPT-4o, правда, еще далековато.
Обзор подготовил❣ Павел Штыков
CV Time
Сегодня разберём статью о подходе к обучению и инференсу VLM, вдохновлённом o1-preview от OpenAI.
Авторы начали со сбора 100 тысяч сэмплов из открытых VQA-бенчмарков (и пообещали выложить получившийся датасет!). Потом для этих сэмплов с помощью GPT-4o сгенерировали CoT-синтетику со следующими блоками:
После на этих данных сделали full-finetune поверх Llama-3.2-11B-Vision-Instruct (кстати, всего на восьми H100).
Уже на этом этапе модель стала заметно умнее своего бейзлайна: 56,6 → 63,5 средних попугаев. Но авторы выбили еще полтора попугая за счет собственного inference-time скейлинга: Stage level Beam Search. По сути, это обычный BS. Только ветвление происходит на уровне целых блоков CoT, а не на уровне отдельных предложений.
По замерам авторов, их модель в максимальном сетапе обходит Gemini-1.5-Pro и приближается к Claude3.5-Sonnet (см. табличку). До GPT-4o, правда, еще далековато.
Обзор подготовил
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍8🔥5
2024-й на финишной прямой! Потихоньку настраиваемся на подведение итогов и освежаем в памяти самые популярные посты уходящего года. Уверены, это будет почти так же уютно, как пересматривать «Один дома»
Minimalist Vision with Freeform Pixels
Алиса Родионова разобрала статью с ECCV-24, получившую награду Best Paper Award. Авторы создали прототип автономной по электропитанию камеры. Вместо обычной матрицы в ней установлены 24 фотодиода с масками-фильтрами, которые выполняют роль первого слоя нейросети. Такая архитектура позволяет адаптировать камеру под разные задачи и получать результаты с помощью всего 8 пикселей. В обзоре — подробнее о том, как устроено решение.
Интересное с ECCV 2024
Ещё один пост с ECCV-24. Дарья Виноградова, Александр Устюжанин и Сергей Кастрюлин отобрали самые интересные доклады первого дня конференции. В их числе «механизм реалистичности» для сокращения доменного сдвига в 3D-рендеринге лиц, подходы к улучшению реализма в text-to-3D и image-to-3D моделях, а также концепция разделения Knowledge и Memory в нейросетях.
Как LLaMA 3.1 работает с изображениями
Роман Исаченко объяснил, как устроена мультимодальная LLaMA 3.1: какие архитектурные решения в основе, на каких данных её обучали и как она показывает себя на бенчмарках. Он подметил несколько интересных трюков. Среди них — подмена весов на этапе файнтюна через hot-swap и дополнительный пост-претрейн на датасете с редкими скриншотами и таблицами.
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation, часть 2
Александр Шишеня в двух постах рассказал, как устроена DART, диффузионная авторегрессионная модель для генерации изображений. В разборе вы найдёте детали о полезных модификациях, вроде DART-AR с ускорением обучения и DART-FM с Flow Matching для повышения качества генераций. Вторая часть оказалась ещё популярнее первой, — видимо, вам хотелось поскорее узнать развязку.
Pyramidal Flow Matching for Efficient Video Generative Modeling
Александр Маркович разобрал, как Sora-like модели создают видео. Авторы статьи предлагают отказаться от высокого разрешения ради скорости обучения и инференса. Интересная часть — пирамидальный подход: вместо многослойной генерации видео с постепенным апскейлом, как обычно, моделируют все разрешения сразу.
Впечатления от ECCV 2024
Мы попросили инженеров Яндекса подвести личные итоги конференции и рассказать, чем она запомнилась. В посте собрали рекомендации свежих работ по CV и любопытные заметки на полях. Среди трендов заметили фокус на исследованиях за пределами области text-to-image и спад интереса к узким темам. Все детали — на наших красочных карточках.
Movie Gen: A Cast of Media Foundation Models
Денис Кузнеделев взял оригинальный технический отчёт проекта и разобрал решения, использованные в моделях для генерации видео Movie Gen. Некоторые идеи оказались нетривиальными, например, регуляризация при обучении сети-автокодировщика, архитектура для стабилизации и масштабирования обучения, специальное расписание диффузии. Больше подробностей — по ссылке.
CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍3🔥3
Лучшие CV-статьи за 2024 год: подборка от авторов канала
Часть 1
Лучшие публикации прошедшего года не теряют актуальности в новом. Мы попросили постоянных авторов канала отметить самые полезные пейперы из 2024-го — несём вам первую часть подборки.
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Исследователи совместили набирающую популярность модель Flow Matching (Rectified Flow) и нейросетевую архитектуру DiT (Diffusion Transformer), чтобы адаптировать их для генерации изображений по тексту. Именно эта работа лежит в основе модели Stable Diffusion 3.
Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models
В статье предложено новое архитектурное семейство картиночных кодировщиков DeepCompression-AE. Они позволяют сжимать изображения в 64 раза (по каждой стороне) с минимальными потерями. DC-AE значительно уменьшает затраты по времени и памяти при генерации, а также обладает высокой точностью реконструкции.
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
Модели семейства InternVL регулярно оказываются в топе бенчмарков и составляют конкуренцию проприетарным моделям, вроде Gemini и GPT-4o. Авторы придерживаются открытого подхода к исследованиям — все веса моделей доступны для свободного использования. Основная статья была опубликована в конце 2023 года, но в 2024 вышли значимые обновления для версий 1.5, 2 и 2.5.
Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models
Как и предыдущая, эта статья даёт возможность узнать детали устройства state-of-the-art модели, в данном случае — text-to-image. Авторы приводят подробности об архитектуре, сборе датасета и стабилизации процесса обучения.
Chameleon: Mixed-Modal Early-Fusion Foundation Models
Статья задала тренд на развитие моделей, которые умеют нативно работать с изображениями как в дискриминативном, так и в генеративном форматах. Такая модель не только ответит на вопрос по изображению, но и при необходимости сгенерирует в своём ответе картинку.
Law of Vision Representation in MLLMs
Выбор картиночного бэкбона для мультимодальных LLM обычно происходит эмпирически: перебираем N вариантов и берём лучший по соотношению скорости и качества. В статье сделана попытка с научной точки зрения ответить на вопрос, что такое хороший картиночный бэкбон. Для этого авторы ввели свойства Alignment и Correspondence, которым должны соответствовать кандидаты. В дополнение можно прочитать неформальный блогпост от автора.
Продолжение следует.
Статьи отобрали и прокомментировали❣ Александр Устюжанин и Артём Конев
CV Time
Часть 1
Лучшие публикации прошедшего года не теряют актуальности в новом. Мы попросили постоянных авторов канала отметить самые полезные пейперы из 2024-го — несём вам первую часть подборки.
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Исследователи совместили набирающую популярность модель Flow Matching (Rectified Flow) и нейросетевую архитектуру DiT (Diffusion Transformer), чтобы адаптировать их для генерации изображений по тексту. Именно эта работа лежит в основе модели Stable Diffusion 3.
Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models
В статье предложено новое архитектурное семейство картиночных кодировщиков DeepCompression-AE. Они позволяют сжимать изображения в 64 раза (по каждой стороне) с минимальными потерями. DC-AE значительно уменьшает затраты по времени и памяти при генерации, а также обладает высокой точностью реконструкции.
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
Модели семейства InternVL регулярно оказываются в топе бенчмарков и составляют конкуренцию проприетарным моделям, вроде Gemini и GPT-4o. Авторы придерживаются открытого подхода к исследованиям — все веса моделей доступны для свободного использования. Основная статья была опубликована в конце 2023 года, но в 2024 вышли значимые обновления для версий 1.5, 2 и 2.5.
Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models
Как и предыдущая, эта статья даёт возможность узнать детали устройства state-of-the-art модели, в данном случае — text-to-image. Авторы приводят подробности об архитектуре, сборе датасета и стабилизации процесса обучения.
Chameleon: Mixed-Modal Early-Fusion Foundation Models
Статья задала тренд на развитие моделей, которые умеют нативно работать с изображениями как в дискриминативном, так и в генеративном форматах. Такая модель не только ответит на вопрос по изображению, но и при необходимости сгенерирует в своём ответе картинку.
Law of Vision Representation in MLLMs
Выбор картиночного бэкбона для мультимодальных LLM обычно происходит эмпирически: перебираем N вариантов и берём лучший по соотношению скорости и качества. В статье сделана попытка с научной точки зрения ответить на вопрос, что такое хороший картиночный бэкбон. Для этого авторы ввели свойства Alignment и Correspondence, которым должны соответствовать кандидаты. В дополнение можно прочитать неформальный блогпост от автора.
Продолжение следует.
Статьи отобрали и прокомментировали
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤6🔥2
Analyzing The Language of Visual Tokens
Визуальные токены ≠ текстовые, но в мультимодальных моделях (например, LLaVA и Chameleon) они часто используются схожим образом, без искусственного разделения.
Авторы сегодняшней статьи исследуют, насколько близки естественные языки, образованные текстовыми токенами, и визуальные языки, образованные токенами визуальными. Для этого они сопоставляют визуальные языки COCO, ImageNet и других популярных датасетов, используя VQ-VAE-like токенайзеры и линеаризацию токенов изображений в 1D-последовательности (как на картинке). А потом сравнивают полученные для визуальных языков закономерности с зависимостями для естественных.
Ключевые результаты:
— В отличие от естественных языков, визуальные не подчиняются Zipf’s law: среди визуальных токенов нет превалирующих (для текстовых это, например, артикль the).
— Визуальные языки разнообразнее естественных: уникальные изображения чаще состоят из новых токенов. Авторы показывают это с помощью процесса Yule-Simon.
— Визуальные языки «естественны» — удовлетворяют Benford’s law.
— Пытаясь сжать визуальные токены кодированием Хаффмана, исследователи пришли к выводу, что визуальные языки хаотичнее, комплекснее и менее избыточны, чем естественные.
— Визуальные токены изображений чаще соотносятся с частями объектов, а не с целыми предметами.
Эмпирические исследования показали: хотя технически визуальные токены похожи на текстовые, составленные из них языки не совпадают.
По мнению авторов, это важно учитывать в обучении моделей: нейросети, которые работают с визуальными токенами, более подвержены переобучению. А комплексность и разнообразие визуальных языков требуют более долгой тренировки.
Обзор подготовил❣ Никита Буров
CV Time
Визуальные токены ≠ текстовые, но в мультимодальных моделях (например, LLaVA и Chameleon) они часто используются схожим образом, без искусственного разделения.
Авторы сегодняшней статьи исследуют, насколько близки естественные языки, образованные текстовыми токенами, и визуальные языки, образованные токенами визуальными. Для этого они сопоставляют визуальные языки COCO, ImageNet и других популярных датасетов, используя VQ-VAE-like токенайзеры и линеаризацию токенов изображений в 1D-последовательности (как на картинке). А потом сравнивают полученные для визуальных языков закономерности с зависимостями для естественных.
Ключевые результаты:
— В отличие от естественных языков, визуальные не подчиняются Zipf’s law: среди визуальных токенов нет превалирующих (для текстовых это, например, артикль the).
— Визуальные языки разнообразнее естественных: уникальные изображения чаще состоят из новых токенов. Авторы показывают это с помощью процесса Yule-Simon.
— Визуальные языки «естественны» — удовлетворяют Benford’s law.
— Пытаясь сжать визуальные токены кодированием Хаффмана, исследователи пришли к выводу, что визуальные языки хаотичнее, комплекснее и менее избыточны, чем естественные.
— Визуальные токены изображений чаще соотносятся с частями объектов, а не с целыми предметами.
Эмпирические исследования показали: хотя технически визуальные токены похожи на текстовые, составленные из них языки не совпадают.
По мнению авторов, это важно учитывать в обучении моделей: нейросети, которые работают с визуальными токенами, более подвержены переобучению. А комплексность и разнообразие визуальных языков требуют более долгой тренировки.
Обзор подготовил
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥10❤4👏2👀1
Лучшие CV-статьи за 2024 год: подборка от авторов канала
Часть 2
Продолжаем делиться самыми полезными публикациями прошлого года. Сегодня на очереди три статьи, которые рекомендует изучить Денис Кузнеделев, исследователь Yandex Research.
Improved Distribution Matching Distillation for Fast Image Synthesis
Авторы пытаются решить вопрос быстрой и качественной генерации картинок. В первой версии подхода из статьи One-step Diffusion with Distribution Matching Distillation предложили обучать вспомогательную модель (функцию fake score), чтобы она оценивала, насколько генерации «быстрой» модели похожи на результаты «медленной» модели-учителя. Подход работал неплохо, но всё же картинки от «быстрой» модели были хуже учительских.
В новой статье авторы существенно модифицировали решение. Теперь «быстрая» модель обновляется не каждый раз, а через несколько шагов функции fake score. Также добавили ещё одну вспомогательную модель-дискриминатор, которая оценивает реалистичность картинок, сгенерированных «быстрой» моделью. С этими изменениями удалось значительно улучшить качество при генерации в один и четыре шага.
Movie Gen: A Cast of Media Foundation Models
Осенью компания Meta* представила семейство моделей MovieGen для генерации видео. С фундаментальной точки зрения технический отчёт проекта предлагает немногое, но содержит ряд нетривиальных идей. В их числе — специальная регуляризация при обучении сети-автокодировщика, архитектурные решения для стабилизации и масштабирования обучения, специальное расписание диффузии.
Процесс сбора и подготовки данных включает как чисто картиночные данные, так и короткие видеоклипы разного разрешения и содержания. Модели умеют:
— генерировать видео по тексту;
— генерировать видео с целевым объектом (человеком, животным, предметом);
— редактировать видео на основе инструкций.
Дополнительно к видеомоделям исследователи и инженеры из Meta обучили модель для озвучки видео — MovieGen-Audio.
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
Авторы переосмысливают авторегрессию в картиночных моделях и предлагают токенизировать изображение по масштабу, а не по пространственным патчам. Новый класс моделей обгоняет предшественников по времени генерации, при этом не уступая по качеству. Подробнее расскажем о статье в следующей части подборки.
CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
Часть 2
Продолжаем делиться самыми полезными публикациями прошлого года. Сегодня на очереди три статьи, которые рекомендует изучить Денис Кузнеделев, исследователь Yandex Research.
Improved Distribution Matching Distillation for Fast Image Synthesis
Авторы пытаются решить вопрос быстрой и качественной генерации картинок. В первой версии подхода из статьи One-step Diffusion with Distribution Matching Distillation предложили обучать вспомогательную модель (функцию fake score), чтобы она оценивала, насколько генерации «быстрой» модели похожи на результаты «медленной» модели-учителя. Подход работал неплохо, но всё же картинки от «быстрой» модели были хуже учительских.
В новой статье авторы существенно модифицировали решение. Теперь «быстрая» модель обновляется не каждый раз, а через несколько шагов функции fake score. Также добавили ещё одну вспомогательную модель-дискриминатор, которая оценивает реалистичность картинок, сгенерированных «быстрой» моделью. С этими изменениями удалось значительно улучшить качество при генерации в один и четыре шага.
Movie Gen: A Cast of Media Foundation Models
Осенью компания Meta* представила семейство моделей MovieGen для генерации видео. С фундаментальной точки зрения технический отчёт проекта предлагает немногое, но содержит ряд нетривиальных идей. В их числе — специальная регуляризация при обучении сети-автокодировщика, архитектурные решения для стабилизации и масштабирования обучения, специальное расписание диффузии.
Процесс сбора и подготовки данных включает как чисто картиночные данные, так и короткие видеоклипы разного разрешения и содержания. Модели умеют:
— генерировать видео по тексту;
— генерировать видео с целевым объектом (человеком, животным, предметом);
— редактировать видео на основе инструкций.
Дополнительно к видеомоделям исследователи и инженеры из Meta обучили модель для озвучки видео — MovieGen-Audio.
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
Авторы переосмысливают авторегрессию в картиночных моделях и предлагают токенизировать изображение по масштабу, а не по пространственным патчам. Новый класс моделей обгоняет предшественников по времени генерации, при этом не уступая по качеству. Подробнее расскажем о статье в следующей части подборки.
CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
❤6👍3🔥2