CV Time

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis
Часть 2, методы

Приступив к созданию Switti (Scale-wise transformer for text-to-image), мы взяли за основу архитектуру STAR и начали постепенно её улучшать. Оригинальная модель оказалась нестабильной при обучении, и, мотивируясь работами по диффузионным трансформерам, мы добавили в модель дополнительные нормализационные слои, что стабилизировало обучение и улучшило итоговое качество.

Затем мы обратили внимание, что модель на входе на текущем уровне уже получает информацию о всех предыдущих уровнях по построению и при этом дополнительно смотрит на них с помощью attention-слоев, что показалось нам лишним и неэффективным. Убрав авторегрессию на прошлые разрешения, удалось ускорить пайплайн генерации для 512х512 изображений на 11%, уменьшить потребление памяти и немного улучшить качество генерации.

Также мы заметили, что модель слабо опирается на текстовые описания на самых последних уровнях генерации. Это натолкнуло на мысль, что можно не использовать технику classifier-free-guidance (CFG) на уровнях высокого разрешения. Напомним, что CFG играет важную для повышения качества генерации и соответствия запросу в text-to-image моделях, но при этом требует дополнительный прогон модели на каждом шаге. Поэтому отключение CFG на последних уровнях значительно ускоряет генерацию. Более того, мы заметили, что помимо скорости, модель также продуцирует меньше артефактов при генерации мелких деталей и позволяет использовать более высокие значения CFG без ущерба качеству.

Обзор подготовил

❣

Дмитрий Баранчук
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12👍8❤6

1.8K views12:31

CV Time

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis
Часть 3, эксперименты и результаты

Мы обучили 2.5B модель на внутреннем датасете из 100М картинок. В качестве бейзлайнов взяли сравнимые по размеру SD3-Medium, Lumina-Next, Stable Diffusion XL и её дистиллированные версии: SDXL-Turbo, DMD2; а также авторегрессионные модели: Emu3, Lumina-mGPT, LlamaGen и HART.

Для оценки качества использовали стандартные метрики: FID, CLIP, Pickscore, Image Reward, — а также бенчмарк GenEval и пользовательские предпочтения на корзинке из 128 запросов (Parti Prompts). Юзеры оценивали релевантность, эстетичность, комплексность и дефектность изображений.

Switti значительно превзошла существующие авторегрессионные подходы, как по метрикам, так и по пользовательским предпочтениям. С диффузионками добились паритета по качеству, но при этом Switti генерирует в 7 раз быстрее оригинальной SDXL-модели и в 2 раза быстрее её ускоренных версий.

Отметим, что это пока лишь шаг в развитии новой генеративной парадигмы и ещё есть, куда расти, чтобы дотянуть качество до уровня ведущих генеративных моделей: YaART, Midjourney, FLUX, Recraft и Ideogram-v2. Наша команда уже приступает к дальнейшему развитию Switti. Так что следите за обновлениями!

Обзор подготовил

❣

Дмитрий Баранчук
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥11❤7

2.35K views12:32

CV Time

Тематическая подборка статей: картиночные модели

Сегодня у нас новая подборка с рекомендациями нескольких интересных статей. В центре внимания — модели для работы с изображениями и статьи, где авторы предлагают идеи для их развития и улучшения в разных аспектах.

Архитектура
MoH: Multi-Head Attention as Mixture-of-Head Attention
Авторы переносят Mixture-of-Experts в аттеншн: предлагают относиться к головам как к экспертам и активировать только часть из них. Показывают, что так можно дотюнить обученные модели и что этот подход работает для широкого класса задач. На ViT и Llama3 получили неплохие результаты, но непонятно, можно ли теоретический профит перенести на практику.

Дообучение
Locality Alignment Improves Vision-Language Models
Ресерчеры предлагают использовать схему с маскированием для дообучения CLIP-трансформеров, которое улучшает их качество как VLM-бэкбонов на пространственных задачах.

When Does Perceptual Alignment Benefit Vision Representations?
Исследователи файнтюнят через LoRA бэкбоны на датасете Nights (20 тысяч триплетов с разметкой, где отражено, какое из двух изображений более похоже на первое с т. з. человека) и пишут, что после этого модели извлекают более хорошие фичи для широкого класса задач. Удивляет, что в 20 тысячах триплетов оказалось достаточно информации, чтобы заметно повлиять на качество модели.

Дистилляция
TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant
Авторы говорят, что при дистилляции между моделями разных семейств (CNN/MLP/ViT) можно использовать модель-ассистента, состоящую из блоков разного типа. Это позволяет повысить гибкость и расширить потенциал дистилляции знаний в случае, если у модели-учителя и ученика разные архитектуры.

Датасеты
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines
Датасет с блюдами разных стран и культур, 6 тысяч изображений. Очень много авторов для такой узкой темы и разнообразная аннотация как бонус.

Подборку подготовил ❣ Артём Конев
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14❤5👀4

2.67K viewsedited 12:32

CV Time

Роботы — круто

А статьи о робототехнике — ещё круче. Руководитель группы нейросетевых технологий Yandex.Robotics Виктор Юрченко рекомендует семь интересных работ по теме. Все подробности — в карточках.

CV Time

💯17👍10🔥7❤4

7.8K viewsedited 10:53

CV Time

LLaVa-CoT: Let Vision Language Models Reason Step-by-Step

Сегодня разберём статью о подходе к обучению и инференсу VLM, вдохновлённом o1-preview от OpenAI.

Авторы начали со сбора 100 тысяч сэмплов из открытых VQA-бенчмарков (и пообещали выложить получившийся датасет!). Потом для этих сэмплов с помощью GPT-4o сгенерировали CoT-синтетику со следующими блоками:

⚪Summary — развернутое описание решаемой проблемы;
⚪Caption — описание изображения с учетом деталей, релевантных задаче;
⚪Reasoning — step-by-step решение задачи;
⚪Conclusion — финальный ответ.

После на этих данных сделали full-finetune поверх Llama-3.2-11B-Vision-Instruct (кстати, всего на восьми H100).

Уже на этом этапе модель стала заметно умнее своего бейзлайна: 56,6 → 63,5 средних попугаев. Но авторы выбили еще полтора попугая за счет собственного inference-time скейлинга: Stage level Beam Search. По сути, это обычный BS. Только ветвление происходит на уровне целых блоков CoT, а не на уровне отдельных предложений.

По замерам авторов, их модель в максимальном сетапе обходит Gemini-1.5-Pro и приближается к Claude3.5-Sonnet (см. табличку). До GPT-4o, правда, еще далековато.

Обзор подготовил ❣ Павел Штыков
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍8🔥5

2.18K views07:47

CV Time

🏆

Итоги года: самые популярные посты в CV Time

2024-й на финишной прямой! Потихоньку настраиваемся на подведение итогов и освежаем в памяти самые популярные посты уходящего года. Уверены, это будет почти так же уютно, как пересматривать «Один дома» (только про компьютерное зрение).

Minimalist Vision with Freeform Pixels
Алиса Родионова разобрала статью с ECCV-24, получившую награду Best Paper Award. Авторы создали прототип автономной по электропитанию камеры. Вместо обычной матрицы в ней установлены 24 фотодиода с масками-фильтрами, которые выполняют роль первого слоя нейросети. Такая архитектура позволяет адаптировать камеру под разные задачи и получать результаты с помощью всего 8 пикселей. В обзоре — подробнее о том, как устроено решение.

Интересное с ECCV 2024
Ещё один пост с ECCV-24. Дарья Виноградова, Александр Устюжанин и Сергей Кастрюлин отобрали самые интересные доклады первого дня конференции. В их числе «механизм реалистичности» для сокращения доменного сдвига в 3D-рендеринге лиц, подходы к улучшению реализма в text-to-3D и image-to-3D моделях, а также концепция разделения Knowledge и Memory в нейросетях.

Как LLaMA 3.1 работает с изображениями
Роман Исаченко объяснил, как устроена мультимодальная LLaMA 3.1: какие архитектурные решения в основе, на каких данных её обучали и как она показывает себя на бенчмарках. Он подметил несколько интересных трюков. Среди них — подмена весов на этапе файнтюна через hot-swap и дополнительный пост-претрейн на датасете с редкими скриншотами и таблицами.

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation, часть 2
Александр Шишеня в двух постах рассказал, как устроена DART, диффузионная авторегрессионная модель для генерации изображений. В разборе вы найдёте детали о полезных модификациях, вроде DART-AR с ускорением обучения и DART-FM с Flow Matching для повышения качества генераций. Вторая часть оказалась ещё популярнее первой, — видимо, вам хотелось поскорее узнать развязку.

Pyramidal Flow Matching for Efficient Video Generative Modeling
Александр Маркович разобрал, как Sora-like модели создают видео. Авторы статьи предлагают отказаться от высокого разрешения ради скорости обучения и инференса. Интересная часть — пирамидальный подход: вместо многослойной генерации видео с постепенным апскейлом, как обычно, моделируют все разрешения сразу.

Впечатления от ECCV 2024
Мы попросили инженеров Яндекса подвести личные итоги конференции и рассказать, чем она запомнилась. В посте собрали рекомендации свежих работ по CV и любопытные заметки на полях. Среди трендов заметили фокус на исследованиях за пределами области text-to-image и спад интереса к узким темам. Все детали — на наших красочных карточках.

Movie Gen: A Cast of Media Foundation Models
Денис Кузнеделев взял оригинальный технический отчёт проекта и разобрал решения, использованные в моделях для генерации видео Movie Gen. Некоторые идеи оказались нетривиальными, например, регуляризация при обучении сети-автокодировщика, архитектура для стабилизации и масштабирования обучения, специальное расписание диффузии. Больше подробностей — по ссылке.

CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13👍3🔥3

2.46K viewsedited 08:00

CV Time

Лучшие CV-статьи за 2024 год: подборка от авторов канала
Часть 1

Лучшие публикации прошедшего года не теряют актуальности в новом. Мы попросили постоянных авторов канала отметить самые полезные пейперы из 2024-го — несём вам первую часть подборки.

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Исследователи совместили набирающую популярность модель Flow Matching (Rectified Flow) и нейросетевую архитектуру DiT (Diffusion Transformer), чтобы адаптировать их для генерации изображений по тексту. Именно эта работа лежит в основе модели Stable Diffusion 3.

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models
В статье предложено новое архитектурное семейство картиночных кодировщиков DeepCompression-AE. Они позволяют сжимать изображения в 64 раза (по каждой стороне) с минимальными потерями. DC-AE значительно уменьшает затраты по времени и памяти при генерации, а также обладает высокой точностью реконструкции.

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
Модели семейства InternVL регулярно оказываются в топе бенчмарков и составляют конкуренцию проприетарным моделям, вроде Gemini и GPT-4o. Авторы придерживаются открытого подхода к исследованиям — все веса моделей доступны для свободного использования. Основная статья была опубликована в конце 2023 года, но в 2024 вышли значимые обновления для версий 1.5, 2 и 2.5.

Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models
Как и предыдущая, эта статья даёт возможность узнать детали устройства state-of-the-art модели, в данном случае — text-to-image. Авторы приводят подробности об архитектуре, сборе датасета и стабилизации процесса обучения.

Chameleon: Mixed-Modal Early-Fusion Foundation Models
Статья задала тренд на развитие моделей, которые умеют нативно работать с изображениями как в дискриминативном, так и в генеративном форматах. Такая модель не только ответит на вопрос по изображению, но и при необходимости сгенерирует в своём ответе картинку.

Law of Vision Representation in MLLMs
Выбор картиночного бэкбона для мультимодальных LLM обычно происходит эмпирически: перебираем N вариантов и берём лучший по соотношению скорости и качества. В статье сделана попытка с научной точки зрения ответить на вопрос, что такое хороший картиночный бэкбон. Для этого авторы ввели свойства Alignment и Correspondence, которым должны соответствовать кандидаты. В дополнение можно прочитать неформальный блогпост от автора.

Продолжение следует.

Статьи отобрали и прокомментировали ❣ Александр Устюжанин и Артём Конев
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤6🔥2

2.67K views08:02

CV Time

Analyzing The Language of Visual Tokens

Визуальные токены ≠ текстовые, но в мультимодальных моделях (например, LLaVA и Chameleon) они часто используются схожим образом, без искусственного разделения.

Авторы сегодняшней статьи исследуют, насколько близки естественные языки, образованные текстовыми токенами, и визуальные языки, образованные токенами визуальными. Для этого они сопоставляют визуальные языки COCO, ImageNet и других популярных датасетов, используя VQ-VAE-like токенайзеры и линеаризацию токенов изображений в 1D-последовательности (как на картинке). А потом сравнивают полученные для визуальных языков закономерности с зависимостями для естественных.

Ключевые результаты:

— В отличие от естественных языков, визуальные не подчиняются Zipf’s law: среди визуальных токенов нет превалирующих (для текстовых это, например, артикль the).
— Визуальные языки разнообразнее естественных: уникальные изображения чаще состоят из новых токенов. Авторы показывают это с помощью процесса Yule-Simon.
— Визуальные языки «естественны» — удовлетворяют Benford’s law.
— Пытаясь сжать визуальные токены кодированием Хаффмана, исследователи пришли к выводу, что визуальные языки хаотичнее, комплекснее и менее избыточны, чем естественные.
— Визуальные токены изображений чаще соотносятся с частями объектов, а не с целыми предметами.

Эмпирические исследования показали: хотя технически визуальные токены похожи на текстовые, составленные из них языки не совпадают.

По мнению авторов, это важно учитывать в обучении моделей: нейросети, которые работают с визуальными токенами, более подвержены переобучению. А комплексность и разнообразие визуальных языков требуют более долгой тренировки.

Обзор подготовил ❣ Никита Буров
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22🔥10❤4👏2👀1

2.59K views07:33

CV Time

Лучшие CV-статьи за 2024 год: подборка от авторов канала
Часть 2

Продолжаем делиться самыми полезными публикациями прошлого года. Сегодня на очереди три статьи, которые рекомендует изучить Денис Кузнеделев, исследователь Yandex Research.

Improved Distribution Matching Distillation for Fast Image Synthesis

Авторы пытаются решить вопрос быстрой и качественной генерации картинок. В первой версии подхода из статьи One-step Diffusion with Distribution Matching Distillation предложили обучать вспомогательную модель (функцию fake score), чтобы она оценивала, насколько генерации «быстрой» модели похожи на результаты «медленной» модели-учителя. Подход работал неплохо, но всё же картинки от «быстрой» модели были хуже учительских.

В новой статье авторы существенно модифицировали решение. Теперь «быстрая» модель обновляется не каждый раз, а через несколько шагов функции fake score. Также добавили ещё одну вспомогательную модель-дискриминатор, которая оценивает реалистичность картинок, сгенерированных «быстрой» моделью. С этими изменениями удалось значительно улучшить качество при генерации в один и четыре шага.

Movie Gen: A Cast of Media Foundation Models

Осенью компания Meta* представила семейство моделей MovieGen для генерации видео. С фундаментальной точки зрения технический отчёт проекта предлагает немногое, но содержит ряд нетривиальных идей. В их числе — специальная регуляризация при обучении сети-автокодировщика, архитектурные решения для стабилизации и масштабирования обучения, специальное расписание диффузии.

Процесс сбора и подготовки данных включает как чисто картиночные данные, так и короткие видеоклипы разного разрешения и содержания. Модели умеют:

— генерировать видео по тексту;
— генерировать видео с целевым объектом (человеком, животным, предметом);
— редактировать видео на основе инструкций.

Дополнительно к видеомоделям исследователи и инженеры из Meta обучили модель для озвучки видео — MovieGen-Audio.

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Авторы переосмысливают авторегрессию в картиночных моделях и предлагают токенизировать изображение по масштабу, а не по пространственным патчам. Новый класс моделей обгоняет предшественников по времени генерации, при этом не уступая по качеству. Подробнее расскажем о статье в следующей части подборки.

CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ

❤6👍3🔥2

2.3K views07:34

CV Time

Лучшие CV-статьи за 2024 год: подборка от авторов канала
Часть 3

Сегодня делимся подборкой от Александра Шишени, ведущего разработчика службы компьютерного зрения в Яндексе. Он выбрал интересные направления и статьи в них, чтобы нам не пришлось рыться в тоннах публикаций.

Авторегрессионная генерация изображений

SWITTI: Designing Scale-Wise Transformers for Text-to-Image Synthesis
Команда исследователей из Yandex Research обучила и опубликовала в открытом доступе собственную авторегрессионную модель для генерации изображений по тексту. За основу взяли архитектуру STAR и провели ряд улучшений:
— добавили дополнительные нормализационные слои для стабилизации обучения;
— убрали авторегрессию на прошлые разрешения — тем самым ускорили генерацию и уменьшили потребление памяти;
— отключили технику classifier-free-guidance (CFG) на высоких разрешениях — получили значительное ускорение без ухудшения качества генерации.
В результате Switti имеет паритет по качеству с диффузионками, но при этом генерирует в 7 раз быстрее оригинальной SDXL-модели и в 2 раза быстрее её ускоренных версий.
Можно также прочитать подробный разбор решения в трёх частях: первая, вторая, третья.

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
Один из недостатков авторегрессионных моделей — низкая скорость генерации изображений. Чтобы решить эту и другие проблемы, ByteDance предложили альтернативную авторегрессионную парадигму, которая включает:
— многомасштабный VQ-VAE для одновременного кодирования и декодирования изображений на нескольких уровнях разрешения;
— обучение трансформера для последовательной генерации токенов изображения с постепенным увеличением масштаба.
В результате удалось добиться качества, сопоставимого с современными диффузионками, обученными на ImageNet, и при этом превзойти их по скорости.

Infinity∞: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
Авторы Infinity∞ продолжают развивать идеи масштабируемой авторегрессионной генерации. Их решение использует битовую токенизацию с бесконечным словарём и механизмом самокоррекции. Результат — заметно повышается качество генерируемых изображений.

Диффузионные модели

Neural Flow Diffusion Models: Learnable Forward Process for Improved Diffusion Modelling
На стадии инференса диффузионных моделей приходится делать много итераций, так как траектории сэмплирования, определяемые моделью, существенно отклоняются от прямых.

Это во многом связано с тем, что процесс зашумления в стандартной диффузии задаётся фиксированной формулой. Авторы предлагают обобщить диффузионные модели с подходом flow-matching, добавив обучаемое зашумление. Это позволяет адаптировать процесс зашумления так, чтобы траектории минимально отклонялись от прямых. Интересно, что такая постановка приводит к решению задачи оптимального транспорта.

✨А ещё в канале ML Underhood можно полистать карточки, где автор подборки Александар Шишеня рассказывает, над чем трудился в прошедшем году и какие события в сфере ML считает главными.

CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11👍6❤2

2.07K views13:06

CV Time

Опыт модели Aquila-VL-2B: почему не всегда стоит доверять бенчмаркам

Сегодня разберём работу Infinity-MM и описанную в ней модель Aquila-VL-2B. Эта маленькая VLM с двумя миллиардами параметров интересна тем, что смогла обойти в своём классе Qwen и InternVL, которые редко уступают первые позиции лидербордов. Расскажем, как в топе MMBench оказалась неизвестная модель и почему иногда бенчмарки могут искажать реальную ситуацию.

Работа представляет собой репорт о проведённом эксперименте. Материал не содержит наукоёмких изменений в пайплайне обучения или архитектуре модели. Авторы сосредоточены на теме данных и отвечают на вопрос: как при ограниченных ресурсах стать SOTA VLM, пусть даже не в самом популярном классе маленьких моделек.

Один из ключевых тезисов: при обучении VLM имеет смысл масштабировать объём SFT-данных. С этой целью авторы собрали всё доступное из опенсорса и получили датасет из нескольких десятков миллионов инстрактов, а также сгенерировали в дополнение небольшую часть синтетики. Все данные фильтровались, проходили дедупликацию и проверку на разнообразие. Итоговый мультимодальный датасет — это и есть Infinity-MM из названия статьи.

Из-за ограничения в вычислительных ресурсах исследователи использовали для генерации и чистки датасета опенсорсные модели, в частности активно прибегали к помощи Qwen.

Пайплайн для генерации синтетических данных выглядит следующим образом:

— Собирается база изображений, их размечают с помощью опенсорс-модели, которая тегирует объекты на картинке.
На основе тегов формируется дерево типов задач, для которых целесообразно создавать инстракты.

— Опенсорсными моделями (преимущественно MiniCPM и Qwen) генерируют инстракт по картинке, тегу и тематике. Происходит автофильтрация через эту же модель (ей дают сгенерированный инстракт и спрашивают, насколько он валиден).

— Затем получают ответ по синтетическому инстракту — та же модель снова отвечает на вопрос, который сама придумала.

— Следующий шаг — фильтрации ответа. Тут интересное решение: опенсорсная модель считает лосс по полученной паре и, если он высокий, пример исключается. Так исследователи автоматически отфильтровали 5% самых «шумных» данных.

Этих несложных манипуляций хватило, чтобы обогнать модели, которыми авторы генерировали и фильтровали свои данные. Скорее всего, так произошло, потому что синтетику целенаправленно собирали под конкретный бенчмарк (MMBench). И в таком случае модель может непредсказуемо вести себя на других задачах.

Можно сделать вывод, что бенчмарки лучше использовать исключительно как «градусник», чтобы следить за изменениями в области. А вот для оценки эффективности моделей надёжнее ориентироваться на SBS-замеры (Side-by-Side), которые позволяют проводить прямое сравнение в реальных условиях.

А как вы оцениваете опыт Aquila-VL-2B и доверяете ли ещё бенчмаркам?

Обзор подготовил ❣ Алексей Григорьев
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥7❤4

2.13K viewsedited 08:06

CV Time

Личные итоги года инженеров Яндекса — Роман Исаченко

Продолжаем серию постов от ML'щиков из Яндекса, в которых они подводят профессиональные итоги прошедшего года и строят планы на будущий.

Сегодня на очереди — руководитель подгруппы дискриминативного анализа изображений Роман Исаченко. Он рассказал о личных достижениях и поделился взглядом на тренды в ML.

Больше карточек от инженеров — по хештэгу #YaMLpeople.

❤29👍7🔥4👎2

2.4K views08:05

About

Blog

Apps

Platform