Concise Research
1.19K subscribers
266 photos
238 links
Исследования AI глазами исследователя
Автор: @snk4tr Сергей Кастрюлин
Download Telegram
Emu3.5: Native Multimodal Models are World Learners
[код и веса]

Emu3.5 представляет собой развитие идей предыдущих версий Emu, но с колоссальным скачком в масштабе и амбициях. Это не просто еще одна мультимодальная модель, а попытка создать "world model" — модель мира, способную нативно предсказывать следующее состояние не только в тексте, но и в видеоряде. Архитектурно это единый decoder-only трансформер (34B параметров), обученный на одной задаче — предсказание следующего токена (next-token prediction).

Данные

Ключевая особенность Emu3.5 — это данные. Вместо того чтобы полагаться в основном на пары (картинка, текст), модель обучалась преимущественно на чередующихся (interleaved) видео-текстовых данных, полученных из интернет-видео (более 10 триллионов токенов).

- Как это работает: видео нарезается на ключевые кадры (keyframes), а аудиодорожка транскрибируется в текст с временными метками. Затем кадры и соответствующие им фрагменты текста выстраиваются в одну длинную последовательность.
- Что это дает: такой подход позволяет модели изучать не статичные сцены, а продолжительные во времени события, динамику и причинно-следственные связи. Это основа для моделирования мира.

Для обучения также использовались стандартные image-text пары, данные для any-to-image (X2I) задач и чисто текстовые данные для сохранения языковых способностей.

Модель

- Unified Next-Token Prediction: В основе лежит стандартная авторегрессионная модель. Все модальности (текст, изображения, видео) токенизируются в единое дискретное пространство. Для визуальных данных используется токенизатор IBQ собственного производства с рядом улучшений (например, дистилляция признаков от SigLIP), а также опциональный диффузионный декодер для повышения качества реконструкции.
- DiDA (Discrete Diffusion Adaptation): Главная проблема авторегрессионных моделей — медленная генерация изображений (токен за токеном). DiDA решает эту проблему, временно превращая авторегрессионную модель в параллельный двунаправленный предсказатель на этапе генерации изображения. Это достигается за счет адаптации модели к задаче дискретной диффузии: последовательность токенов изображения сначала "зашумляется", а затем восстанавливается за несколько итераций. Это ускоряет генерацию изображения примерно в 20 раз без потери качества.
- Масштабное обучение и пост-тренинг: Модель прошла два этапа предобучения, затем SFT (на 150 млрд. сэмплов! 😨), а после — RL на наборе ревордов.

Результаты

Благодаря "видеоцентричному" обучению, модель умеет:
- Long-horizon generation: генерит длинные, согласованные во времени и семантически связанные последовательности из текста и изображений.
- Visual Narrative: историй с иллюстрациями на открытые темы (наука, история, сказки), сохраняя консистентность персонажей и стиля.
- Visual Guidance: генерация пошаговых визуальных инструкций (например, как приготовить блюдо или собрать что-то), где каждый шаг сопровождается релевантным изображением.
- World Exploration & Embodied Manipulation: способность моделировать виртуальные миры и взаимодействовать с ними (модель может перемещаться по сцене по текстовым командам).

В стандартных задачах генерации и редактирования Emu3.5 показывает производительность на уровне лучших закрытых моделей, таких как Gemini 2.5 Flash Image (Nano Banana).
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥82👏1
Несколько свежих работ по теме с фокусом на генерацию и редактирование картинок.

1. Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
[код, данные]

Современные методы генерации изображений с использованием CoT обычно встраивают рассуждение либо до генерации (планирование), либо после (пост-редактирование). Авторы этой работы предлагают текстовые рассуждения перемежать с процессом генерации изображения. С помощью хитрых инструкций модель заставляют сначала декомпозировать, а потом последовательно усложнять промт для генерации так чтобы в итоге качество генерации улучшалось.

В целом, логичная идея — перенести парадигму interleaved reasoning из текстовых LLM (где она уже стала стандартом) в визуальную генерацию. Вместо "выстрелил и забыл", модель постоянно сверяется с замыслом и правит работу в процессе, понятно почему это даёт буст качества.

2. Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
[код]

Авторы конструируют набор хитрых промтов для T2I генерации, требующих не шибко хитрый, но все же ризонинг (“Нарисуй столько яблок, сколько будет 8/4”). Далее показывают, что современные мультимодалки (BAGEL) не особо справляются с такими промтами из коробки. При этом, если чуть поризонить и найти решение (“Нарисуй 2 яблока”), то качество генерации существенно вырастет. Дальше удачные цепочки можно собрать и дообучить на них модель.

В целом, работа обсуждает утвердждение о том, что ”понимание" в мультимодальных моделях автоматически перетекает в "генерацию". По умолчанию — не перетекает. Генератор остается глупым исполнителем, пока мы явно не заставим его подумать через CoT или не вошьем эти паттерны через специальное обучение.

3. MIRA: Multimodal Iterative Reasoning Agent for Image Editing
[код, данные]

Yet another работа с использованием внешней VLM для последовательного улучшения эдитинга (loop: state → multimodal reasoning → action → environment feedback). Цепочки собрали в датасет 150к семплов, а дальше обучили на этом SFT + GRPO для получения end-to-end ризонера. Чем отличается от прошлых работ вроде Reward-Agnostic Prompt Optimization? Тем что задача редактивования, а не T2I и тем что вызов внешней VLM назвали агентным подходом.
👍8🔥32
За последние пару недель вышло несколько новых мультимодалок. Разберем детали, отличающие их от предшественников:
- Вводный пост
- Продолжение вводного поста
- Про проблемы с мультимодалками
- Подборка 1
- Подборка 2
- Подборка 3

Было еще несколько постов про отдельные модели, которые также можно без трудна найти в канале.

1. FLUX.2: Frontier Visual Intelligence
[оф пост с ссылками на код/веса]

Во второй версии авторы из BFL заслейлили всё что можно было заскейлить:
- 32В DiT денойзер с немного измененным соотношением single/double stream блоков.
- Mistral Small 3.1 (24B) в качестве текстового энкодера.
- Новый VAE, про который утверждается, что получен оптимум по reconstruction/diffusability (пост про то что это такое).

Из скудной инфы представленной в посте мы также знаем, что для эдитинга теперь поддерживается несколько картинок-условий, а еще сделано несколько технических трюков для удобства инференса. Тем не менее, даже с 4-bit квантизацией для инференса нужно 2х80g GPU, что навевает тень сомнения на широкое использование модели в ресерч сообществе.

2. Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
[код/веса, пока только T2I]

Авторы из Alibaba идут против тренда "scale-at-all-costs”. Вместо наращивания десятков миллиардов параметров (как у Hunyuan-3.0 или FLUX.2) авторы представляют эффективную 6B foundation model, которая конкурирует с ними по качеству, но требует в разы меньше ресурсов (на инференсе лезет в консьюмерскую 16Gb GPU).

По данным любопытно, что, помимо и так всеми использующихся фильтраций, авторы заморочились со стратификацией концептов, сделав балансировку на основе дерева знаний Википедии.

По архитектуре сделали вариант MM-DiT, утверждается, что более эффективный. В остальном стандарные Qwen3 (4B) в качестве текстового энкодера c SigLip-2 для дискриминативного и FLUX VAE для генеративного кодирования картинок. Следуя общим трендам, отдельным модулем обучают 6B переписывалку входных промтов.

Обучение довольно стандарное в несколько стадий с увеличением разрешения и SFT + DPO + GRPO + дистилляцией в 8 шагов в конце. В открытый доступ пока что выложен только T2I дистилл.

3. MammothModa2: A Unified AR–Diffusion Framework for Multimodal Understanding and Generation
[код, веса]

Еще одна мультимодалка от ByteDance. На этот раз Qwen-Image-like архитектура с отдельной ~2B FM single-stream DiT головой и тушкой в виде Qwen3-VL-8B.

Любопытной показалась схема обучения: на претрене сначала учат чисто T2I в 512, потом T2I + I2I в 1024 (данные по задачам смешивают внутри одного батча), VLM заморожена всю дорогу.

По данным интересно, что в претрене всего 37М семплов эдитинга, причем почти половина из них — редактирование китайского текста, а почти всё остальное — опенсорс данные (разбирали основные тут).
👍4🔥21
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
[код и данные]

Авторы из Shanghai AI Lab сделали Envision — бенчмарк для оценки способности мультимодальных моделей понимать и генерировать динамические причинно-следственные процессы.

Основной тезис: современные T2I и UMM (Unified Multimodal Models) хороши в генерации статичных картинок (pattern matching), но проваливаются, когда нужно смоделировать процесс (world modeling).

Бенчмарк фокусируется на задаче Text-to-Multi-Image (T2MI): генерации последовательности из 4 изображений, описывающих развитие события (например, химическая реакция или историческое событие).

Данные:

Вместо простых промптов Envision использует структурированные сценарии (1000 сценариев, 4000 промптов), основанные на реальных знаниях из учебников и энциклопедий.
- Домены: 6 областей (Физика, Химия, Биология, География, Метеорология, Культура/История). Это проверяет "internalized world knowledge".
- Causal Structure:
* Continuous Causality: Непрерывные процессы (например, маятник), требующие соблюдения законов сохранения и плавности переходов.
* Discrete Causality: Дискретные события с большими скачками во времени (например, эволюция или исторические эпохи), требующие абстрактного логического связывания.
- Prompt Structure: Каждый сценарий — это JSON с 4 шагами: [Initial State] -> [Early Interaction] -> [Progressive Transformation] -> [Final Resolution]. Это заставляет модель строить *causal narrative arc*, а не просто 4 независимые картинки.

Метрика и Метод Оценки

Авторы вводят Envision-Score, который агрегирует 3 измерения (9 суб-метрик). Оценка производится с помощью GPT-4o (VLM-as-a-Judge), выбранного после валидации с людьми-экспертами (PhD).
1. Consistency (40%):
* Spatio-Temporal: Логика движения и изменений во времени (не телепортируются ли объекты?).
* Semantic & Factual: Соответствие промпту и научным фактам.
2. Physicality (40%): Самое важное.
* Basic Properties: Сохранение количества и формы объектов.
* Dynamics: Реалистичность движения и взаимодействий (столкновения, жидкости).
* Physical Reliability: Соблюдение фундаментальных законов (гравитация, термодинамика).
3. Aesthetics (20%): Визуальное качество и аутентичность.

Результаты

Сравнили 15 моделей: специализированные T2I (SD3.5, FLUX), UMM (Emu3, Janus-Pro, Qwen-Image) и закрытые (GPT-4o, Gemini).

- Open-Source T2I (FLUX): Отличная эстетика (Aesthetics), но провал в физике и логике (Physicality ~50/100). Они генерируют красивые, но "глупые" картинки без понимания процесса.
- UMMs (Emu3, Seedream): Немного лучше понимают контекст и факты благодаря мультимодальной природе, но все еще слабы в динамике.
- Closed-Source (GPT-4o): Тотальное доминирование. GPT-4o набирает >70 баллов по физике и консистентности, в то время как open-source отстает на 10-20 пунктов.
- Understanding-Generation Paradox: Модели могут правильно отвечать на вопросы по физике (в текстовом режиме), но не могут сгенерировать правильную последовательность кадров для этого же процесса. Это доказывает, что "понимание" и "генерация" в текущих UMM разорваны.

Вывод

Envision показывает, что текущая paradigm shift в сторону UMM пока не решила проблему "world modeling". Модели всё ещё занимаются статичным сопоставлением паттернов, а не симуляцией мира. Для прогресса нужно переходить от обучения на парах "картинка-текст" к обучению на видео и причинно-следственных последовательностях (что перекликается с выводами статьи про Emu3.5). Больше всего смутил акцент на победе GPT-4o при том что она же использовалась в качестве модели-судьи. Убедительнее выглядят высокие скоры Gemini, что, в прочем, не удивительно.
👍51🔥1
Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models
[код обещают тут]

Ранее мы много обсуждали мультимодальную генерацию с точки зрения:
- Архитектуры: учить ли голову поверх LLM/VLM или делать unified backbone;
- Представления данных: дискретное или непрерывное кодирование для картинок и текстов
- Визуальных энкодеров: обычно для дискриминативных и генеративных задач используют разные (SigLip/VAE), но, например, Show-o2 (статья, разбор) пытается фьюзить их в единую модель

Последний пункт также интересен в разрезе работ семейства REPA, авторы которых показывают, что использование дескриминативных по своей природе SSL претренов ускоряет обучение генерации.

В этой работе авторы делают мультимодальную генеративку TUNA, обученную поверх унифицированных understanding-generation представлений.

Важно отметить, что именно в вопросе получения унифицированных представлений они не первые. Ранее уже выходили VAE дообученные на кодирование семантики, например UniTok и TokLIP. Также были работы про использование дискриминативных энкодеров для генеративного кодирования, например RAE. В этой работе авторы не предлагают новый энкодер-декодер. Их цель в последовательном применении двух картиночных энкодеров так чтобы взять лучшее от каждого.

Метод
Архитерктура (скрин) больше всего напоминает модель Show-o2 (сравнение в комментах).

Тексты кодируются традиционно (токенизация + эмбединг слой), рассмотрим кодирование картинок:
- Картинку Х переводим в латентное пространство VAE (x_1) и зашумляем прямым процессом (x_t)
- Дальше хотим кодировать с помощью SigLip, но у него в начале patch embeding слой 16х16, что слишком сильно понизит нам размерной, заменяем его на 1х1
- Теперь применение такого SigLip' не понизит размерность, применяем
- В конце с помощью MLP делаем проекцию в пространство нужной размерности, получаем представление z, которое уже подаем в модель:

z = MLP(SigLip′(x_t))

В остальном модель не отличается от других MLLM:
- Основаня тушка — трансформерный декодер
- Текст декодируется и токенизируется
- Для генерации картинок используется отдельная голова обученная на flow matching предсказание латентов
- Латенты декодируются VAE декодером

В ходе обучения VAE заморожен, SigLip и основной генератор — нет.

Плюсом работы является отдельный анализ и сравнение как с использованием отдельных представлений так и с механизмом предложенном в Show-o2. Утверждается, что TUNA позволяет лучше сохранить генеративную компоненту в унифицированных представлениях, что приводит к более хорошим метрикам.
3
Skywork UniPic 3.0: Unified Multi-Image Composition via Sequence Modeling
[код и данные]

UniPic 3.0 заявляется как решение одной из самых востребованных, но сложных задач в сообществе: многокадровой композиции (multi-image composition), особенно для сценариев взаимодействия человека и объекта (human-object interaction, HOI). Авторы утверждают, что получают качество сапостовимое (single-image editing) или даже лучшее (multi-image editing) качество чем у Nano Banana, посмотрим как.

Данные: качество важнее количества

Авторы делают ставку на тщательный отбор и подготовку данных, утверждая, что для сложной задачи композиции умеренный по размеру, но высококачественный датасет лучше огромного, но шумного.

1️⃣ Сбор: использовались изображения людей из CC12M (с фильтрацией) и синтетические объекты (150K изображений для 300 категорий), сгенерированные Qwen-Image по промптам GPT-4o.
2️⃣ Синтез: делают генерации Nano-Banana (для 2-3 изображений) и Seedream 4.0 (для 4-6 изображений) потому что на таких длинах цепочек модели работают лучше всего. Каждая композиция проверялась на эстетику и сохранение identity.
3️⃣ Результат: всего 215K примеров высококачественной многокадровой композиции.

Модель и Метод: Sequence Modeling Paradigm

➡️Архитектура: модель наследует архитектуру Qwen-Image (Qwen2.5-VL + VAE + MMDiT), но адаптирует её под множественный вход.
➡️Unified Visual Sequence: Латенты целевого изображения (noisy target) и всех референсных изображений (1-6 штук) конкатенируются вдоль измерения последовательности в единый длинный тензор. Это позволяет модели обрабатывать произвольное количество входных изображений и гибко управлять разрешением в пределах заданного бюджета пикселей (1024x1024).
➡️Shape Descriptors: Дополнительно передаются дескрипторы формы (высота/ширина) для каждого изображения, чтобы трансформер мог корректно восстанавливать пространственную структуру.

Ускорение Инференса: Гибридная Дистилляция

Авторы комбинируют DMD2 и LCM для качественного инференса в 8 шагов (ускорение в 12.5 раз).

Результаты

🔹MultiCom-Bench: новый бенчмарк из 200 сложных триплетов для оценки композиции. UniPic 3.0 превосходит Nano-Banana и Seedream 4.0, особенно на малом (2-3) числе изображений.
🔹Single-Image Editing: модель также показывает SOTA-результаты на ImgEdit-Bench. Утверждается, что унификация задач не вредит качеству редактирования одиночных изображений.

Выглядит как крутая модель, правда по issues выглядит так что есть баги в инференсе, надеемся на скорое исправление.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32
Self-Distillation Enables Continual Learning
[Код & датасеты]

Исследователи из MIT и ETH Zurich предлагают SDFT (Self-Distillation Fine-Tuning) — метод для непрерывного обучения (continual learning) языковых моделей. Главная проблема SFT при обучении новым навыкам — это catastrophic forgetting (забывание старых знаний) и distribution shift, так как SFT по своей сути является off-policy методом (модель учится на экспертных данных, а не на своих собственных генерациях).

Авторы предлагают заменить SFT на on-policy дистилляцию, где модель выступает учителем сама для себя, используя in-context learning.

Метод: On-Policy Distillation via ICL

Идея SDFT строится на том, что LLM — отличные in-context learners. Если подать модели экспертную демонстрацию (c) в контекст, она начинает вести себя как "улучшенная версия себя", близкая к оптимальной политике.

Teacher & Student: используется одна и та же модель π.
Student (P): получает только запрос x. Генерирует ответ y на основе своей текущей политики. Это on-policy данные.
Teacher (Q): получает запрос x + экспертную демонстрацию c (пример идеального ответа). Выдает распределение вероятностей токенов на сгенерированной студентом траектории y.
Важно: веса учителя — это EMA весов студента, что критично для стабильности обучения.

Objective: минимизируется обратная KL-дивергенция между студентом и учителем на сэмплах студента:

L(θ) = E_y~Student [ log (Student(y|x) / Teacher(y|x, c)) ]

Это эквивалентно on-policy RL, где награда определена неявно через отношение правдоподобия учителя к студенту:

r(y, x, c) = log π(y|x, c) - log π_k(y|x)

Optimization: градиенты считаются через likelihood ratio estimator. Используется full analytic per-token estimator для KL (считают KL для всего словаря на каждом шаге), что уменьшает дисперсию по сравнению с token-level approximation.

Эксперименты

Метод тестировали в двух сценариях непрерывного обучения:

Skill Learning: обучение новым навыкам (Science Q&A, Tool Use, Medical Reasoning) без потери общих способностей модели.
Knowledge Acquisition: внедрение новых фактов (события 2025 года, которых не было в претрейне) в веса модели.

Для оценки забывания использовали стандартный набор бенчмарков: MMLU, GSM8k, HumanEval и др. В качестве базы — Qwen2.5-7B-Instruct.

Результаты

Против SFT: SDFT значительно превосходит SFT. В задачах на новые навыки SDFT достигает более высокой точности и практически не деградирует на старых задачах, тогда как SFT вызывает сильное забывание.
Sequential Learning: в тесте на последовательное обучение трем навыкам подряд (Tool Use -> Science -> Medical) SDFT демонстрирует стабильный рост всех навыков. SFT же начинает "забывать" первый навык, как только переходит ко второму, демонстрируя осцилляцию.
Knowledge Injection: в задаче внедрения новых знаний SDFT точнее и показывает почти идеальное обобщение на out-of-distribution вопросы (вопросы, требующие знания фактов, но сформулированные иначе).
Teacher Quality: авторы показали, что учитель с демонстрацией в контексте (Teacher(y|x, c)) находится гораздо ближе к исходной модели (по KL), чем модель после SFT на тех же данных. Это объясняет, почему он помогает сдерживать дрейф распределения.
5👍1
One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers
[код есть]

В генерации изображений обычно платишь за пиксели: больше разрешение - больше токенов - больше FLOPS. Сами DiT обрабатывают все токены одинаково, будь то детальная текстура шерсти или просто белый фон. Это неэффективно. Авторы из Rice University и Snap представляют ELIT (Elastic Latent Interface Transformer) — метод, который отвязывает вычислительный бюджет от разрешения картинки и позволяет управлять соотношением качество/скорость.

Идея и метод: Latent Interface

Вместо того чтобы прогонять все пространственные токены через стек DiT блоков, ELIT вводит промежуточный Latent Interface — набор латентных токенов (количество которых K можно менять).

Архитектура

• Short Spatial Head: несколько начальных слоев DiT обрабатывают исходные патчи (spatial tokens).
• Read Layer: слой cross-attention, который засасывает информацию из пространственных токенов в компактный набор латентных токенов (K). Это ключевой момент перераспределения вычислений: attention сам решает, на какие регионы изображения потратить бюджет латентных токенов.
• Latent Core: основной стек трансформерных блоков работает уже в этом сжатом латентном пространстве.
• Write Layer & Tail: обратный cross-attention проецирует обновленные латенты обратно в пространственную сетку для финального декодирования.

Обучение

Чтобы модель работала с любым количеством токенов J <= K, во время обучения случайно выбирается J, и все токены после J-го отбрасываются. Это заставляет модель упорядочивать информацию по важности: первые токены несут глобальную структуру, последующие — детали.На инференсе можно просто выбрать желаемое число J латентных токенов. Хотите быстро? Возьмите мало токенов. Хотите качественно? Возьмите все.

Результаты

ELIT превосходит стандартные DiT, U-ViT и HDiT по соотношению FLOPS/Quality. На ImageNet-512 модель ELIT-DiT-XL улучшает FID на 53% по сравнению с DiT-XL при том же бюджете обучения. Одни и те же веса работают в широком спектре бюджетов инференса. Это дает лучший trade-off, чем просто уменьшение числа шагов сэмплинга.

Поскольку модель может работать в слабом режиме (мало токенов), это открывает возможность для дешевого guidance. Вместо того чтобы прогонять полноценную unconditional модель, можно прогнать ту же модель, но с урезанным числом токенов (скажем, 25%). Это дает эффект Autoguidance, ускоряя генерацию на ~33% и улучшая качество.

Применение к Qwen-Image: Авторы масштабировали метод на 20B MM-DiT (Qwen-Image) и показали, что ELIT позволяет ускорить его в 2.7 раза с минимальной потерей качества, просто урезая число токенов.
🔥71
InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
[код и веса]

Возвращаемся к теме мультимодальных генеративных моделей. На очереди противоположность HunyuanImage 3.0 (разбор) — самой большой модели в классе на сегодня. Авторы из Shanghai AI Lab, прародители InternVL (сторожилы помнят какой была царь-VLM до квенов 👴) дообучили FM голову на генерацию/редактирование и представляют свою новую, компактную генеративку всего текстового и визуального.

InternVL-U имеет < 4B параметров (2B VLM backbone + 1.7B generation head). Сравнительно неплохое качество достигнуто за счет огромных усилий по построению пайплайнов сбора разного рода данных. По архитектуре буквально ничего нового, поэтому далее разберем данные, обучение и бенчмаркинг.

Данные

Чтобы модель не просто рисовала красивые картинки, но и была "умной", авторы создали пайплайн синтеза данных, фокусируясь на сложных доменах:

Reasoning-Centric Synthesis: вместо того чтобы учить модель на парах короткий промпт -> картинка, авторы используют Qwen и GPT-4o чтобы развернуть абстрактный запрос пользователя в пошаговый план (подумать, какие элементы нужны, как их расположить, какой стиль выбрать), и только потом генерировать изображение. Это учит модель рассуждать перед рисованием.

Text Rendering: специальный пайплайн для text-centric задач — рендеринг текста на фонах и внутри изображений с использованием OCR и layout-aware генерации.

❗️ На этом пункте хочется остановиться отдельно. Во-первых, авторы показывают силу простых пайплайнов рендеринга текста на картинке (T2I) и перерисовывания через Flux-text (I2I). Они позволяют получать данные, качества которых достаточно для обучения моделей, рисующих текст на доске/стекле и т.п. Во-вторых, занятно, что, получив такие данные, даже маленький денойзер (1.7В) вполне способен выучить сложные паттерны генерации/редактирования текста на картинке.

Другие необычне данные, для которых сделали пайплайны:
• Humor & Memes — как будто просто убирают/добавляют текст на мемные картинки в нужное место
• Spatial Rotation — берут несколько кадров во время вращения 3D объектов
• Multi-view CAD — то же самое, только в CAD
• Science — данные для физики, химии (формулы, молекулы) и геометрии с использованием программных инструментов (GeoGebra, SVG, Matplotlib).

Обучение

Учат в три стадии:

1. Head Pre-training: VLM заморожена. Обучается только MMDiT-голова и проекторы на задачах генерации и редактирования (512px).
2. Any-Resolution Continued Pre-training: обучение на произвольных разрешениях (до 1024px) и соотношениях сторон. Для редактирования добавляется явная инъекция VAE-латентов исходного изображения для попиксельной точности.
3. SFT: размораживают всю модель (включая VLM). Обучение идет e2e на смеси данных, включая CoT-данные.

Результаты

Overall (T2I): InternVL-U (4B) бьет BAGEL (14B) и приближается к Qwen-Image (20B) на GenEval и DPG-Bench.
Text Rendering (T2I): очень сильные результаты в генерации текста (LongText-Bench, CVTG-2k), особенно на китайском и английском языках, превосходя многие специализированные модели.
Understanding (I2T): благодаря заморозке VLM на первых этапах и decoupling-стратегии, модель не теряет SOTA-способностей к пониманию (высокие баллы на MME, MMMU).
Editing (I2I): модель хороша на TextEdit.

Вывод

InternVL-U доказывает, что архитектуру с диффузионной головой можно дотянуть до хороших результатов данными даже при компактных размерах.
Please open Telegram to view this post
VIEW IN TELEGRAM
10
Beyond Language Modeling: An Exploration of Multimodal Pretraining
[ни кода, ни весов нет]

Команда из FAIR и NYU (LeCun team 👦) представила масштабное эмпирическое исследование по обучению нативных унифицированных мультимодальных моделей (UMM) с нуля. В скоуп работы попадают и VLM и мультимодальные генеративки.

Большинство текущих подходов берут уже готовую LLM и пытаются прикрутить к ней зрение. Авторы же решили ответить на фундаментальный вопрос: как разные архитектурные и датасетные решения влияют на модель, если учить язык и зрение с нуля и одновременно?

В работе используют фреймворк Transfusion (разбор): один трансформер, где для текста считается next-token prediction, а для картинки/видео — Flow Matching.

Визуальные представления

Авторы сравнили спектр энкодеров: VAE (SD-VAE, FLUX.1), семантические (SigLIP 2, DINOv2, WebSSL) и "сырые" пиксели.

RAE (Representation Autoencoders) — победитель. Использование эмбеддингов SigLIP 2 вместо VAE-латентов (как это делается в большинстве UMM) дает лучшие результаты и в понимании (VQA), и в генерации (GenEval, DPGBench). VAE хорош для восстановления пикселей, но теряет семантику, важную для понимания. RAE-подход позволяет использовать один высокоразмерный энкодер для обеих задач, существенно упрощая архитектуру по сравнению с dual-encoder системами как в Janus или BAGEL.

Данные: конкурируют ли модальности?

Главный страх мультимодального претрейна: зрение испортит язык. Второй страх: не испортит, но и не поможет. Что выяснили:

1️⃣ Обучение на сыром видео (без текста) параллельно с текстом улучшает (или не ухудшает) языковую перплексию по сравнению с чисто текстовым бейзлайном.

2️⃣ Деградация языка возникает только при добавлении image-text (I/T) пар (например, MetaCLIP). Авторы доказали, что это не из-за зрения, а из-за сдвига распределения текста - кэпшены сильно отличаются от веб-текста.

3️⃣ Добавление текста к фиксированному бюджету визуальных токенов улучшает качество генерации картинок.

Наблюдения

Способность к world modeling эмерджентна. Добавление общего видео-корпуса к всего 1% in-domain (50B токенов) дает результаты, сравнимые с обучением на 100B токенах только in-domain данных. Более того, модель способна воспринимать free-form текст как управляющие action'ы в zero-shot режиме (например, "get out of the shadow", "take big steps forward").

Архитектура и масштабирование

Вместо стандартного shared Transformer авторы исследовали разделение capacity.

➡️Modality-Specific FFNs: Простое создание двух независимых FFN (для текста и для vision) внутри каждого слоя, при сохранении shared Attention, уже снижает конкуренцию модальностей.

➡️MoE — самая эффективная архитектура. Также интересно, что модель выделяет больше экспертов под текст. При этом для генерации (T2I) и понимания картинки (I2T) активируются одни и те же "визуальные" эксперты.

➡️Scaling Asymmetry (Chinchilla IsoFLOPs): Для плотных (dense) моделей масштабные законы асимметричны. Текст требует сбалансированного роста, а зрение в разы прожорливее к данным. Из-за этой асимметрии невозможно подобрать идеальный оптимальный бюджет для обеих модальностей сразу. Введение MoE сглаживает этот разрыв.

Вывод

Штраф за мультимодальность — это миф дизайна, а не фундаментальное свойство. Используя одно мощное семантическое представление (RAE), независимые или MoE FFN-блоки и правильный микс данных, можно обучить нативную UMM с нуля. Такая модель не только не теряет в языковых навыках, но и естественным образом перенимает свойства World Models для zero-shot планирования навигации в пространстве.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2🔥2
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

Этот обзор — пожалуй, наиболее полный на сегодняшний день источник знаний по мультимодальным генеративкам. В последней, январской ревизии собрали, систематизировали и проанализировали всё то что было сделано в области за последние полтора года.

В обзоре обсуждаются вопросы архитектур, данных и бенчмарков. На основании анализа подсвечиваются проблемы и перспективные направления развития области. Главный вывод — область бурно развивается и у исследователей все еще нет единого мнения о том как строить универсальные генеративки.

Всем интересующимся темой, а также желающим разобраться рекомендуется к ознакомлению.
🔥3👍21
End-to-End Training for Unified Tokenization and Latent Denoising
[код и веса]

Современные LDM почти всегда двухступенчатые: сначала отдельно учат токенизатор (автоэнкодер), потом замораживают его и сверху учат генератор в зафиксированном латентном пространстве. Это удобно инженерно, но генеративная часть никак не влияет на то, каким получается латентный код и приходится подстраивать генератор под чужое пространство признаков.​

UNITE предлагает рассматривать токенизацию и генерацию как одну и ту же задачу вычисления латентов, просто в разных режимах: в одном случае модель видит исходное изображение почти целиком и должна выдать его компактное представление, в другом — стартует с шума и слабых подсказок и должна прийти к тому же типу представления. Важный шаг — один и тот же энкодер используется и как токенизатор, и как генератор в латентном пространстве, а обучающие сигналы от задачи реконструкции и от задачи генерации совместно формуют одно общее пространство признаков.​

За счёт этого авторы показывают, что можно обойтись одним обучающим запуском и одной моделью вместо каскада токенизатор + генератор, сохранив почти SOTA качество как по реконструкции, так и по генерации. Анализ промежуточных представлений показывает, что даже без внешних учителей токенизация и генерация естественно выравниваются: внутренние слои модели переиспользуются обеими задачами, а не расходятся в две несвязанные подсистемы.​

Интересно, что совместное обучение ведёт себя немного адверсариально: критерии реконструкции и генерации местами конфликтуют, но именно этот конфликт заставляет модель искать латентное пространство, которое одновременно и достаточно информативно для восстановления деталей, и достаточно устойчиво, чтобы по нему было удобно генерировать.

В итоге UNITE показывает, что можно тренировать end-to-end LDM с нуля, не разбивая на два этапа и не привлекая DINO-учителей. Это открывает путь к обучению генеративок в узкоспециализированных областях (робототехника, биология), где нет готовых VAE.
🔥43
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
[код, веса]

Исследователи из NVIDIA и Университета Гонконга (HKU) поднимают проблему агентного оркестрирования. Современные мультимодальные агенты (например, в Humanity's Last Exam) строятся по принципу монолита: одна огромная LLM (как GPT-4o или Claude) пытается решить задачу самостоятельно, периодически дергая базовые тулы вроде поиска или интерпретатора кода.

Авторы говорят: это не эффективно и дорого. Намного лучше работает другой подход — небольшая (8B) модель-оркестратор, которая управляет целым парком инструментов. В этот набор инструментов входят не только калькуляторы и поиск, но и другие специализированные и общие LLM (от Qwen-Coder до GPT-5).

То есть, маленькая LLM решает, когда задачу можно решить дешевым локальным поиском, а когда нужно позвать GPT-5 или специализированную математическую модель.

Метод

Авторы обучают модель Orchestrator-8B (на базе Qwen3-8B) с помощью метода ToolOrchestra в парадигме Perception-Reasoning-Action.

При этом, если просто взять готовую LLM и попросить её выбрать нужную модель-инструмент (через промпт), она ведет себя предвзято:

➡️Self-enhancement bias: Qwen будет вызывать другие модели Qwen.
➡️Other-enhancement bias: GPT-5 будет в 98% случаев вызывать GPT-5-mini или себя же, игнорируя стоимость и наличие других, не менее подходящих моделей.

Чтобы научить 8B-модель быть хорошим менеджером, её обучают с помощью GRPO. Reward строится не просто на правильности ответа, а как взвешенная сумма трех компонентов:

➡️Outcome: решена ли задача в итоге (судит GPT-5).
➡️Эффективность: штрафы за стоимость вызванных моделей (по реальным API-ценам) и за задержку (latency).
➡️Пользовательские предпочтения: вектор предпочтений, описывающий, насколько пользователю критична цена, приватность (локальный поиск vs web) или скорость.

Для обучения авторы собрали синтетический датасет ToolScale. Пайплайн его создания включает симуляцию баз данных, генерацию API и синтез сложных многошаговых задач с эталонными траекториями решений, валидированными LLM.

Результаты

На Humanity's Last Exam Orchestrator-8B обходит GPT-5 с тулами и огромную Qwen3-235B. На бенчмарке FRAMES (поиск и рассуждения по Wikipedia) выдает 76.3%.

По эффективности (τ-Bench) тоже лучше. Агент успешно решает сложные задачи, используя GPT-5 только в 40% шагов для самых трудных подзадач, а для остального обходясь дешевыми моделями. В итоге стоимость и задержка снижаются в 3 раза по сравнению с использованием только GPT-5.

Модель тестировали на невиданных при обучении тулах (например, Claude Opus 4.1 или новые модели Qwen). Orchestrator-8B успешно адаптировался: читая описания новых моделей, он корректно встраивал их в процесс, снова показывая лучшее соотношение цена/качество.

Отдельно проверили, как модель слушается юзера. Если пользователь пишет "Я хочу избежать API-колов и ограничиться локальным поиском/хостингом", Orchestrator-8B перестраивает логику и почти не обращается к GPT-5 или веб-поиску, справляясь силами локальных моделей.

Вместо вывода

Работа предлагает прагматичный взгляд на развитие AI-агентов. Вместо бесконечного раздувания размеров монолитных моделей, будущее может лежать в разделении труда: легкий, дешевый, но очень умный в менеджменте координатор управляет зоопарком специализированных экспертов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🤔2
VIBE: Visual Instruction Based Editor [2/2]

Первая часть обзора статьи, в которой мы посмотрели на архитектуру модели и то, как она соединяет VLM и диффузионную систему, уже доступна в канале @timeforcv. Теперь разберём, как всё это обучается и какие данные используются.

Как обучается модель

В статье описана четырёхстадийная схема обучения:

1. Connector alignment — обучаются коннектор и meta tokens.
2. Претрейн — обучается диффузионная модель и коннектор.
3. SFT — дообучаются meta tokens.
4. DPO — дообучается только диффузионная модель.

Само по себе многостадийное обучение — стандартная практика. Внимания заслуживает аккуратно подобранная схема с попеременной разморозкой разных частей системы, в том числе в части с meta tokens. Здесь авторы опираются на работу MetaQueries. В ней описывается проблема обучения общего представления между VLM и диффузионной моделью. Их нужно соединить так, чтобы при инференсе мультимодальный вход, проходящий через VLM, давал максимально богатое представление для генерации. В идеале — настолько информативное, что картинку на вход диффузионке можно было бы вообще не подавать. Подход позволяет увеличивать информативность входных представлений, не размораживая VLM. Подробнее в разборе.

Данные

Любопытно, что практически на всех стадиях, кроме DPO, в том или ином количестве используются text-image-данные. Авторы объясняют это двумя причинами. Во-первых, такие датасеты обычно содержат более качественные изображения. Во-вторых, это позволяет модели не забыть режим text-to-image.

Основной эдитинг-датасет — около 21 млн триплетов (изображение, инструкция, результат), в основном собранных из опенсорсных источников. После фильтрации осталось 7,7 млн триплетов. Для фильтрации данных использовались модели Gemini 2.0 Flash и Qwen-2.5-VL-7B.

SFT-датасет довольно большой — порядка 6,8 млн примеров. DPO — 176 тысяч.

Отдельно отметим, что авторы заморочились по поводу датасета UltraEdit. Они отфильтровали изображения низкого разрешения и, судя по описанию, перегенерировали таргеты более сильной моделью.

В статье также упоминаются Autonomous self-mining pipelines — около 3 млн примеров, полученных генерацией через Qwen-Image и другие проприетарные модели. В датасеты старались добавить реальные editing-триплеты, но их получилось немного — всего несколько тысяч.

Дополнительные данные

Также использовались видеоданные. Пайплайн стандартный: из кадров извлекаются эмбеддинги, сцены группируются по близости, после чего автоматически кэпшенятся небольшой моделью.

Авторы пытались разбить эдитинг-задачи на 50 подкатегорий с помощью кластеризации эмбеддингов, но финальной таблицы кластеров в статье нет.

Результаты

Авторы показывают результаты на опенсорсных бенчмарках, таких как GEdit и ImageEdit. По этим метрикам модель сопоставима по качеству с Z-Image.
🔥61👍1
Neon: Negative Extrapolation from Self-Training Improves Image Generation
[код]

Мой любимый формат статей - простые, понятные и полезные находки с высоким потенциалом практической применимости. С первого дня ICLR очень запомнилась работа в этом жанре о методе Neon - простом трюке, на который авторы случайно наткнулись изучая баланс precision/recall генераций разных моделей.

Известно, что если дообучать диффузионку на собственных генерациях, она довольно быстро начинает коллапсировать: визуальное качество генераций падает, разнообразие деградирует. Фактически, такой процесс разменивает recall на precision.

Авторам пришла в голову следующая идея, похожая на autoguidance в пространстве весов. Давайте веса немного сколлапсированной таким образом модели с некоторым весом вычтем из весов хорошо обученной, качественной модели.

Такой простой трюк на уровне task arithmetic позволяет бустануть и так неплохой ImageNet FID 1.43 до 1.03. Для обучения достаточно одной эпохи по 1000 синтетических семплов.
🔥10👍21