ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
[код, веса]
Исследователи из NVIDIA и Университета Гонконга (HKU) поднимают проблему агентного оркестрирования. Современные мультимодальные агенты (например, в Humanity's Last Exam) строятся по принципу монолита: одна огромная LLM (как GPT-4o или Claude) пытается решить задачу самостоятельно, периодически дергая базовые тулы вроде поиска или интерпретатора кода.
Авторы говорят: это не эффективно и дорого. Намного лучше работает другой подход — небольшая (8B) модель-оркестратор, которая управляет целым парком инструментов. В этот набор инструментов входят не только калькуляторы и поиск, но и другие специализированные и общие LLM (от Qwen-Coder до GPT-5).
То есть, маленькая LLM решает, когда задачу можно решить дешевым локальным поиском, а когда нужно позвать GPT-5 или специализированную математическую модель.
Метод
Авторы обучают модель Orchestrator-8B (на базе Qwen3-8B) с помощью метода ToolOrchestra в парадигме Perception-Reasoning-Action.
При этом, если просто взять готовую LLM и попросить её выбрать нужную модель-инструмент (через промпт), она ведет себя предвзято:
➡️ Self-enhancement bias: Qwen будет вызывать другие модели Qwen.
➡️ Other-enhancement bias: GPT-5 будет в 98% случаев вызывать GPT-5-mini или себя же, игнорируя стоимость и наличие других, не менее подходящих моделей.
Чтобы научить 8B-модель быть хорошим менеджером, её обучают с помощью GRPO. Reward строится не просто на правильности ответа, а как взвешенная сумма трех компонентов:
➡️ Outcome: решена ли задача в итоге (судит GPT-5).
➡️ Эффективность: штрафы за стоимость вызванных моделей (по реальным API-ценам) и за задержку (latency).
➡️ Пользовательские предпочтения: вектор предпочтений, описывающий, насколько пользователю критична цена, приватность (локальный поиск vs web) или скорость.
Для обучения авторы собрали синтетический датасет ToolScale. Пайплайн его создания включает симуляцию баз данных, генерацию API и синтез сложных многошаговых задач с эталонными траекториями решений, валидированными LLM.
Результаты
На Humanity's Last Exam Orchestrator-8B обходит GPT-5 с тулами и огромную Qwen3-235B. На бенчмарке FRAMES (поиск и рассуждения по Wikipedia) выдает 76.3%.
По эффективности (τ-Bench) тоже лучше. Агент успешно решает сложные задачи, используя GPT-5 только в 40% шагов для самых трудных подзадач, а для остального обходясь дешевыми моделями. В итоге стоимость и задержка снижаются в 3 раза по сравнению с использованием только GPT-5.
Модель тестировали на невиданных при обучении тулах (например, Claude Opus 4.1 или новые модели Qwen). Orchestrator-8B успешно адаптировался: читая описания новых моделей, он корректно встраивал их в процесс, снова показывая лучшее соотношение цена/качество.
Отдельно проверили, как модель слушается юзера. Если пользователь пишет "Я хочу избежать API-колов и ограничиться локальным поиском/хостингом", Orchestrator-8B перестраивает логику и почти не обращается к GPT-5 или веб-поиску, справляясь силами локальных моделей.
Вместо вывода
Работа предлагает прагматичный взгляд на развитие AI-агентов. Вместо бесконечного раздувания размеров монолитных моделей, будущее может лежать в разделении труда: легкий, дешевый, но очень умный в менеджменте координатор управляет зоопарком специализированных экспертов.
[код, веса]
Исследователи из NVIDIA и Университета Гонконга (HKU) поднимают проблему агентного оркестрирования. Современные мультимодальные агенты (например, в Humanity's Last Exam) строятся по принципу монолита: одна огромная LLM (как GPT-4o или Claude) пытается решить задачу самостоятельно, периодически дергая базовые тулы вроде поиска или интерпретатора кода.
Авторы говорят: это не эффективно и дорого. Намного лучше работает другой подход — небольшая (8B) модель-оркестратор, которая управляет целым парком инструментов. В этот набор инструментов входят не только калькуляторы и поиск, но и другие специализированные и общие LLM (от Qwen-Coder до GPT-5).
То есть, маленькая LLM решает, когда задачу можно решить дешевым локальным поиском, а когда нужно позвать GPT-5 или специализированную математическую модель.
Метод
Авторы обучают модель Orchestrator-8B (на базе Qwen3-8B) с помощью метода ToolOrchestra в парадигме Perception-Reasoning-Action.
При этом, если просто взять готовую LLM и попросить её выбрать нужную модель-инструмент (через промпт), она ведет себя предвзято:
Чтобы научить 8B-модель быть хорошим менеджером, её обучают с помощью GRPO. Reward строится не просто на правильности ответа, а как взвешенная сумма трех компонентов:
Для обучения авторы собрали синтетический датасет ToolScale. Пайплайн его создания включает симуляцию баз данных, генерацию API и синтез сложных многошаговых задач с эталонными траекториями решений, валидированными LLM.
Результаты
На Humanity's Last Exam Orchestrator-8B обходит GPT-5 с тулами и огромную Qwen3-235B. На бенчмарке FRAMES (поиск и рассуждения по Wikipedia) выдает 76.3%.
По эффективности (τ-Bench) тоже лучше. Агент успешно решает сложные задачи, используя GPT-5 только в 40% шагов для самых трудных подзадач, а для остального обходясь дешевыми моделями. В итоге стоимость и задержка снижаются в 3 раза по сравнению с использованием только GPT-5.
Модель тестировали на невиданных при обучении тулах (например, Claude Opus 4.1 или новые модели Qwen). Orchestrator-8B успешно адаптировался: читая описания новых моделей, он корректно встраивал их в процесс, снова показывая лучшее соотношение цена/качество.
Отдельно проверили, как модель слушается юзера. Если пользователь пишет "Я хочу избежать API-колов и ограничиться локальным поиском/хостингом", Orchestrator-8B перестраивает логику и почти не обращается к GPT-5 или веб-поиску, справляясь силами локальных моделей.
Вместо вывода
Работа предлагает прагматичный взгляд на развитие AI-агентов. Вместо бесконечного раздувания размеров монолитных моделей, будущее может лежать в разделении труда: легкий, дешевый, но очень умный в менеджменте координатор управляет зоопарком специализированных экспертов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🤔2
VIBE: Visual Instruction Based Editor [2/2]
Первая часть обзора статьи, в которой мы посмотрели на архитектуру модели и то, как она соединяет VLM и диффузионную систему, уже доступна в канале @timeforcv. Теперь разберём, как всё это обучается и какие данные используются.
Как обучается модель
В статье описана четырёхстадийная схема обучения:
1. Connector alignment — обучаются коннектор и meta tokens.
2. Претрейн — обучается диффузионная модель и коннектор.
3. SFT — дообучаются meta tokens.
4. DPO — дообучается только диффузионная модель.
Само по себе многостадийное обучение — стандартная практика. Внимания заслуживает аккуратно подобранная схема с попеременной разморозкой разных частей системы, в том числе в части с meta tokens. Здесь авторы опираются на работу MetaQueries. В ней описывается проблема обучения общего представления между VLM и диффузионной моделью. Их нужно соединить так, чтобы при инференсе мультимодальный вход, проходящий через VLM, давал максимально богатое представление для генерации. В идеале — настолько информативное, что картинку на вход диффузионке можно было бы вообще не подавать. Подход позволяет увеличивать информативность входных представлений, не размораживая VLM. Подробнее в разборе.
Данные
Любопытно, что практически на всех стадиях, кроме DPO, в том или ином количестве используются text-image-данные. Авторы объясняют это двумя причинами. Во-первых, такие датасеты обычно содержат более качественные изображения. Во-вторых, это позволяет модели не забыть режим text-to-image.
Основной эдитинг-датасет — около 21 млн триплетов (изображение, инструкция, результат), в основном собранных из опенсорсных источников. После фильтрации осталось 7,7 млн триплетов. Для фильтрации данных использовались модели Gemini 2.0 Flash и Qwen-2.5-VL-7B.
SFT-датасет довольно большой — порядка 6,8 млн примеров. DPO — 176 тысяч.
Отдельно отметим, что авторы заморочились по поводу датасета UltraEdit. Они отфильтровали изображения низкого разрешения и, судя по описанию, перегенерировали таргеты более сильной моделью.
В статье также упоминаются Autonomous self-mining pipelines — около 3 млн примеров, полученных генерацией через Qwen-Image и другие проприетарные модели. В датасеты старались добавить реальные editing-триплеты, но их получилось немного — всего несколько тысяч.
Дополнительные данные
Также использовались видеоданные. Пайплайн стандартный: из кадров извлекаются эмбеддинги, сцены группируются по близости, после чего автоматически кэпшенятся небольшой моделью.
Авторы пытались разбить эдитинг-задачи на 50 подкатегорий с помощью кластеризации эмбеддингов, но финальной таблицы кластеров в статье нет.
Результаты
Авторы показывают результаты на опенсорсных бенчмарках, таких как GEdit и ImageEdit. По этим метрикам модель сопоставима по качеству с Z-Image.
Первая часть обзора статьи, в которой мы посмотрели на архитектуру модели и то, как она соединяет VLM и диффузионную систему, уже доступна в канале @timeforcv. Теперь разберём, как всё это обучается и какие данные используются.
Как обучается модель
В статье описана четырёхстадийная схема обучения:
1. Connector alignment — обучаются коннектор и meta tokens.
2. Претрейн — обучается диффузионная модель и коннектор.
3. SFT — дообучаются meta tokens.
4. DPO — дообучается только диффузионная модель.
Само по себе многостадийное обучение — стандартная практика. Внимания заслуживает аккуратно подобранная схема с попеременной разморозкой разных частей системы, в том числе в части с meta tokens. Здесь авторы опираются на работу MetaQueries. В ней описывается проблема обучения общего представления между VLM и диффузионной моделью. Их нужно соединить так, чтобы при инференсе мультимодальный вход, проходящий через VLM, давал максимально богатое представление для генерации. В идеале — настолько информативное, что картинку на вход диффузионке можно было бы вообще не подавать. Подход позволяет увеличивать информативность входных представлений, не размораживая VLM. Подробнее в разборе.
Данные
Любопытно, что практически на всех стадиях, кроме DPO, в том или ином количестве используются text-image-данные. Авторы объясняют это двумя причинами. Во-первых, такие датасеты обычно содержат более качественные изображения. Во-вторых, это позволяет модели не забыть режим text-to-image.
Основной эдитинг-датасет — около 21 млн триплетов (изображение, инструкция, результат), в основном собранных из опенсорсных источников. После фильтрации осталось 7,7 млн триплетов. Для фильтрации данных использовались модели Gemini 2.0 Flash и Qwen-2.5-VL-7B.
SFT-датасет довольно большой — порядка 6,8 млн примеров. DPO — 176 тысяч.
Отдельно отметим, что авторы заморочились по поводу датасета UltraEdit. Они отфильтровали изображения низкого разрешения и, судя по описанию, перегенерировали таргеты более сильной моделью.
В статье также упоминаются Autonomous self-mining pipelines — около 3 млн примеров, полученных генерацией через Qwen-Image и другие проприетарные модели. В датасеты старались добавить реальные editing-триплеты, но их получилось немного — всего несколько тысяч.
Дополнительные данные
Также использовались видеоданные. Пайплайн стандартный: из кадров извлекаются эмбеддинги, сцены группируются по близости, после чего автоматически кэпшенятся небольшой моделью.
Авторы пытались разбить эдитинг-задачи на 50 подкатегорий с помощью кластеризации эмбеддингов, но финальной таблицы кластеров в статье нет.
Результаты
Авторы показывают результаты на опенсорсных бенчмарках, таких как GEdit и ImageEdit. По этим метрикам модель сопоставима по качеству с Z-Image.
🔥6❤1👍1
Neon: Negative Extrapolation from Self-Training Improves Image Generation
[код]
Мой любимый формат статей - простые, понятные и полезные находки с высоким потенциалом практической применимости. С первого дня ICLR очень запомнилась работа в этом жанре о методе Neon - простом трюке, на который авторы случайно наткнулись изучая баланс precision/recall генераций разных моделей.
Известно, что если дообучать диффузионку на собственных генерациях, она довольно быстро начинает коллапсировать: визуальное качество генераций падает, разнообразие деградирует. Фактически, такой процесс разменивает recall на precision.
Авторам пришла в голову следующая идея, похожая на autoguidance в пространстве весов. Давайте веса немного сколлапсированной таким образом модели с некоторым весом вычтем из весов хорошо обученной, качественной модели.
Такой простой трюк на уровне task arithmetic позволяет бустануть и так неплохой ImageNet FID 1.43 до 1.03. Для обучения достаточно одной эпохи по 1000 синтетических семплов.
[код]
Мой любимый формат статей - простые, понятные и полезные находки с высоким потенциалом практической применимости. С первого дня ICLR очень запомнилась работа в этом жанре о методе Neon - простом трюке, на который авторы случайно наткнулись изучая баланс precision/recall генераций разных моделей.
Известно, что если дообучать диффузионку на собственных генерациях, она довольно быстро начинает коллапсировать: визуальное качество генераций падает, разнообразие деградирует. Фактически, такой процесс разменивает recall на precision.
Авторам пришла в голову следующая идея, похожая на autoguidance в пространстве весов. Давайте веса немного сколлапсированной таким образом модели с некоторым весом вычтем из весов хорошо обученной, качественной модели.
Такой простой трюк на уровне task arithmetic позволяет бустануть и так неплохой ImageNet FID 1.43 до 1.03. Для обучения достаточно одной эпохи по 1000 синтетических семплов.
🔥10👍2❤1
Forwarded from CV Time
Первые статьи с ICLR 2026
О том, как стартовала конференция, рассказали в канале @MLunderhood. А прямо сейчас исследователь Yandex Research Сергей Кастрюлин делится работой об адаптивном гайдансе без использования классификатора в диффузионках.
И в заключение лайфхак, подсмотренный на постерной сессии:
#YaICLR26
CV Time
О том, как стартовала конференция, рассказали в канале @MLunderhood. А прямо сейчас исследователь Yandex Research Сергей Кастрюлин делится работой об адаптивном гайдансе без использования классификатора в диффузионках.
Dynamic Classifier-Free Diffusion Guidance via Online Feedback
После обучения диффузионной модели стандартный шаг её подготовки к использованию — это подбор параметров инференса. Например, подбор CFG scale и паттерна распределения CFG в случае с динамическим гайденсом.
Авторы из Google DeepMind предлагают метод для более эффективной настройки параметров инференса. Вместо beam search или ещё более дорогого полного перебора предлагается дообучить версии классификаторов качества (например, CLIP score) для работы с зашумлёнными латентами — и с помощью них динамически выбирать параметры сэмплирования прямо в процессе инференса.
Основной посыл в том, что один раз получить файньюны классификаторов дешевле, чем делать перебор параметров инференса, особенно если делать такое несколько раз.
И в заключение лайфхак, подсмотренный на постерной сессии:
Если научный руководитель просит не оформлять постер в стиле Барби (фото 2), знайте — он ничего не понимает в дизайне, народу зайдёт (фото 3).
#YaICLR26
CV Time
❤4🔥4❤🔥2😁2
LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
[код и веса]
Inclusion AI делает unified multimodal dLLM для understanding + generation. В отличие от MAR / Fluid / UniFluid / NexusGen, где генерация строится вокруг AR/MAR-предсказания visual tokens/latents, и от Qwen-Image / HunyuanImage / BAGEL / Transfusion, где обычно есть отдельный VLM/LLM и diffusion/flow head или гибрид NTP + diffusion, здесь ставка на общий discrete diffusion backbone: текст и semantic visual tokens учатся через один block-wise mask prediction objective.
Важное уточнение: Diffusion Decoder тут всё равно отдельный. Поэтому это не «один модуль для всего». Унификация скорее в том, что understanding и generation сходятся в одном dLLM-пространстве SigLIP-VQ токенов; decoder только превращает эти semantic tokens обратно в картинку.
Архитектура
• SigLIP-VQ tokenizer: картинка кодируется не VAE-like реконструктивными токенами, а семантическими дискретными токенами. Codebook: 16,384 токена, dim 2048. Это должно помогать understanding-задачам, где обычные VQ-VAE токены часто теряют семантику.
• Backbone: 16B MoE dLLM на базе LLaDA2.0-mini. Текстовые и визуальные токены моделируются через block-level masked diffusion objective.
• Diffusion Decoder: отдельный decoder на базе Z-Image-Base, который восстанавливает картинку из semantic visual tokens. То есть dLLM генерирует не пиксельные латенты, а семантические токены, а уже decoder превращает их в изображение.
SPRINT acceleration
Training-free ускорение для dLLM-инференса:
• Sparse prefix retention: прунят KV-cache, причём image tokens можно резать агрессивнее, чем text tokens;
• Non-uniform token unmasking: токены размаскируются не по фиксированному расписанию, а по confidence.
По таблицам это даёт ~1.6x speedup при небольшом среднем падении качества (-0.6 score). Но есть заметные просадки на OCRBench и DPG, что логично: раннее принятие токенов хуже работает там, где важны точные символы и детали.
Данные и обучение
Три стадии:
1. Vision-language alignment: image-caption + text, генерация 256 → 512.
2. Multi-task pretraining: OCR, grounding, counting, VQA, T2I, editing, interleaved generation.
3. SFT: 8k → 16k context, high-quality VQA, генерация, редактирование, CoT и interleaved reasoning.
Для T2I собрали 200M web image-text, после фильтрации осталось 140M. Отдельно увеличивали долю human body и rendered text. Для editing смешивают open-source датасеты и свои синтетические пары, фильтруя/переписывая инструкции через Qwen3-VL.
Результаты
На understanding модель действительно сильно закрывает разрыв с VLM: местами на уровне Qwen2.5-VL-7B, при этом заметно лучше предыдущих diffusion unified моделей.
В генерации:
• GenEval: 0.89, лучший результат среди unified моделей.
• DPG: 87.76, тоже сильный уровень.
• CVTG-2K: лучшая среди unified моделей по text rendering, но dense text всё ещё остаётся слабым местом.
• WISE-Bench: reasoning mode даёт +10%, что хорошо ложится в идею “сначала подумать, потом нарисовать”.
В editing результаты смешанные. На ImgEdit модель лучшая среди unified, но на GEdit уступает специализированным редакторам вроде Qwen-Image-Edit / Z-Image-Edit. Зато на multi-reference editing MICo-Bench показывает SOTA среди сравниваемых моделей: 47.1 overall.
Что важно
Мне кажется, главный вклад не в абсолютном SOTA по каждой задаче, а в аккуратной попытке сделать unified diffusion-LLM без dual-encoder костылей: один semantic discrete tokenizer, один dLLM backbone, один mask prediction objective.
Но слабые места тоже честно видны:
• SigLIP-VQ хорошо несёт семантику, но хуже сохраняет fine-grained details.
• Dense text rendering пока не на уровне лучших специализированных моделей.
• Interleaved reasoning выглядит скорее как ранняя демонстрация направления, чем как полностью зрелая capability.
В целом это одна из самых интересных работ в линии unified multimodal генеративок: ближе не к “VLM + DiT head”, а к настоящей общей дискретной модели для understanding и generation.
[код и веса]
Inclusion AI делает unified multimodal dLLM для understanding + generation. В отличие от MAR / Fluid / UniFluid / NexusGen, где генерация строится вокруг AR/MAR-предсказания visual tokens/latents, и от Qwen-Image / HunyuanImage / BAGEL / Transfusion, где обычно есть отдельный VLM/LLM и diffusion/flow head или гибрид NTP + diffusion, здесь ставка на общий discrete diffusion backbone: текст и semantic visual tokens учатся через один block-wise mask prediction objective.
Важное уточнение: Diffusion Decoder тут всё равно отдельный. Поэтому это не «один модуль для всего». Унификация скорее в том, что understanding и generation сходятся в одном dLLM-пространстве SigLIP-VQ токенов; decoder только превращает эти semantic tokens обратно в картинку.
Архитектура
• SigLIP-VQ tokenizer: картинка кодируется не VAE-like реконструктивными токенами, а семантическими дискретными токенами. Codebook: 16,384 токена, dim 2048. Это должно помогать understanding-задачам, где обычные VQ-VAE токены часто теряют семантику.
• Backbone: 16B MoE dLLM на базе LLaDA2.0-mini. Текстовые и визуальные токены моделируются через block-level masked diffusion objective.
• Diffusion Decoder: отдельный decoder на базе Z-Image-Base, который восстанавливает картинку из semantic visual tokens. То есть dLLM генерирует не пиксельные латенты, а семантические токены, а уже decoder превращает их в изображение.
SPRINT acceleration
Training-free ускорение для dLLM-инференса:
• Sparse prefix retention: прунят KV-cache, причём image tokens можно резать агрессивнее, чем text tokens;
• Non-uniform token unmasking: токены размаскируются не по фиксированному расписанию, а по confidence.
По таблицам это даёт ~1.6x speedup при небольшом среднем падении качества (-0.6 score). Но есть заметные просадки на OCRBench и DPG, что логично: раннее принятие токенов хуже работает там, где важны точные символы и детали.
Данные и обучение
Три стадии:
1. Vision-language alignment: image-caption + text, генерация 256 → 512.
2. Multi-task pretraining: OCR, grounding, counting, VQA, T2I, editing, interleaved generation.
3. SFT: 8k → 16k context, high-quality VQA, генерация, редактирование, CoT и interleaved reasoning.
Для T2I собрали 200M web image-text, после фильтрации осталось 140M. Отдельно увеличивали долю human body и rendered text. Для editing смешивают open-source датасеты и свои синтетические пары, фильтруя/переписывая инструкции через Qwen3-VL.
Результаты
На understanding модель действительно сильно закрывает разрыв с VLM: местами на уровне Qwen2.5-VL-7B, при этом заметно лучше предыдущих diffusion unified моделей.
В генерации:
• GenEval: 0.89, лучший результат среди unified моделей.
• DPG: 87.76, тоже сильный уровень.
• CVTG-2K: лучшая среди unified моделей по text rendering, но dense text всё ещё остаётся слабым местом.
• WISE-Bench: reasoning mode даёт +10%, что хорошо ложится в идею “сначала подумать, потом нарисовать”.
В editing результаты смешанные. На ImgEdit модель лучшая среди unified, но на GEdit уступает специализированным редакторам вроде Qwen-Image-Edit / Z-Image-Edit. Зато на multi-reference editing MICo-Bench показывает SOTA среди сравниваемых моделей: 47.1 overall.
Что важно
Мне кажется, главный вклад не в абсолютном SOTA по каждой задаче, а в аккуратной попытке сделать unified diffusion-LLM без dual-encoder костылей: один semantic discrete tokenizer, один dLLM backbone, один mask prediction objective.
Но слабые места тоже честно видны:
• SigLIP-VQ хорошо несёт семантику, но хуже сохраняет fine-grained details.
• Dense text rendering пока не на уровне лучших специализированных моделей.
• Interleaved reasoning выглядит скорее как ранняя демонстрация направления, чем как полностью зрелая capability.
В целом это одна из самых интересных работ в линии unified multimodal генеративок: ближе не к “VLM + DiT head”, а к настоящей общей дискретной модели для understanding и generation.
🔥7❤2
Reversing the Flow: Generation-to-Understanding Synergy in Large Multimodal Models
[кода/весов не вижу]
Интересная работа про unified multimodal models, но не про улучшение генерации через понимание, как обычно в BAGEL/BLIP3-o-like системах, а наоборот: может ли генерация улучшать понимание?
Авторы называют это G2U (Generation-to-Understanding). Идея простая: перед ответом на вопрос модель сначала генерирует вспомогательную картинку — visual thought — а потом использует и исходное изображение, и эту сгенерированную версию для финального ризонинга.
Пайплайн
1. Visual Thought Generation: модель делает контролируемое редактирование исходного изображения.
2. Understanding via Feedback: исходное изображение + visual thought + вопрос подаются обратно в ветку понимания.
3. Edit prompt пишет отдельный prompt writer (GPT-4o-mini, 5-shot ICL).
Типы visual thoughts:
• Enhancement: denoise, deblur, exposure correction.
• Expansion: outpainting, zoom-in, viewpoint translation, removing distractors, structural visualization.
Результаты
Модель тестируют BAGEL 7B. Сравнивают ванильный BAGEL, textual CoT и разные варианты G2U. Забавно, что textual CoT в среднем хуже бейзлайна, а visual thinking лучше: BAGEL+G2U даёт прирост на HallusionBench (+4.2), R-Bench (+1.6), MMStar (+1.2), MMBench (+1.8). На их VisThink-Bench (1595 семплой, 34 задач) самые большие улучшения в 3D height estimation, illusion reasoning и color recognition.
Главное наблюдение: качество generated visual thought реально ограничивает прирост понимания. Чем выше semantic consistency и perceptual quality у сгенерированной картинки, тем больше итоговый прирост качества. То есть “воображение” помогает только пока оно достаточно “правдоподобное”.
Ограничения тоже понятные:
• text/charts/symbol-heavy задачи могут проседать из-за потери мелких деталей;
• Абстрактные промты для редактирования иногда создают циклический ризонинг (но это как будто проблема +- всех моделей);
• модель пока плохо выбирает, что именно ей надо “вообразить” для задачи. Self-prompt работает хуже, чем внешний GPT-4o-mini prompt writer.
Мне нравится эта работа скорее как правильная постановка вопроса. Unified models часто продаются как “понимание + генерация в одной системе”, но на практике связь почти всегда односторонняя: поняли → нарисовали. Здесь проверяют обратную сторону: нарисовали → лучше поняли.
[кода/весов не вижу]
Интересная работа про unified multimodal models, но не про улучшение генерации через понимание, как обычно в BAGEL/BLIP3-o-like системах, а наоборот: может ли генерация улучшать понимание?
Авторы называют это G2U (Generation-to-Understanding). Идея простая: перед ответом на вопрос модель сначала генерирует вспомогательную картинку — visual thought — а потом использует и исходное изображение, и эту сгенерированную версию для финального ризонинга.
Пайплайн
1. Visual Thought Generation: модель делает контролируемое редактирование исходного изображения.
2. Understanding via Feedback: исходное изображение + visual thought + вопрос подаются обратно в ветку понимания.
3. Edit prompt пишет отдельный prompt writer (GPT-4o-mini, 5-shot ICL).
Типы visual thoughts:
• Enhancement: denoise, deblur, exposure correction.
• Expansion: outpainting, zoom-in, viewpoint translation, removing distractors, structural visualization.
Результаты
Модель тестируют BAGEL 7B. Сравнивают ванильный BAGEL, textual CoT и разные варианты G2U. Забавно, что textual CoT в среднем хуже бейзлайна, а visual thinking лучше: BAGEL+G2U даёт прирост на HallusionBench (+4.2), R-Bench (+1.6), MMStar (+1.2), MMBench (+1.8). На их VisThink-Bench (1595 семплой, 34 задач) самые большие улучшения в 3D height estimation, illusion reasoning и color recognition.
Главное наблюдение: качество generated visual thought реально ограничивает прирост понимания. Чем выше semantic consistency и perceptual quality у сгенерированной картинки, тем больше итоговый прирост качества. То есть “воображение” помогает только пока оно достаточно “правдоподобное”.
Ограничения тоже понятные:
• text/charts/symbol-heavy задачи могут проседать из-за потери мелких деталей;
• Абстрактные промты для редактирования иногда создают циклический ризонинг (но это как будто проблема +- всех моделей);
• модель пока плохо выбирает, что именно ей надо “вообразить” для задачи. Self-prompt работает хуже, чем внешний GPT-4o-mini prompt writer.
Мне нравится эта работа скорее как правильная постановка вопроса. Unified models часто продаются как “понимание + генерация в одной системе”, но на практике связь почти всегда односторонняя: поняли → нарисовали. Здесь проверяют обратную сторону: нарисовали → лучше поняли.
❤1👍1🔥1
Nemotron-Labs-Diffusion: A Tri-Mode Language Model Unifying Autoregressive, Diffusion, and Self-Speculation Decoding
[веса есть на HF]
NVIDIA выпустили большой техрепорт про диффузионные языковые модели. Это не работа про объединённое мультимодальное понимание и генерацию в стиле BAGEL / LLaDA2.0-Uni: здесь нет генерации изображений. Но для линии диффузионных языковых моделей статья важная, потому что авторы не пытаются заменить авторегрессию диффузией (как это дедалось ранее), а объединяют авторегрессию, диффузию и самоспекуляцию в одном языковом бэкбоне.
Главная идея: авторегрессионный и диффузионный лоссы не обязательно конкурируют. Авторегрессия даёт сильный лингвистический prior слева направо, а диффузия учит модель параллельно предсказывать несколько токенов. Можно попробовать получить обе плюшки обучая сразу на:
• авторегрессионный лосс для предсказания следующего токена;
• блочную дискретную диффузию на демаскирование токенов;
• делать общий бэкбон, но разные маски внимания на инференсе.
Получается три режима:
1. Авторегрессия — обычный режим слева направо, полезен для сценария с высокой параллелизуемостью запросов.
2. Диффузионная генерация — полезен когда мало параллельных запросов. Тогда блок токенов восстанавливается параллельно.
3. Самоспекулятивная генерация — диффузионная ветка предлагает несколько токенов, а ветка авторегрессионной генерации той же модели их проверяет. Отдельная “черновая” модель или дополнительная голова многотокенного предсказания не нужны.
Технические детали
• двухстадийное обучение: сначала 1T токенов только авторегрессии, потом 300B токенов с совместным авторегрессионно-диффузионным лоссом;
• вес диффузи чуть меньше (α=0.3);
• глобальное усреднение лоссов, такое чтобы случайное число замаскированных токенов не давало нестабильные градиенты;
• LoRA-адаптер для диффузионной ветки: только на o_proj, около 36M обучаемых параметров;
• отдельный лёгкий семплер для диффузионного режима, который учится решать, какие замаскированные позиции можно безопасно принять.
Результаты сильные.
Nemotron-Labs-Diffusion-8B Instruct:
• авторегрессионный режим: средняя точность по набору бенчей, чуть выше Qwen3-8B;
• диффузионный режим: средняя точность почти такая же при 2.57 токена за один проход;
• самоспек дек: снова почти то же самое, но уже при 5.99 токена за проход;
• квадратичная самоспекуляция: 6.38 токена за проход, но на практике хуже из-за менее оптимизированных ядер.
Самая интересная часть для меня — анализ теоретического предела скорости. Авторы оценивают, сколько параллелизма диффузионный режим мог бы дать при оптимальном семплере. На SPEED-Bench для длины блока 32 получается 7.60x принятых токенов за шаг, а текущая линейная самоспекуляция даёт 6.82x, но из-за двух проходов реальный выигрыш ниже. То есть текущие семплеры ещё сильно недоиспользуют параллелизм диффузии.
Есть и VLM версия: к тому же языковому бэкбону добавляют визуальный энкодер и MLP-проектор. На VLM бенчах Nemotron-Diffusion-VLM-8B примерно на уровне или выше LLaDA-V-8B по точности, но выигрывает по скорости, особенно на длинных ответах: линейная самоспекуляция даёт до 7.45 токена за проход для ответов длиннее 200 токенов.
Важный для меня сигнал: эта работа не доказывает, что диффузионные языковые модели уже лучше авторегрессионных во всём, а то что можно совмещать генеративные парадигмы и переключаться между ними в зависимости от сценария использования LM’ки.
Главное ограничение тоже понятное: хороший диффузионный семплер всё ещё открытая задача.
[веса есть на HF]
NVIDIA выпустили большой техрепорт про диффузионные языковые модели. Это не работа про объединённое мультимодальное понимание и генерацию в стиле BAGEL / LLaDA2.0-Uni: здесь нет генерации изображений. Но для линии диффузионных языковых моделей статья важная, потому что авторы не пытаются заменить авторегрессию диффузией (как это дедалось ранее), а объединяют авторегрессию, диффузию и самоспекуляцию в одном языковом бэкбоне.
Главная идея: авторегрессионный и диффузионный лоссы не обязательно конкурируют. Авторегрессия даёт сильный лингвистический prior слева направо, а диффузия учит модель параллельно предсказывать несколько токенов. Можно попробовать получить обе плюшки обучая сразу на:
• авторегрессионный лосс для предсказания следующего токена;
• блочную дискретную диффузию на демаскирование токенов;
• делать общий бэкбон, но разные маски внимания на инференсе.
Получается три режима:
1. Авторегрессия — обычный режим слева направо, полезен для сценария с высокой параллелизуемостью запросов.
2. Диффузионная генерация — полезен когда мало параллельных запросов. Тогда блок токенов восстанавливается параллельно.
3. Самоспекулятивная генерация — диффузионная ветка предлагает несколько токенов, а ветка авторегрессионной генерации той же модели их проверяет. Отдельная “черновая” модель или дополнительная голова многотокенного предсказания не нужны.
Технические детали
• двухстадийное обучение: сначала 1T токенов только авторегрессии, потом 300B токенов с совместным авторегрессионно-диффузионным лоссом;
• вес диффузи чуть меньше (α=0.3);
• глобальное усреднение лоссов, такое чтобы случайное число замаскированных токенов не давало нестабильные градиенты;
• LoRA-адаптер для диффузионной ветки: только на o_proj, около 36M обучаемых параметров;
• отдельный лёгкий семплер для диффузионного режима, который учится решать, какие замаскированные позиции можно безопасно принять.
Результаты сильные.
Nemotron-Labs-Diffusion-8B Instruct:
• авторегрессионный режим: средняя точность по набору бенчей, чуть выше Qwen3-8B;
• диффузионный режим: средняя точность почти такая же при 2.57 токена за один проход;
• самоспек дек: снова почти то же самое, но уже при 5.99 токена за проход;
• квадратичная самоспекуляция: 6.38 токена за проход, но на практике хуже из-за менее оптимизированных ядер.
Самая интересная часть для меня — анализ теоретического предела скорости. Авторы оценивают, сколько параллелизма диффузионный режим мог бы дать при оптимальном семплере. На SPEED-Bench для длины блока 32 получается 7.60x принятых токенов за шаг, а текущая линейная самоспекуляция даёт 6.82x, но из-за двух проходов реальный выигрыш ниже. То есть текущие семплеры ещё сильно недоиспользуют параллелизм диффузии.
Есть и VLM версия: к тому же языковому бэкбону добавляют визуальный энкодер и MLP-проектор. На VLM бенчах Nemotron-Diffusion-VLM-8B примерно на уровне или выше LLaDA-V-8B по точности, но выигрывает по скорости, особенно на длинных ответах: линейная самоспекуляция даёт до 7.45 токена за проход для ответов длиннее 200 токенов.
Важный для меня сигнал: эта работа не доказывает, что диффузионные языковые модели уже лучше авторегрессионных во всём, а то что можно совмещать генеративные парадигмы и переключаться между ними в зависимости от сценария использования LM’ки.
Главное ограничение тоже понятное: хороший диффузионный семплер всё ещё открытая задача.
❤4🔥1
Lance: Unified Multimodal Modeling by
Multi-Task Synergy
[код и веса на странице проекта]
ByteDance продолжают заниматься мультимодальной генерацией, выпуская один техрепорт за другим. При этом, очередная модель под названием Lance имеет не так много отличий от своих предшественников:
• Задачи: к стандартным задачам i2i, t2i, VLM и LLM генерации добавляют генерацию и редактирование видео;
• Размер: при этом, модель буквально микроскопическая - всего 3В параметров;
• Архитектура: в стандартную для мультимодалок dual-stream архитектуру добавили новый Modality-aware Rotary Positional Encoding блок, позволяющий более легковесно и, при этом, однозначно кодировать весь зоопарк мультимодальных данных, еще и закодированных разными энкодерами;
• Обучение: сравнительно нестандартно учат на мультимодальных данных сразу, то есть не делая более простого претрена на одну, заранее выбранную модельность.
Основной фокус работы
Синергия между задачами. Авторы подобрали данные и сетап обучения, позволяющие улучшить качество относительно обучения на отдельные задачи.
Другие детали
• В выборе авторегрессия против диффузии авторы делают пока что стандартный выбор: AR для генерациий текстов, диффузия для генерации картинок и видео
• Энкодеры для генерации и понимания картинок берут отдельно (никаких RAE-подобных унифицированных представлений)
• Унификацию бекбона авторы избегают. Следуя примеру Bagel и HunyuanImage 3.0 они разделяют ветки понимания и генерации изображений, обосновывая это наблюдениями о разнонаправленной оптимизации для этих двух задач.
Последний пункт кажется особенно интересным, поскольку он как будто не вяжется с экспериментальными результатами. С одной стороны, аблейшены показывают, что между задачами есть синергия и учить одну модель для мультимодальной генерации полезно. С другой стороны, кодировать всё в единую тушку оптимизационно сложная задача и все успешные архитектуры разделяют стримы генерации и понимания.
Вывод:
По всей видимости, существует некий баланс раннего и позднего фьюзинга задач, обеспечивающий синергию знаний, но не мешающий оптимизации, поиском которого сейчас занимаются на практике. И кажется, что скорее всего именно это является лимитирующим фактором роста качества, а не скейлинг размера моделей и данная 3В моделька тому подтверждение.
Multi-Task Synergy
[код и веса на странице проекта]
ByteDance продолжают заниматься мультимодальной генерацией, выпуская один техрепорт за другим. При этом, очередная модель под названием Lance имеет не так много отличий от своих предшественников:
• Задачи: к стандартным задачам i2i, t2i, VLM и LLM генерации добавляют генерацию и редактирование видео;
• Размер: при этом, модель буквально микроскопическая - всего 3В параметров;
• Архитектура: в стандартную для мультимодалок dual-stream архитектуру добавили новый Modality-aware Rotary Positional Encoding блок, позволяющий более легковесно и, при этом, однозначно кодировать весь зоопарк мультимодальных данных, еще и закодированных разными энкодерами;
• Обучение: сравнительно нестандартно учат на мультимодальных данных сразу, то есть не делая более простого претрена на одну, заранее выбранную модельность.
Основной фокус работы
Синергия между задачами. Авторы подобрали данные и сетап обучения, позволяющие улучшить качество относительно обучения на отдельные задачи.
Другие детали
• В выборе авторегрессия против диффузии авторы делают пока что стандартный выбор: AR для генерациий текстов, диффузия для генерации картинок и видео
• Энкодеры для генерации и понимания картинок берут отдельно (никаких RAE-подобных унифицированных представлений)
• Унификацию бекбона авторы избегают. Следуя примеру Bagel и HunyuanImage 3.0 они разделяют ветки понимания и генерации изображений, обосновывая это наблюдениями о разнонаправленной оптимизации для этих двух задач.
Последний пункт кажется особенно интересным, поскольку он как будто не вяжется с экспериментальными результатами. С одной стороны, аблейшены показывают, что между задачами есть синергия и учить одну модель для мультимодальной генерации полезно. С другой стороны, кодировать всё в единую тушку оптимизационно сложная задача и все успешные архитектуры разделяют стримы генерации и понимания.
Вывод:
По всей видимости, существует некий баланс раннего и позднего фьюзинга задач, обеспечивающий синергию знаний, но не мешающий оптимизации, поиском которого сейчас занимаются на практике. И кажется, что скорее всего именно это является лимитирующим фактором роста качества, а не скейлинг размера моделей и данная 3В моделька тому подтверждение.
❤3👍1