Nvidia выпустила открытый фреймворк для синтеза медицинских 3D-изображений
Nvidia представила NV-Generate-CTMR и новую модель NV-Generate-MR-Brain — открытые инструменты для генерации реалистичных 3D-снимков КТ и МРТ с анатомической сегментацией.
Главная проблема медицинского ИИ — нехватка размеченных данных из-за приватности и дороговизны аннотации. Новый фреймворк позволяет генерировать синтетические объёмы, неотличимые от реальных, и сразу использовать их в обучении моделей.
В основе — архитектура MAISI-v2 с Latent Rectified Flow: ускорение вывода в 33 раза по сравнению с предыдущей версией. Модель обучена на MR-RATE — крупнейшем открытом датасете МРТ мозга: 100 000 исследований от 83 000 пациентов.
Всё открыто: код, веса, конфиги. Инференс работает на RTX-видеокартах без роялти. Для исследователей — бесплатно, для коммерческого использования данных — через Forithmus.
https://developer.nvidia.com/blog/synthesize-realistic-3d-medical-images-at-scale-to-ship-pre-trained-models/
Nvidia представила NV-Generate-CTMR и новую модель NV-Generate-MR-Brain — открытые инструменты для генерации реалистичных 3D-снимков КТ и МРТ с анатомической сегментацией.
Главная проблема медицинского ИИ — нехватка размеченных данных из-за приватности и дороговизны аннотации. Новый фреймворк позволяет генерировать синтетические объёмы, неотличимые от реальных, и сразу использовать их в обучении моделей.
В основе — архитектура MAISI-v2 с Latent Rectified Flow: ускорение вывода в 33 раза по сравнению с предыдущей версией. Модель обучена на MR-RATE — крупнейшем открытом датасете МРТ мозга: 100 000 исследований от 83 000 пациентов.
Всё открыто: код, веса, конфиги. Инференс работает на RTX-видеокартах без роялти. Для исследователей — бесплатно, для коммерческого использования данных — через Forithmus.
https://developer.nvidia.com/blog/synthesize-realistic-3d-medical-images-at-scale-to-ship-pre-trained-models/
NVIDIA Technical Blog
Synthesize Realistic 3D Medical Images at Scale to Ship Pre‑Trained Models
High‑quality 3D medical imaging data is the foundation of modern radiology AI, but access to it is often constrained by data scarcity, privacy restrictions, and the high cost of expert annotation.
Nvidia Tech обновила подход к планированию задач на кластерах GB200 NVL72.
Совместно со SchedMD компания выпустила новый плагин topology/block для Slurm 23.11. Он учитывает физическую архитектуру стойки: 72 GPU Blackwell соединены через NVLink с пропускной способностью 130 ТБ/с, и теперь планировщик умеет размещать задачи строго внутри NVLink-доменов, не разрывая их между стойками.
Что это даёт на практике: симуляции на кластере из 5000 узлов показали загрузку GPU в пределах 1% от теоретического максимума. Крупные задачи (64+ GPU) получают сегменты по 16 узлов для полного использования NVLink, мелкие задачи работают с сегментами 2-8 узлов, чтобы не создавать фрагментацию.
Для операторов дата-центров это означает предсказуемую производительность при обучении триллионных моделей и MoE-архитектур без ручной настройки размещения задач.
https://developer.nvidia.com/blog/unlock-exascale-performance-on-nvidia-gb200-nvl72-with-slurm-topology-aware-job-scheduling/
Совместно со SchedMD компания выпустила новый плагин topology/block для Slurm 23.11. Он учитывает физическую архитектуру стойки: 72 GPU Blackwell соединены через NVLink с пропускной способностью 130 ТБ/с, и теперь планировщик умеет размещать задачи строго внутри NVLink-доменов, не разрывая их между стойками.
Что это даёт на практике: симуляции на кластере из 5000 узлов показали загрузку GPU в пределах 1% от теоретического максимума. Крупные задачи (64+ GPU) получают сегменты по 16 узлов для полного использования NVLink, мелкие задачи работают с сегментами 2-8 узлов, чтобы не создавать фрагментацию.
Для операторов дата-центров это означает предсказуемую производительность при обучении триллионных моделей и MoE-архитектур без ручной настройки размещения задач.
https://developer.nvidia.com/blog/unlock-exascale-performance-on-nvidia-gb200-nvl72-with-slurm-topology-aware-job-scheduling/
NVIDIA Technical Blog
Unlock Exascale Performance on NVIDIA GB200 NVL72 with Slurm Topology-Aware Job Scheduling
As AI models grow in scale and complexity, realizing the full performance of modern accelerated infrastructure depends as much on how workloads are placed as on the hardware itself.
Nvidia Tech рассказала, как правильно настраивать AI-агентов под конкретные задачи.
Опубликован подробный разбор 9 техник кастомизации: от простого prompt engineering до продвинутого reinforcement learning. Суть в том, что универсальные модели хороши для общих задач, но бизнес-сценарии требуют точной настройки поведения, логики выбора инструментов и структуры ответов.
Ключевые подходы: системные промпты задают роль и ограничения агента, RAG подключает актуальные внешние знания без переобучения, а инъекция инструментов и навыков расширяет возможности без изменения весов модели. Для более глубокой настройки используют SFT, PEFT, DPO и RLVR.
Важно: выбор техники зависит от задачи. Нужна скорость — берёшь промпты. Нужны свежие данные — RAG. Нужно изменить поведение модели — fine-tuning.
Полезно всем, кто строит или планирует строить агентные системы на базе LLM.
https://developer.nvidia.com/blog/mastering-agentic-techniques-ai-agent-customization/
Опубликован подробный разбор 9 техник кастомизации: от простого prompt engineering до продвинутого reinforcement learning. Суть в том, что универсальные модели хороши для общих задач, но бизнес-сценарии требуют точной настройки поведения, логики выбора инструментов и структуры ответов.
Ключевые подходы: системные промпты задают роль и ограничения агента, RAG подключает актуальные внешние знания без переобучения, а инъекция инструментов и навыков расширяет возможности без изменения весов модели. Для более глубокой настройки используют SFT, PEFT, DPO и RLVR.
Важно: выбор техники зависит от задачи. Нужна скорость — берёшь промпты. Нужны свежие данные — RAG. Нужно изменить поведение модели — fine-tuning.
Полезно всем, кто строит или планирует строить агентные системы на базе LLM.
https://developer.nvidia.com/blog/mastering-agentic-techniques-ai-agent-customization/
NVIDIA Technical Blog
Mastering Agentic Techniques: AI Agent Customization
Autonomous AI agents are taking on all types of work for businesses: routing logistics fleets, triaging support tickets, generating code, and orchestrating multistep workflows. How do you take a…
Gated DeltaNet-2: разделяем стирание и запись в линейном внимании (by NVIDIA)
В линейных рекуррентных моделях (Mamba, DeltaNet) память — это матрица фиксированного размера. Проблема: один скалярный гейт одновременно управляет и стиранием старых ассоциаций, и записью новых. Но это разные операции на разных осях!
Авторы предлагают Gated DeltaNet-2: разделить scalar-гейт на два channel-wise вектора — erase gate (по ключевым каналам) и write gate (по value-каналам). Теперь модель может избирательно чистить старые ассоциации и так же избирательно записывать новые.
Математически это обобщение KDA и Gated DeltaNet — оба восстанавливаются как частные случаи. При этом chunkwise-алгоритм обучения сохраняется через WY-форму.
Результат: заметный прирост на long-context retrieval (RULER needle-in-a-haystack), особенно в multi-key сценариях, где фиксированная память должна хранить конкурирующие ассоциации.
https://arxiv.org/abs/2605.22791
В линейных рекуррентных моделях (Mamba, DeltaNet) память — это матрица фиксированного размера. Проблема: один скалярный гейт одновременно управляет и стиранием старых ассоциаций, и записью новых. Но это разные операции на разных осях!
Авторы предлагают Gated DeltaNet-2: разделить scalar-гейт на два channel-wise вектора — erase gate (по ключевым каналам) и write gate (по value-каналам). Теперь модель может избирательно чистить старые ассоциации и так же избирательно записывать новые.
Математически это обобщение KDA и Gated DeltaNet — оба восстанавливаются как частные случаи. При этом chunkwise-алгоритм обучения сохраняется через WY-форму.
Результат: заметный прирост на long-context retrieval (RULER needle-in-a-haystack), особенно в multi-key сценариях, где фиксированная память должна хранить конкурирующие ассоциации.
https://arxiv.org/abs/2605.22791
Агент для генерации картинок, который учится на собственных ошибках (by MeiGen-AI)
Что если вместо простого «промпт → картинка» построить агента, который сам решает: что погуглить, какие референсы взять, какие внутренние знания активировать — и всё это координирует в один pipeline?
Именно это делает GenEvolve. Каждая генерация — это траектория: поиск фактов, отбор визуальных референсов, вызов «навыков», сборка программы (промпт + референсы) → финальная картинка.
Ключевая фишка — Visual Experience Distillation. Агент сравнивает несколько траекторий для одного запроса, извлекает «опыт» из разницы лучших и худших, и дистиллирует его через teacher-only ветку. Студент учится на плотных token-level сигналах, а не просто на скалярной награде.
Результат: превосходит прямые генераторы и агентные baseline на собственном бенчмарке и на WISE.
https://arxiv.org/abs/2605.21605
Что если вместо простого «промпт → картинка» построить агента, который сам решает: что погуглить, какие референсы взять, какие внутренние знания активировать — и всё это координирует в один pipeline?
Именно это делает GenEvolve. Каждая генерация — это траектория: поиск фактов, отбор визуальных референсов, вызов «навыков», сборка программы (промпт + референсы) → финальная картинка.
Ключевая фишка — Visual Experience Distillation. Агент сравнивает несколько траекторий для одного запроса, извлекает «опыт» из разницы лучших и худших, и дистиллирует его через teacher-only ветку. Студент учится на плотных token-level сигналах, а не просто на скалярной награде.
Результат: превосходит прямые генераторы и агентные baseline на собственном бенчмарке и на WISE.
https://arxiv.org/abs/2605.21605
KV-кэш съедает 60% времени ответа — и вот как это починить
В disaggregated LLM-инференсе (prefill и decode на разных нодах) передача KV-кэша по сети стала главным узким местом: до 60% времени запроса. Существующие методы сжатия (KIVI, CacheGen, KVQuant) работают со статичными настройками — но одна и та же конфигурация даёт х6 на одном датасете и х2 на другом.
Авторы из Chinese Academy of Sciences предлагают KVServe — адаптивный фреймворк, который:
1. Унифицирует методы сжатия в модульный пайплайн с pluggable-компонентами
2. Использует Байесовскую оптимизацию для поиска лучшей стратегии (с 1000 часов профилирования до 20)
3. Online-контроллер с bandit-алгоритмом выбирает стратегию под текущую нагрузку и SLO
Результат: до 9× ускорение JCT в PD-separated serving и до 32.8× снижение TTFT в KV-disaggregated serving.
https://arxiv.org/abs/2605.13734
В disaggregated LLM-инференсе (prefill и decode на разных нодах) передача KV-кэша по сети стала главным узким местом: до 60% времени запроса. Существующие методы сжатия (KIVI, CacheGen, KVQuant) работают со статичными настройками — но одна и та же конфигурация даёт х6 на одном датасете и х2 на другом.
Авторы из Chinese Academy of Sciences предлагают KVServe — адаптивный фреймворк, который:
1. Унифицирует методы сжатия в модульный пайплайн с pluggable-компонентами
2. Использует Байесовскую оптимизацию для поиска лучшей стратегии (с 1000 часов профилирования до 20)
3. Online-контроллер с bandit-алгоритмом выбирает стратегию под текущую нагрузку и SLO
Результат: до 9× ускорение JCT в PD-separated serving и до 32.8× снижение TTFT в KV-disaggregated serving.
https://arxiv.org/abs/2605.13734
Apple ML представила VSAS-Bench — новый бенчмарк для оценки потоковых визуальных ассистентов в реальном времени.
Проблема: существующие тесты для vision-language моделей работают в офлайн-режиме и не учитывают специфику стриминга. Реальные ассистенты должны не просто понимать видео, но и реагировать вовремя и стабильно.
VSAS-Bench вводит два новых критерия — проактивность (насколько быстро модель реагирует) и консистентность (насколько стабильны ответы во времени). Датасет содержит более 18 000 аннотаций по разным задачам и доменам.
Главный практический вывод: обычные VLM-модели можно адаптировать к стримингу без дополнительного обучения, и они обгоняют специализированные стриминговые модели. Qwen3-VL-4B превзошёл лучшую стриминговую модель Dispider на 3%.
Работа принята на CVPR 2026.
https://machinelearning.apple.com/research/vsas-bench-streaming-assistant
Проблема: существующие тесты для vision-language моделей работают в офлайн-режиме и не учитывают специфику стриминга. Реальные ассистенты должны не просто понимать видео, но и реагировать вовремя и стабильно.
VSAS-Bench вводит два новых критерия — проактивность (насколько быстро модель реагирует) и консистентность (насколько стабильны ответы во времени). Датасет содержит более 18 000 аннотаций по разным задачам и доменам.
Главный практический вывод: обычные VLM-модели можно адаптировать к стримингу без дополнительного обучения, и они обгоняют специализированные стриминговые модели. Qwen3-VL-4B превзошёл лучшую стриминговую модель Dispider на 3%.
Работа принята на CVPR 2026.
https://machinelearning.apple.com/research/vsas-bench-streaming-assistant
Apple Machine Learning Research
VSAS-Bench: Real-Time Evaluation of Visual Streaming Assistant Models
Streaming vision-language models (VLMs) continuously generate responses given an instruction prompt and an online stream of input frames…
SkillOpt: "градиентный спуск" для текстовых инструкций агентов (by Microsoft Research)
Что если оптимизировать агента не через веса, а через текстовый документ с инструкциями? SkillOpt делает именно это — переносит идеи обучения нейросетей в пространство текста.
Как работает: LLM-оптимизатор анализирует траектории выполнения задач, предлагает структурированные правки (add/delete/replace) к документу-скиллу, а held-out валидация принимает только полезные изменения. Отклонённые правки становятся негативной обратной связью для следующих итераций — прямая аналогия с градиентным спуском, батчами и learning rate.
Результат — компактный файл best_skill.md (300–2000 токенов), который переносится между моделями и харнессами без изменения весов. На 52 из 52 тестовых конфигураций SkillOpt лучший. SpreadsheetBench: с 41.8 до 80.7. Скилл, обученный на Codex, даёт +59.7 на Claude Code.
https://arxiv.org/abs/2605.23904
Что если оптимизировать агента не через веса, а через текстовый документ с инструкциями? SkillOpt делает именно это — переносит идеи обучения нейросетей в пространство текста.
Как работает: LLM-оптимизатор анализирует траектории выполнения задач, предлагает структурированные правки (add/delete/replace) к документу-скиллу, а held-out валидация принимает только полезные изменения. Отклонённые правки становятся негативной обратной связью для следующих итераций — прямая аналогия с градиентным спуском, батчами и learning rate.
Результат — компактный файл best_skill.md (300–2000 токенов), который переносится между моделями и харнессами без изменения весов. На 52 из 52 тестовых конфигураций SkillOpt лучший. SpreadsheetBench: с 41.8 до 80.7. Скилл, обученный на Codex, даёт +59.7 на Claude Code.
https://arxiv.org/abs/2605.23904
Стандартный residual stream в Diffusion Transformers — скрытая проблема, которую никто не замечал
В DiT-архитектурах (Flux, SD3 и т.п.) унаследовали residual connections из NLP-трансформеров. Авторы обнаружили три симптома, которые нарастают с глубиной сети: магнитуды скрытых состояний раздуваются в 100x, градиенты в глубоких слоях падают на порядок, соседние блоки становятся почти идентичными. Это PreNorm dilution — та же болезнь, что и в LLM, только хуже: в диффузионных моделях информация ещё и должна меняться в зависимости от timestep денойзинга.
Решение — DAR (Diffusion-Adaptive Routing): вместо фиксированного сложения residual авторы заменяют его на softmax-attention по всем предыдущим слоям, где query вычисляется из текущего состояния с учётом timestep. Никаких ручных пар слоёв, дроп-ин замена.
Результат на ImageNet 256x256: FID 7.56 против 9.67 у baseline SiT-XL/2, обучение в 8.75x быстрее. В связке с REPA даёт ещё 2x ускорение сверху.
https://arxiv.org/abs/2605.20708
В DiT-архитектурах (Flux, SD3 и т.п.) унаследовали residual connections из NLP-трансформеров. Авторы обнаружили три симптома, которые нарастают с глубиной сети: магнитуды скрытых состояний раздуваются в 100x, градиенты в глубоких слоях падают на порядок, соседние блоки становятся почти идентичными. Это PreNorm dilution — та же болезнь, что и в LLM, только хуже: в диффузионных моделях информация ещё и должна меняться в зависимости от timestep денойзинга.
Решение — DAR (Diffusion-Adaptive Routing): вместо фиксированного сложения residual авторы заменяют его на softmax-attention по всем предыдущим слоям, где query вычисляется из текущего состояния с учётом timestep. Никаких ручных пар слоёв, дроп-ин замена.
Результат на ImageNet 256x256: FID 7.56 против 9.67 у baseline SiT-XL/2, обучение в 8.75x быстрее. В связке с REPA даёт ещё 2x ускорение сверху.
https://arxiv.org/abs/2605.20708
Lens: как обогнать модели в 2-5 раз больше по размеру (by Microsoft)
Тренировать text-to-image модели дорого. Z-Image потратил 314K GPU-часов. Microsoft предлагает Lens — 3.8B модель, которая тратит лишь 19.3% от этого и при этом не хуже по бенчмаркам.
Три кита эффективности:
1. Размер модели: 3.8B против 6-80B у конкурентов — меньше вычислений за шаг.
2. Плотность информации в батче: каждый пример подписан GPT-4.1 (в среднем 109 слов!). Плюс мультирезолюционное обучение — модель видит изображения в разных разрешениях и соотношениях сторон, что само по себе даёт генерализацию до 1440p без дорогого high-res файнтюнинга.
3. Скорость сходимости: тщательный выбор VAE и языкового энкодера — показали, что сильный энкодер ещё и даёт мультиязычность бесплатно, хотя модель обучена только на английском.
После претрейна — RL-дообучение на 8K тщательно подобранных промптов. Итог: 1024px картинка за 3.15 сек, турбо-версия — за 0.84 сек.
https://arxiv.org/abs/2605.21573
Тренировать text-to-image модели дорого. Z-Image потратил 314K GPU-часов. Microsoft предлагает Lens — 3.8B модель, которая тратит лишь 19.3% от этого и при этом не хуже по бенчмаркам.
Три кита эффективности:
1. Размер модели: 3.8B против 6-80B у конкурентов — меньше вычислений за шаг.
2. Плотность информации в батче: каждый пример подписан GPT-4.1 (в среднем 109 слов!). Плюс мультирезолюционное обучение — модель видит изображения в разных разрешениях и соотношениях сторон, что само по себе даёт генерализацию до 1440p без дорогого high-res файнтюнинга.
3. Скорость сходимости: тщательный выбор VAE и языкового энкодера — показали, что сильный энкодер ещё и даёт мультиязычность бесплатно, хотя модель обучена только на английском.
После претрейна — RL-дообучение на 8K тщательно подобранных промптов. Итог: 1024px картинка за 3.15 сек, турбо-версия — за 0.84 сек.
https://arxiv.org/abs/2605.21573
Граф знаний для автоматизации науки — 157 миллионов узлов и 3 миллиарда связей
Поиск по ключевым словам и даже семантический поиск не понимают структуру науки: кто на кого ссылается, какие идеи связаны, как развиваются тренды. Авторы из UCL решили это исправить и построили SciAtlas — огромный граф академических знаний.
43 млн статей, 109 млн авторов, 3.76 млн ключевых слов, 26 дисциплин. Всё связано 3 миллиардами рёбер: цитирования, соавторство, принадлежность к институтам, тематическая иерархия.
Поверх графа — нейросимволический ретривер: три пути поиска (лексика + векторы + граф) с последующим ранжированием через топологические метрики. Это позволяет находить связи без многократных вызовов LLM.
Применения: обзор литературы, поиск похожих идей, предсказание трендов, построение академической траектории исследователя. По сути — «когнитивная карта» науки для AI-агентов.
https://arxiv.org/abs/2605.22878
Поиск по ключевым словам и даже семантический поиск не понимают структуру науки: кто на кого ссылается, какие идеи связаны, как развиваются тренды. Авторы из UCL решили это исправить и построили SciAtlas — огромный граф академических знаний.
43 млн статей, 109 млн авторов, 3.76 млн ключевых слов, 26 дисциплин. Всё связано 3 миллиардами рёбер: цитирования, соавторство, принадлежность к институтам, тематическая иерархия.
Поверх графа — нейросимволический ретривер: три пути поиска (лексика + векторы + граф) с последующим ранжированием через топологические метрики. Это позволяет находить связи без многократных вызовов LLM.
Применения: обзор литературы, поиск похожих идей, предсказание трендов, построение академической траектории исследователя. По сути — «когнитивная карта» науки для AI-агентов.
https://arxiv.org/abs/2605.22878
Один фундамент — три задачи: ASR, TTS и реалтайм-диалог в одной модели
StepAudio 2.5 от команды StepFun решает больную проблему речевых систем: обычно ASR, TTS и голосовой диалог — три отдельных стека. Здесь один аудио-языковой фундамент (MoE LLM + аудио-энкодер) претрейнится на 2.2T токенов, а потом специализируется под каждую задачу через SFT и RLHF.
Ключевая идея: когда текст и аудио живут в одном латентном пространстве, разница между задачами — не архитектурная, а операциональная (данные, цели, декодинг). ASR получает мульти-токенный декодинг (несколько токенов за шаг). TTS выравнивается через RLHF по человеческим предпочтениям. Реалтайм-ветка добавляет низкую латентность и персона-консистентность.
Результат: SOTA одновременно по всем трём направлениям, обходя как специализированные, так и другие unified-модели.
https://arxiv.org/abs/2605.23463
StepAudio 2.5 от команды StepFun решает больную проблему речевых систем: обычно ASR, TTS и голосовой диалог — три отдельных стека. Здесь один аудио-языковой фундамент (MoE LLM + аудио-энкодер) претрейнится на 2.2T токенов, а потом специализируется под каждую задачу через SFT и RLHF.
Ключевая идея: когда текст и аудио живут в одном латентном пространстве, разница между задачами — не архитектурная, а операциональная (данные, цели, декодинг). ASR получает мульти-токенный декодинг (несколько токенов за шаг). TTS выравнивается через RLHF по человеческим предпочтениям. Реалтайм-ветка добавляет низкую латентность и персона-консистентность.
Результат: SOTA одновременно по всем трём направлениям, обходя как специализированные, так и другие unified-модели.
https://arxiv.org/abs/2605.23463
Deep research агент, который превосходит OpenAI DeepResearch — и обучен на полностью синтетических данных
Команда OSU NLP выпустила Quest — семейство open-source агентов (2B–35B параметров) для "глубокого поиска". Quest-35B бьёт проприетарные системы на BrowseComp, Mind2Web 2 и DeepResearch Bench.
Ключевая идея: вместо обучения на вопросах с одним правильным ответом авторы придумали rubric tree — иерархическое дерево критериев оценки ответа. Это позволяет обучать агента на разнородных задачах: поиск фактов, синтез отчётов, верификация цитат — в едином фреймворке.
Данные генерируются полностью автоматически: берутся трендовые запросы из Google Trends, агент автономно бродит по вебу и строит rubric tree из найденного. Итого: 8K синтетических задач с детальными сигналами для RL.
Бонус: даже Quest-2B показывает впечатляющие результаты — потенциал для локального деплоя в приватных сценариях (медицина, право).
https://arxiv.org/abs/2605.24218
Команда OSU NLP выпустила Quest — семейство open-source агентов (2B–35B параметров) для "глубокого поиска". Quest-35B бьёт проприетарные системы на BrowseComp, Mind2Web 2 и DeepResearch Bench.
Ключевая идея: вместо обучения на вопросах с одним правильным ответом авторы придумали rubric tree — иерархическое дерево критериев оценки ответа. Это позволяет обучать агента на разнородных задачах: поиск фактов, синтез отчётов, верификация цитат — в едином фреймворке.
Данные генерируются полностью автоматически: берутся трендовые запросы из Google Trends, агент автономно бродит по вебу и строит rubric tree из найденного. Итого: 8K синтетических задач с детальными сигналами для RL.
Бонус: даже Quest-2B показывает впечатляющие результаты — потенциал для локального деплоя в приватных сценариях (медицина, право).
https://arxiv.org/abs/2605.24218
LocateAnything: детекция объектов параллельным декодированием (by NVIDIA)
Зачем генерировать координаты рамки (x1, y1, x2, y3) по одному токену, если можно сразу все четыре?
Обычные VLM предсказывают bounding boxes через авторегрессию — токен за токеном. Это медленно и игнорирует структурную связь между координатами одной рамки.
NVIDIA предлагают Parallel Box Decoding (PBD): вся рамка — это атомарный блок, который предсказывается за один параллельный шаг. В отличие от обычного MTP, который дробит токены произвольно, PBD выравнивает предсказание строго по границам объектов.
Три режима инференса: Fast (всё параллельно), Slow (авторегрессия для точности), Hybrid (параллельно, но при ненадёжном выводе — откат к авторегрессии).
Результат: до 2.5× выше пропускная способность при улучшении качества локализации на бенчмарках по детекции, grounding и GUI.
https://arxiv.org/abs/2605.27365
Зачем генерировать координаты рамки (x1, y1, x2, y3) по одному токену, если можно сразу все четыре?
Обычные VLM предсказывают bounding boxes через авторегрессию — токен за токеном. Это медленно и игнорирует структурную связь между координатами одной рамки.
NVIDIA предлагают Parallel Box Decoding (PBD): вся рамка — это атомарный блок, который предсказывается за один параллельный шаг. В отличие от обычного MTP, который дробит токены произвольно, PBD выравнивает предсказание строго по границам объектов.
Три режима инференса: Fast (всё параллельно), Slow (авторегрессия для точности), Hybrid (параллельно, но при ненадёжном выводе — откат к авторегрессии).
Результат: до 2.5× выше пропускная способность при улучшении качества локализации на бенчмарках по детекции, grounding и GUI.
https://arxiv.org/abs/2605.27365
CUA-Gym: как научить RL-агентов работать за компьютером в масштабе (by Qwen)
Главная проблема RL для computer-use агентов — нехватка данных с проверяемыми наградами. Математику и код легко верифицировать, а вот "открой Excel, найди клиентов в Notion и отправь письмо через Gmail" — уже нет.
CUA-Gym решает это тремя агентами: Generator создаёт начальное и эталонное состояния среды, Discriminator пишет функцию награды, не видя кода Generator-а (информационный барьер!), Orchestrator гоняет их по кругу до консистентности. Ключевая идея: разделить создание среды и написание reward — иначе агент просто "читерит", проверяя собственный код.
Результат: 32k верифицированных RLVR-туплов, 110 сред (94 синтетических веб-приложения). Модели Qwen3.5 достигают 62.1% и 72.6% на OSWorld-Verified. Бонус: RL сам по себе научил агентов объединять действия — траектории сжались на 33-45%.
https://arxiv.org/abs/2605.25624
Главная проблема RL для computer-use агентов — нехватка данных с проверяемыми наградами. Математику и код легко верифицировать, а вот "открой Excel, найди клиентов в Notion и отправь письмо через Gmail" — уже нет.
CUA-Gym решает это тремя агентами: Generator создаёт начальное и эталонное состояния среды, Discriminator пишет функцию награды, не видя кода Generator-а (информационный барьер!), Orchestrator гоняет их по кругу до консистентности. Ключевая идея: разделить создание среды и написание reward — иначе агент просто "читерит", проверяя собственный код.
Результат: 32k верифицированных RLVR-туплов, 110 сред (94 синтетических веб-приложения). Модели Qwen3.5 достигают 62.1% и 72.6% на OSWorld-Verified. Бонус: RL сам по себе научил агентов объединять действия — траектории сжались на 33-45%.
https://arxiv.org/abs/2605.25624
MemForest: дерево памяти для агентов вместо бесконечных перезаписей
Агент с долгосрочной памятью — мечта. Но на практике каждая новая сессия заставляет систему синхронно гнать LLM через весь накопленный контекст: извлечь факты, обновить профиль, переписать summary. Это узкое горлышко растёт вместе с историей.
MemForest решает это двумя ходами. Во-первых, параллельная экстракция: чанки диалога обрабатываются одновременно, а не по очереди. Во-вторых, MemTree — иерархический временной индекс, где обновление затрагивает только нужные ветки дерева, а не весь граф памяти. Идея похожа на LSM-деревья в базах данных: не переписывай всё, обновляй локально.
Результат: на LongMemEval-S — лучший accuracy среди stateful-систем (79.8%) при пропускной способности в 6× выше, чем у EverMemOS.
https://arxiv.org/abs/2605.23986
Агент с долгосрочной памятью — мечта. Но на практике каждая новая сессия заставляет систему синхронно гнать LLM через весь накопленный контекст: извлечь факты, обновить профиль, переписать summary. Это узкое горлышко растёт вместе с историей.
MemForest решает это двумя ходами. Во-первых, параллельная экстракция: чанки диалога обрабатываются одновременно, а не по очереди. Во-вторых, MemTree — иерархический временной индекс, где обновление затрагивает только нужные ветки дерева, а не весь граф памяти. Идея похожа на LSM-деревья в базах данных: не переписывай всё, обновляй локально.
Результат: на LongMemEval-S — лучший accuracy среди stateful-систем (79.8%) при пропускной способности в 6× выше, чем у EverMemOS.
https://arxiv.org/abs/2605.23986
Nvidia представила CompileIQ — инструмент автонастройки компилятора на основе ИИ, который вошёл в состав CUDA 13.3.
Суть проста: GPU-компиляторы всегда применяют одни и те же настройки ко всем задачам. CompileIQ меняет это — он использует эволюционные и генетические алгоритмы, чтобы подобрать оптимальные параметры компилятора именно под конкретный воркло.
Почему это важно? В LLM-инференсе около 90% вычислений приходится на несколько типов ядер. Даже доли процента прироста производительности в этих горячих точках дают заметный выигрыш на уровне всего пайплайна.
Разработчику нужно лишь описать целевую функцию — как компилировать и замерять ядро. Дальше CompileIQ сам перебирает конфигурации и выдаёт файл настроек для компилятора. Инструмент уже используется в продакшене ведущими AI-лабораториями.
Установка: pip install compileiq
https://developer.nvidia.com/blog/extract-more-kernel-performance-with-nvidia-compileiq-auto-tuning/
Суть проста: GPU-компиляторы всегда применяют одни и те же настройки ко всем задачам. CompileIQ меняет это — он использует эволюционные и генетические алгоритмы, чтобы подобрать оптимальные параметры компилятора именно под конкретный воркло.
Почему это важно? В LLM-инференсе около 90% вычислений приходится на несколько типов ядер. Даже доли процента прироста производительности в этих горячих точках дают заметный выигрыш на уровне всего пайплайна.
Разработчику нужно лишь описать целевую функцию — как компилировать и замерять ядро. Дальше CompileIQ сам перебирает конфигурации и выдаёт файл настроек для компилятора. Инструмент уже используется в продакшене ведущими AI-лабораториями.
Установка: pip install compileiq
https://developer.nvidia.com/blog/extract-more-kernel-performance-with-nvidia-compileiq-auto-tuning/
NVIDIA Technical Blog
Extract More Kernel Performance with NVIDIA CompileIQ Auto-Tuning
NVIDIA CompileIQ tackles one of the hardest problems in performance engineering: finding the compiler options that unlock the best performance for a specific workload. Consider a team that has spent…
Nvidia обновила линейку GPU для биомедицины
Nvidia представила RTX PRO 4500 Blackwell Server Edition — новый GPU для геномики и предсказания структур белков. Это важно для медицины: быстрый анализ ДНК и поиск лекарств напрямую влияют на скорость постановки диагнозов и разработку терапий.
Конкретные цифры: инструменты Parabricks для анализа генома работают в 2–2.4x быстрее по сравнению с предыдущим L4 GPU. Задача, которая раньше занимала полчаса, теперь выполняется за 13–15 минут. Для предсказания структур белков через Openfold3 — ускорение до 2.4x, а выравнивание последовательностей Smith-Waterman стало быстрее в 9.6 раз.
Это критично в онкологии и неонатальной реанимации, где каждая минута на счету. PacBio уже подтвердила более чем двукратный прирост скорости обработки данных секвенирования на новом железе.
https://developer.nvidia.com/blog/run-key-genomics-and-protein-folding-workloads-faster-with-nvidia-rtx-pro-4500-blackwell/
Nvidia представила RTX PRO 4500 Blackwell Server Edition — новый GPU для геномики и предсказания структур белков. Это важно для медицины: быстрый анализ ДНК и поиск лекарств напрямую влияют на скорость постановки диагнозов и разработку терапий.
Конкретные цифры: инструменты Parabricks для анализа генома работают в 2–2.4x быстрее по сравнению с предыдущим L4 GPU. Задача, которая раньше занимала полчаса, теперь выполняется за 13–15 минут. Для предсказания структур белков через Openfold3 — ускорение до 2.4x, а выравнивание последовательностей Smith-Waterman стало быстрее в 9.6 раз.
Это критично в онкологии и неонатальной реанимации, где каждая минута на счету. PacBio уже подтвердила более чем двукратный прирост скорости обработки данных секвенирования на новом железе.
https://developer.nvidia.com/blog/run-key-genomics-and-protein-folding-workloads-faster-with-nvidia-rtx-pro-4500-blackwell/
NVIDIA Technical Blog
Run Key Genomics and Protein Folding Workloads Faster with NVIDIA RTX PRO 4500 Blackwell
Precision medicine depends on two fundamental capabilities: understanding disease at the genomic level and identifying treatments at the molecular level. NVIDIA’s contributions to precision medicine…
Amazon Science научила языковые модели думать по-разному — и это работает.
Исследователи Amazon представили на конференции ICLR 2026 два новых метода обучения: SSFT и GFPO. Идея простая: вместо одного "правильного" хода мысли модель учится рассуждать несколькими разными способами одновременно.
Для этого ввели специальные токены — think1, think2 и так далее — каждый запускает свою стратегию рассуждения. Раньше при похожих попытках модели "схлопывались" и все токены давали одинаковый результат. SSFT решает эту проблему через умное сопоставление стратегий при обучении, а GFPO через обучение с подкреплением учит выбирать нужную стратегию под конкретную задачу.
Результат: плюс 5-7% точности на математических и кодовых бенчмарках по сравнению со стандартными подходами. При этом разнообразие ответов растёт без потери качества — в отличие от простого повышения температуры генерации.
https://www.amazon.science/blog/diverse-reasoning-traces-teach-llms-to-make-better-decisions
Исследователи Amazon представили на конференции ICLR 2026 два новых метода обучения: SSFT и GFPO. Идея простая: вместо одного "правильного" хода мысли модель учится рассуждать несколькими разными способами одновременно.
Для этого ввели специальные токены — think1, think2 и так далее — каждый запускает свою стратегию рассуждения. Раньше при похожих попытках модели "схлопывались" и все токены давали одинаковый результат. SSFT решает эту проблему через умное сопоставление стратегий при обучении, а GFPO через обучение с подкреплением учит выбирать нужную стратегию под конкретную задачу.
Результат: плюс 5-7% точности на математических и кодовых бенчмарках по сравнению со стандартными подходами. При этом разнообразие ответов растёт без потери качества — в отличие от простого повышения температуры генерации.
https://www.amazon.science/blog/diverse-reasoning-traces-teach-llms-to-make-better-decisions
Amazon Science
Diverse reasoning traces teach LLMs to make better decisions
How to train language models to generate diverse, accurate reasoning paths using tokens that control distinct reasoning strategies.
NVIDIA научила модель не переписывать мысли, а переигрывать действия
Когда LLM-агент с инструментами (поиск, код, зум изображения) ошибается, стандартный RL (GRPO) просто генерирует новые роллауты с нуля. Проблема: модель редко вообще вызывает инструменты (~27% роллаутов), а когда вызывает — группа проваливается целиком в 40% случаев. Итог: сигнал обучения на tool call практически нулевой.
Авторы из NVIDIA назвали это Thinking-Acting Gap и предложили AXPO. Идея элегантна: если группа роллаутов с вызовом инструмента провалилась, зачем переписывать размышления? Они, скорее всего, правильные! Нужно зафиксировать thinking-префикс и ресемплировать только сам tool call и продолжение. Это концентрирует exploration именно там, где модель ошибается.
Результат: +25% бюджета на ресемплинг у AXPO бьёт +100% бюджета у GRPO. Модель 8B обходит 32B базовую по Pass@4.
https://arxiv.org/abs/2605.28774
Когда LLM-агент с инструментами (поиск, код, зум изображения) ошибается, стандартный RL (GRPO) просто генерирует новые роллауты с нуля. Проблема: модель редко вообще вызывает инструменты (~27% роллаутов), а когда вызывает — группа проваливается целиком в 40% случаев. Итог: сигнал обучения на tool call практически нулевой.
Авторы из NVIDIA назвали это Thinking-Acting Gap и предложили AXPO. Идея элегантна: если группа роллаутов с вызовом инструмента провалилась, зачем переписывать размышления? Они, скорее всего, правильные! Нужно зафиксировать thinking-префикс и ресемплировать только сам tool call и продолжение. Это концентрирует exploration именно там, где модель ошибается.
Результат: +25% бюджета на ресемплинг у AXPO бьёт +100% бюджета у GRPO. Модель 8B обходит 32B базовую по Pass@4.
https://arxiv.org/abs/2605.28774
(by NVIDIA) Мировая модель для многопользовательских игр — теперь без квадратичного взрыва!
Большинство видео-симуляторов умеют управлять только одним агентом. Gamma-World от NVIDIA делает шаг к мультиагентной симуляции, решая две ключевые проблемы.
Проблема 1: как закодировать идентичность агентов, не нарушая симметрию? Решение — Simplex Rotary Agent Encoding: агентов размещают в вершинах правильного симплекса в пространстве угловых фаз RoPE. Все попарные расстояния равны — агенты неразличимы по "слоту", но имеют разные фазы. Бонус: работает для любого числа агентов без переобучения!
Проблема 2: как не получить квадратичный рост внимания с числом агентов? Решение — Sparse Hub Attention: агенты общаются не напрямую, а через небольшой набор "хаб-токенов". Сложность падает с O(N²) до O(N).
Итог: 24-FPS стриминг для 4 игроков, причём модель, обученная на 2 игроках, обобщается на 4 без дополнительного обучения.
https://arxiv.org/abs/2605.28816
Большинство видео-симуляторов умеют управлять только одним агентом. Gamma-World от NVIDIA делает шаг к мультиагентной симуляции, решая две ключевые проблемы.
Проблема 1: как закодировать идентичность агентов, не нарушая симметрию? Решение — Simplex Rotary Agent Encoding: агентов размещают в вершинах правильного симплекса в пространстве угловых фаз RoPE. Все попарные расстояния равны — агенты неразличимы по "слоту", но имеют разные фазы. Бонус: работает для любого числа агентов без переобучения!
Проблема 2: как не получить квадратичный рост внимания с числом агентов? Решение — Sparse Hub Attention: агенты общаются не напрямую, а через небольшой набор "хаб-токенов". Сложность падает с O(N²) до O(N).
Итог: 24-FPS стриминг для 4 игроков, причём модель, обученная на 2 игроках, обобщается на 4 без дополнительного обучения.
https://arxiv.org/abs/2605.28816