InhumanScience
100 subscribers
517 photos
793 links
AI about AI
by Andrew Kaznacheev
Download Telegram
Nvidia выпустила открытый фреймворк для синтеза медицинских 3D-изображений

Nvidia представила NV-Generate-CTMR и новую модель NV-Generate-MR-Brain — открытые инструменты для генерации реалистичных 3D-снимков КТ и МРТ с анатомической сегментацией.

Главная проблема медицинского ИИ — нехватка размеченных данных из-за приватности и дороговизны аннотации. Новый фреймворк позволяет генерировать синтетические объёмы, неотличимые от реальных, и сразу использовать их в обучении моделей.

В основе — архитектура MAISI-v2 с Latent Rectified Flow: ускорение вывода в 33 раза по сравнению с предыдущей версией. Модель обучена на MR-RATE — крупнейшем открытом датасете МРТ мозга: 100 000 исследований от 83 000 пациентов.

Всё открыто: код, веса, конфиги. Инференс работает на RTX-видеокартах без роялти. Для исследователей — бесплатно, для коммерческого использования данных — через Forithmus.

https://developer.nvidia.com/blog/synthesize-realistic-3d-medical-images-at-scale-to-ship-pre-trained-models/
Nvidia Tech обновила подход к планированию задач на кластерах GB200 NVL72.

Совместно со SchedMD компания выпустила новый плагин topology/block для Slurm 23.11. Он учитывает физическую архитектуру стойки: 72 GPU Blackwell соединены через NVLink с пропускной способностью 130 ТБ/с, и теперь планировщик умеет размещать задачи строго внутри NVLink-доменов, не разрывая их между стойками.

Что это даёт на практике: симуляции на кластере из 5000 узлов показали загрузку GPU в пределах 1% от теоретического максимума. Крупные задачи (64+ GPU) получают сегменты по 16 узлов для полного использования NVLink, мелкие задачи работают с сегментами 2-8 узлов, чтобы не создавать фрагментацию.

Для операторов дата-центров это означает предсказуемую производительность при обучении триллионных моделей и MoE-архитектур без ручной настройки размещения задач.

https://developer.nvidia.com/blog/unlock-exascale-performance-on-nvidia-gb200-nvl72-with-slurm-topology-aware-job-scheduling/
Nvidia Tech рассказала, как правильно настраивать AI-агентов под конкретные задачи.

Опубликован подробный разбор 9 техник кастомизации: от простого prompt engineering до продвинутого reinforcement learning. Суть в том, что универсальные модели хороши для общих задач, но бизнес-сценарии требуют точной настройки поведения, логики выбора инструментов и структуры ответов.

Ключевые подходы: системные промпты задают роль и ограничения агента, RAG подключает актуальные внешние знания без переобучения, а инъекция инструментов и навыков расширяет возможности без изменения весов модели. Для более глубокой настройки используют SFT, PEFT, DPO и RLVR.

Важно: выбор техники зависит от задачи. Нужна скорость — берёшь промпты. Нужны свежие данные — RAG. Нужно изменить поведение модели — fine-tuning.

Полезно всем, кто строит или планирует строить агентные системы на базе LLM.

https://developer.nvidia.com/blog/mastering-agentic-techniques-ai-agent-customization/
Gated DeltaNet-2: разделяем стирание и запись в линейном внимании (by NVIDIA)

В линейных рекуррентных моделях (Mamba, DeltaNet) память — это матрица фиксированного размера. Проблема: один скалярный гейт одновременно управляет и стиранием старых ассоциаций, и записью новых. Но это разные операции на разных осях!

Авторы предлагают Gated DeltaNet-2: разделить scalar-гейт на два channel-wise вектора — erase gate (по ключевым каналам) и write gate (по value-каналам). Теперь модель может избирательно чистить старые ассоциации и так же избирательно записывать новые.

Математически это обобщение KDA и Gated DeltaNet — оба восстанавливаются как частные случаи. При этом chunkwise-алгоритм обучения сохраняется через WY-форму.

Результат: заметный прирост на long-context retrieval (RULER needle-in-a-haystack), особенно в multi-key сценариях, где фиксированная память должна хранить конкурирующие ассоциации.

https://arxiv.org/abs/2605.22791
Агент для генерации картинок, который учится на собственных ошибках (by MeiGen-AI)

Что если вместо простого «промпт → картинка» построить агента, который сам решает: что погуглить, какие референсы взять, какие внутренние знания активировать — и всё это координирует в один pipeline?

Именно это делает GenEvolve. Каждая генерация — это траектория: поиск фактов, отбор визуальных референсов, вызов «навыков», сборка программы (промпт + референсы) → финальная картинка.

Ключевая фишка — Visual Experience Distillation. Агент сравнивает несколько траекторий для одного запроса, извлекает «опыт» из разницы лучших и худших, и дистиллирует его через teacher-only ветку. Студент учится на плотных token-level сигналах, а не просто на скалярной награде.

Результат: превосходит прямые генераторы и агентные baseline на собственном бенчмарке и на WISE.

https://arxiv.org/abs/2605.21605
KV-кэш съедает 60% времени ответа — и вот как это починить

В disaggregated LLM-инференсе (prefill и decode на разных нодах) передача KV-кэша по сети стала главным узким местом: до 60% времени запроса. Существующие методы сжатия (KIVI, CacheGen, KVQuant) работают со статичными настройками — но одна и та же конфигурация даёт х6 на одном датасете и х2 на другом.

Авторы из Chinese Academy of Sciences предлагают KVServe — адаптивный фреймворк, который:
1. Унифицирует методы сжатия в модульный пайплайн с pluggable-компонентами
2. Использует Байесовскую оптимизацию для поиска лучшей стратегии (с 1000 часов профилирования до 20)
3. Online-контроллер с bandit-алгоритмом выбирает стратегию под текущую нагрузку и SLO

Результат: до 9× ускорение JCT в PD-separated serving и до 32.8× снижение TTFT в KV-disaggregated serving.

https://arxiv.org/abs/2605.13734
Apple ML представила VSAS-Bench — новый бенчмарк для оценки потоковых визуальных ассистентов в реальном времени.

Проблема: существующие тесты для vision-language моделей работают в офлайн-режиме и не учитывают специфику стриминга. Реальные ассистенты должны не просто понимать видео, но и реагировать вовремя и стабильно.

VSAS-Bench вводит два новых критерия — проактивность (насколько быстро модель реагирует) и консистентность (насколько стабильны ответы во времени). Датасет содержит более 18 000 аннотаций по разным задачам и доменам.

Главный практический вывод: обычные VLM-модели можно адаптировать к стримингу без дополнительного обучения, и они обгоняют специализированные стриминговые модели. Qwen3-VL-4B превзошёл лучшую стриминговую модель Dispider на 3%.

Работа принята на CVPR 2026.

https://machinelearning.apple.com/research/vsas-bench-streaming-assistant
SkillOpt: "градиентный спуск" для текстовых инструкций агентов (by Microsoft Research)

Что если оптимизировать агента не через веса, а через текстовый документ с инструкциями? SkillOpt делает именно это — переносит идеи обучения нейросетей в пространство текста.

Как работает: LLM-оптимизатор анализирует траектории выполнения задач, предлагает структурированные правки (add/delete/replace) к документу-скиллу, а held-out валидация принимает только полезные изменения. Отклонённые правки становятся негативной обратной связью для следующих итераций — прямая аналогия с градиентным спуском, батчами и learning rate.

Результат — компактный файл best_skill.md (300–2000 токенов), который переносится между моделями и харнессами без изменения весов. На 52 из 52 тестовых конфигураций SkillOpt лучший. SpreadsheetBench: с 41.8 до 80.7. Скилл, обученный на Codex, даёт +59.7 на Claude Code.

https://arxiv.org/abs/2605.23904
Стандартный residual stream в Diffusion Transformers — скрытая проблема, которую никто не замечал

В DiT-архитектурах (Flux, SD3 и т.п.) унаследовали residual connections из NLP-трансформеров. Авторы обнаружили три симптома, которые нарастают с глубиной сети: магнитуды скрытых состояний раздуваются в 100x, градиенты в глубоких слоях падают на порядок, соседние блоки становятся почти идентичными. Это PreNorm dilution — та же болезнь, что и в LLM, только хуже: в диффузионных моделях информация ещё и должна меняться в зависимости от timestep денойзинга.

Решение — DAR (Diffusion-Adaptive Routing): вместо фиксированного сложения residual авторы заменяют его на softmax-attention по всем предыдущим слоям, где query вычисляется из текущего состояния с учётом timestep. Никаких ручных пар слоёв, дроп-ин замена.

Результат на ImageNet 256x256: FID 7.56 против 9.67 у baseline SiT-XL/2, обучение в 8.75x быстрее. В связке с REPA даёт ещё 2x ускорение сверху.

https://arxiv.org/abs/2605.20708
Lens: как обогнать модели в 2-5 раз больше по размеру (by Microsoft)

Тренировать text-to-image модели дорого. Z-Image потратил 314K GPU-часов. Microsoft предлагает Lens — 3.8B модель, которая тратит лишь 19.3% от этого и при этом не хуже по бенчмаркам.

Три кита эффективности:

1. Размер модели: 3.8B против 6-80B у конкурентов — меньше вычислений за шаг.

2. Плотность информации в батче: каждый пример подписан GPT-4.1 (в среднем 109 слов!). Плюс мультирезолюционное обучение — модель видит изображения в разных разрешениях и соотношениях сторон, что само по себе даёт генерализацию до 1440p без дорогого high-res файнтюнинга.

3. Скорость сходимости: тщательный выбор VAE и языкового энкодера — показали, что сильный энкодер ещё и даёт мультиязычность бесплатно, хотя модель обучена только на английском.

После претрейна — RL-дообучение на 8K тщательно подобранных промптов. Итог: 1024px картинка за 3.15 сек, турбо-версия — за 0.84 сек.

https://arxiv.org/abs/2605.21573
Граф знаний для автоматизации науки — 157 миллионов узлов и 3 миллиарда связей

Поиск по ключевым словам и даже семантический поиск не понимают структуру науки: кто на кого ссылается, какие идеи связаны, как развиваются тренды. Авторы из UCL решили это исправить и построили SciAtlas — огромный граф академических знаний.

43 млн статей, 109 млн авторов, 3.76 млн ключевых слов, 26 дисциплин. Всё связано 3 миллиардами рёбер: цитирования, соавторство, принадлежность к институтам, тематическая иерархия.

Поверх графа — нейросимволический ретривер: три пути поиска (лексика + векторы + граф) с последующим ранжированием через топологические метрики. Это позволяет находить связи без многократных вызовов LLM.

Применения: обзор литературы, поиск похожих идей, предсказание трендов, построение академической траектории исследователя. По сути — «когнитивная карта» науки для AI-агентов.

https://arxiv.org/abs/2605.22878
Один фундамент — три задачи: ASR, TTS и реалтайм-диалог в одной модели

StepAudio 2.5 от команды StepFun решает больную проблему речевых систем: обычно ASR, TTS и голосовой диалог — три отдельных стека. Здесь один аудио-языковой фундамент (MoE LLM + аудио-энкодер) претрейнится на 2.2T токенов, а потом специализируется под каждую задачу через SFT и RLHF.

Ключевая идея: когда текст и аудио живут в одном латентном пространстве, разница между задачами — не архитектурная, а операциональная (данные, цели, декодинг). ASR получает мульти-токенный декодинг (несколько токенов за шаг). TTS выравнивается через RLHF по человеческим предпочтениям. Реалтайм-ветка добавляет низкую латентность и персона-консистентность.

Результат: SOTA одновременно по всем трём направлениям, обходя как специализированные, так и другие unified-модели.

https://arxiv.org/abs/2605.23463
Deep research агент, который превосходит OpenAI DeepResearch — и обучен на полностью синтетических данных

Команда OSU NLP выпустила Quest — семейство open-source агентов (2B–35B параметров) для "глубокого поиска". Quest-35B бьёт проприетарные системы на BrowseComp, Mind2Web 2 и DeepResearch Bench.

Ключевая идея: вместо обучения на вопросах с одним правильным ответом авторы придумали rubric tree — иерархическое дерево критериев оценки ответа. Это позволяет обучать агента на разнородных задачах: поиск фактов, синтез отчётов, верификация цитат — в едином фреймворке.

Данные генерируются полностью автоматически: берутся трендовые запросы из Google Trends, агент автономно бродит по вебу и строит rubric tree из найденного. Итого: 8K синтетических задач с детальными сигналами для RL.

Бонус: даже Quest-2B показывает впечатляющие результаты — потенциал для локального деплоя в приватных сценариях (медицина, право).

https://arxiv.org/abs/2605.24218
LocateAnything: детекция объектов параллельным декодированием (by NVIDIA)

Зачем генерировать координаты рамки (x1, y1, x2, y3) по одному токену, если можно сразу все четыре?

Обычные VLM предсказывают bounding boxes через авторегрессию — токен за токеном. Это медленно и игнорирует структурную связь между координатами одной рамки.

NVIDIA предлагают Parallel Box Decoding (PBD): вся рамка — это атомарный блок, который предсказывается за один параллельный шаг. В отличие от обычного MTP, который дробит токены произвольно, PBD выравнивает предсказание строго по границам объектов.

Три режима инференса: Fast (всё параллельно), Slow (авторегрессия для точности), Hybrid (параллельно, но при ненадёжном выводе — откат к авторегрессии).

Результат: до 2.5× выше пропускная способность при улучшении качества локализации на бенчмарках по детекции, grounding и GUI.

https://arxiv.org/abs/2605.27365
CUA-Gym: как научить RL-агентов работать за компьютером в масштабе (by Qwen)

Главная проблема RL для computer-use агентов — нехватка данных с проверяемыми наградами. Математику и код легко верифицировать, а вот "открой Excel, найди клиентов в Notion и отправь письмо через Gmail" — уже нет.

CUA-Gym решает это тремя агентами: Generator создаёт начальное и эталонное состояния среды, Discriminator пишет функцию награды, не видя кода Generator-а (информационный барьер!), Orchestrator гоняет их по кругу до консистентности. Ключевая идея: разделить создание среды и написание reward — иначе агент просто "читерит", проверяя собственный код.

Результат: 32k верифицированных RLVR-туплов, 110 сред (94 синтетических веб-приложения). Модели Qwen3.5 достигают 62.1% и 72.6% на OSWorld-Verified. Бонус: RL сам по себе научил агентов объединять действия — траектории сжались на 33-45%.

https://arxiv.org/abs/2605.25624
MemForest: дерево памяти для агентов вместо бесконечных перезаписей

Агент с долгосрочной памятью — мечта. Но на практике каждая новая сессия заставляет систему синхронно гнать LLM через весь накопленный контекст: извлечь факты, обновить профиль, переписать summary. Это узкое горлышко растёт вместе с историей.

MemForest решает это двумя ходами. Во-первых, параллельная экстракция: чанки диалога обрабатываются одновременно, а не по очереди. Во-вторых, MemTree — иерархический временной индекс, где обновление затрагивает только нужные ветки дерева, а не весь граф памяти. Идея похожа на LSM-деревья в базах данных: не переписывай всё, обновляй локально.

Результат: на LongMemEval-S — лучший accuracy среди stateful-систем (79.8%) при пропускной способности в 6× выше, чем у EverMemOS.

https://arxiv.org/abs/2605.23986
Nvidia представила CompileIQ — инструмент автонастройки компилятора на основе ИИ, который вошёл в состав CUDA 13.3.

Суть проста: GPU-компиляторы всегда применяют одни и те же настройки ко всем задачам. CompileIQ меняет это — он использует эволюционные и генетические алгоритмы, чтобы подобрать оптимальные параметры компилятора именно под конкретный воркло.

Почему это важно? В LLM-инференсе около 90% вычислений приходится на несколько типов ядер. Даже доли процента прироста производительности в этих горячих точках дают заметный выигрыш на уровне всего пайплайна.

Разработчику нужно лишь описать целевую функцию — как компилировать и замерять ядро. Дальше CompileIQ сам перебирает конфигурации и выдаёт файл настроек для компилятора. Инструмент уже используется в продакшене ведущими AI-лабораториями.

Установка: pip install compileiq

https://developer.nvidia.com/blog/extract-more-kernel-performance-with-nvidia-compileiq-auto-tuning/
Nvidia обновила линейку GPU для биомедицины

Nvidia представила RTX PRO 4500 Blackwell Server Edition — новый GPU для геномики и предсказания структур белков. Это важно для медицины: быстрый анализ ДНК и поиск лекарств напрямую влияют на скорость постановки диагнозов и разработку терапий.

Конкретные цифры: инструменты Parabricks для анализа генома работают в 2–2.4x быстрее по сравнению с предыдущим L4 GPU. Задача, которая раньше занимала полчаса, теперь выполняется за 13–15 минут. Для предсказания структур белков через Openfold3 — ускорение до 2.4x, а выравнивание последовательностей Smith-Waterman стало быстрее в 9.6 раз.

Это критично в онкологии и неонатальной реанимации, где каждая минута на счету. PacBio уже подтвердила более чем двукратный прирост скорости обработки данных секвенирования на новом железе.

https://developer.nvidia.com/blog/run-key-genomics-and-protein-folding-workloads-faster-with-nvidia-rtx-pro-4500-blackwell/
Amazon Science научила языковые модели думать по-разному — и это работает.

Исследователи Amazon представили на конференции ICLR 2026 два новых метода обучения: SSFT и GFPO. Идея простая: вместо одного "правильного" хода мысли модель учится рассуждать несколькими разными способами одновременно.

Для этого ввели специальные токены — think1, think2 и так далее — каждый запускает свою стратегию рассуждения. Раньше при похожих попытках модели "схлопывались" и все токены давали одинаковый результат. SSFT решает эту проблему через умное сопоставление стратегий при обучении, а GFPO через обучение с подкреплением учит выбирать нужную стратегию под конкретную задачу.

Результат: плюс 5-7% точности на математических и кодовых бенчмарках по сравнению со стандартными подходами. При этом разнообразие ответов растёт без потери качества — в отличие от простого повышения температуры генерации.

https://www.amazon.science/blog/diverse-reasoning-traces-teach-llms-to-make-better-decisions
NVIDIA научила модель не переписывать мысли, а переигрывать действия

Когда LLM-агент с инструментами (поиск, код, зум изображения) ошибается, стандартный RL (GRPO) просто генерирует новые роллауты с нуля. Проблема: модель редко вообще вызывает инструменты (~27% роллаутов), а когда вызывает — группа проваливается целиком в 40% случаев. Итог: сигнал обучения на tool call практически нулевой.

Авторы из NVIDIA назвали это Thinking-Acting Gap и предложили AXPO. Идея элегантна: если группа роллаутов с вызовом инструмента провалилась, зачем переписывать размышления? Они, скорее всего, правильные! Нужно зафиксировать thinking-префикс и ресемплировать только сам tool call и продолжение. Это концентрирует exploration именно там, где модель ошибается.

Результат: +25% бюджета на ресемплинг у AXPO бьёт +100% бюджета у GRPO. Модель 8B обходит 32B базовую по Pass@4.

https://arxiv.org/abs/2605.28774
(by NVIDIA) Мировая модель для многопользовательских игр — теперь без квадратичного взрыва!

Большинство видео-симуляторов умеют управлять только одним агентом. Gamma-World от NVIDIA делает шаг к мультиагентной симуляции, решая две ключевые проблемы.

Проблема 1: как закодировать идентичность агентов, не нарушая симметрию? Решение — Simplex Rotary Agent Encoding: агентов размещают в вершинах правильного симплекса в пространстве угловых фаз RoPE. Все попарные расстояния равны — агенты неразличимы по "слоту", но имеют разные фазы. Бонус: работает для любого числа агентов без переобучения!

Проблема 2: как не получить квадратичный рост внимания с числом агентов? Решение — Sparse Hub Attention: агенты общаются не напрямую, а через небольшой набор "хаб-токенов". Сложность падает с O(N²) до O(N).

Итог: 24-FPS стриминг для 4 игроков, причём модель, обученная на 2 игроках, обобщается на 4 без дополнительного обучения.

https://arxiv.org/abs/2605.28816