gonzo-обзоры ML статей
24.3K subscribers
3.3K photos
3 videos
3 files
1.57K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Вышел свежий 2026 AI Index Report

https://hai.stanford.edu/ai-index/2026-ai-index-report
🔥8👀5😢2👍1
Вчера для deep research брали одного большого агента. Но по пять. А сегодня берут несколько маленьких. Но по три.

Memory Intelligence Agent
Jingyang Qiao, Weicheng Meng, Yu Cheng, Zhihang Lin, Zhizhong Zhang, Xin Tan, Jingyu Gong, Kun Shao, Yuan Xie
Статья: https://arxiv.org/abs/2604.04503v2
Ревью: https://arxiviq.substack.com/p/memory-intelligence-agent
Код: https://github.com/ECNU-SII/MIA
Модель: https://huggingface.co/LightningCreeper/MIA

# TL;DR

ЧТО сделали: Авторы предложили фреймворк Memory Intelligence Agent (MIA), который перестраивает ризонинг автономного агента в разделённую архитектуру Manager-Planner-Executor. Подход смещает фокус с простого извлечения фактов на выучивание процедурных стратегий поиска. Это достигается за счёт комбинации явного непараметрического буфера памяти и непрерывного обновления параметров модели через обучение с подкреплением прямо во время инференса (Test-Time Learning, TTL).

ПОЧЕМУ это важно: Исследователи эмпирически доказали, что умное управление памятью и стратегическая абстракция способны нивелировать разницу в качестве между маленькими и большими моделями. Использование 7B модели в роли исполнителя позволило превзойти 32B модель на 18%. MIA показывает, что выучивание самого "процесса" решения задачи вычислительно эффективнее и лучше масштабируется, чем простое расширение окна контекста или увеличение числа параметров.

Для практиков: Современные deep research агенты часто страдают от раздувания памяти и размытия внимания при обработке длинных историй выполнения. MIA решает эту проблему, сжимая сырые трейсы взаимодействия в высокоуровневые саммари рабочих процессов, которые затем используются для динамического обновления агента-планировщика через попеременное обучение с подкреплением. Для архитекторов ИИ-систем это сигнал к переходу на саморазвивающиеся архитектуры, где непрерывное обучение специфичным процедурам прямо на инференсе даёт больший профит, чем статический, перегруженный знаниями контекст.

Три агента тут: https://t.me/gonzo_ML_podcasts/3169
👍127😁5🔥2
Большой обзор про латентное пространство!

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
Xinlei Yu, Zhangquan Chen, Yongbo He, Tianyu Fu, Cheng Yang, Chengming Xu, Yue Ma, Xiaobin Hu, Zhe Cao, Jie Xu, Guibin Zhang, Jiale Tao, Jiayi Zhang, Siyuan Ma, Kaituo Feng, Haojie Huang, Youxing Li, Ronghao Chen, Huacan Wang, Chenglin Wu, Zikun Su, Xiaogang Xu, Kelu Yao, Kun Wang, Chen Gao, Yue Liao, Ruqi Huang, Tao Jin, Zhucun Xue, Cheng Tan, Jiangning Zhang, Wenqi Ren, Yanwei Fu, Yong Liu, Yu Wang, Xiangyu Yue, Yu-Gang Jiang, Shuicheng Yan
Статья: https://arxiv.org/abs/2604.02029v1
Репа: https://github.com/YU-deep/Awesome-Latent-Space
Ревью: https://arxiviq.substack.com/p/the-latent-space-foundation-evolution

# TL;DR

ЧТО сделали: Авторы представили подробную таксономию и формальный обзор подходов на базе "латентного пространства" в языковых моделях. Работа переосмысляет непрерывные внутренние состояния: из скрытых деталей реализации они превращаются в первичный, машинно-нативный вычислительный субстрат. Исследователи систематизировали сотни разрозненных статей в двумерную структуру, сопоставляющую механистический дизайн (архитектуру, репрезентации, вычисления, оптимизацию) с функциональными возможностями (рассуждения, планирование, восприятие, память, embodied-задачи и коллаборация).

ПОЧЕМУ это важно: Современные авторегрессионные модели упираются в серьёзные структурные ограничения из-за избыточности языка, боттлнека дискретизации и высоких затрат на последовательное декодирование. Перенос вычислений в непрерывное латентное многообразие позволяет кодировать суперпозиции путей рассуждения, сохранять высокоточную мультимодальную информацию и обмениваться данными между агентами без семантических потерь. Это фундаментально меняет архитектурные рамки базовых моделей следующего поколения.

Для практиков: Переход на непрерывные репрезентации означает скорый отказ от явного промпт-инжиниринга промежуточных шагов (CoT) в пользу работы со скрытыми состояниями. Дискретный текст останется лишь интерфейсом ввода-вывода, тогда как основная тяжёлая работа (поиск, симуляция, память) уйдёт в латентное пространство. Потребуется новый инструментарий для мониторинга, отладки и AI alignment таких состояний, так как для человека они полностью непрозрачны.

Латенты тут: https://t.me/gonzo_ML_podcasts/3185
14👌1
Forwarded from gonzo_ML_podcasts
😁6🔥3👎1😱1🌚1
Про будущее математики от Теренса Тао. Также в тему свежая статья из Quanta Magazine: “The AI Revolution in Math Has Arrived

Mathematical methods and human thought in the age of AI
Tanya Klowden, Terence Tao
Статья: https://arxiv.org/abs/2603.26524
Ревью: https://arxiviq.substack.com/p/mathematical-methods-and-human-thought

# TL;DR

ЧТО сделали: Авторы предлагают философский и стратегический фреймворк для интеграции ИИ в математически строгие пайплайны. Описан поэтапный переход от простой помощи на периферии к полноценному коллаборативному сосуществованию человека и машины.

ПОЧЕМУ это важно: По мере того как языковые и рассуждающие модели масштабируются, автоматизация интеллектуального труда опасно отрывается от базовых когнитивных процессов. Бесконтрольное внедрение ИИ грозит системным загрязнением данных («коллапс ИИ») и эпистемологической цикличностью.

Для практиков: Для безопасного использования ИИ в качестве интеллектуальной базы необходимы строгие барьеры формальной верификации. Это позволяет изолировать стохастические галлюцинации моделей и не принимать сгенерированный синтаксис за фактическую истину.

Искать истину тут: https://t.me/gonzo_ML_podcasts/3199
👍7🤓1
Про многоэтапную верификацию CUA (Computer Use Agent).

The Art of Building Verifiers for Computer Use Agents
Corby Rosset, Pratyusha Sharma, Andrew Zhao, Miguel Gonzalez-Fernandez, Ahmed Awadallah
Статья: https://arxiv.org/abs/2604.06240v1
Код: https://github.com/microsoft/fara
Ревью: https://arxiviq.substack.com/p/the-art-of-building-verifiers-for

# TL;DR

ЧТО сделали: Авторы разработали Universal Verifier (UV) — многоэтапную систему для оценки траекторий агентов, использующих компьютер (Computer Use Agent, CUA). Они отошли от бинарных вердиктов через один промпт, внедрив специфичные для каждой задачи рубрикаторы, мультимодальную оценку релевантности по всем скриншотам траектории и явное разделение оценки качества исполнения (process rewards) и достижения конечной цели (outcome rewards). Кроме того, в опенсорс выложили CUAVerifierBench — датасет из 246 размеченных людьми траекторий для оценки верификаторов.

ПОЧЕМУ это важно: Надёжная верификация — главное узкое горлышко для масштабирования RLHF и циклов автономного обучения в агентном ИИ. Существующие эвалюаторы страдают от огромного количества ложноположительных срабатываний, часто слепо доверяя галлюцинациям агентов. Снижая долю ложноположительных ошибок почти до нуля и достигая уровня согласия между людьми-разметчиками, этот фреймворк даёт надёжный, гранулярный сигнал награды, необходимый для обучения следующего поколения веб- и десктопных агентов.

Для практиков: По мере того как модели переходят от ответов на вопросы к выполнению длинных задач за компьютером, оценка их реального успеха на практике оказывается обманчиво сложной. Модель может сделать всё правильно, но споткнуться о пейволл или окно логина, или наоборот — сгаллюцинировать успех, ничего по факту не сделав. Статья показывает, что для решения проблемы верификации нужна архитектурная строгость, а не просто более крупные базовые модели. Структурно отделяя процесс от результата и требуя тщательной визуальной привязки на каждом шагу, предложенная система снижает уровень ложноположительных оценок с более чем 30% до примерно 1%. Для ИИ-исследователей это сигнал к необходимому отказу от простой оценки конечного состояния в пользу модульных пайплайнов верификации, основанных на сборе доказательств.

Верифицировать здесь: https://t.me/gonzo_ML_podcasts/3204
👍2😁21
Про спектральную математику оптимизатора Мюон. На подумать.

Muon Dynamics as a Spectral Wasserstein Flow
Gabriel Peyré
Статья: https://arxiv.org/abs/2604.04891
Код: https://github.com/gpeyre/spectral-wasserstein
Ревью: https://arxiviq.substack.com/p/muon-dynamics-as-a-spectral-wasserstein

# TL;DR

ЧТО сделали: Автор представляет семейство «спектральных расстояний Вассерштейна», параметризованных матричной нормой на положительно полуопределённых матрицах. Обобщая оптимальный транспорт через штрафование глобальной ковариации смещений, статья доказывает, что непрерывный предел оптимизатора Muon (https://kellerjordan.github.io/posts/muon/) — это точный градиентный поток в операторной норме этой геометрии.

ПОЧЕМУ это важно: Работа переводит спектрально нормализованные апдейты из разряда эмпирических эвристик в строгие геометрические принципы непрерывного времени. Это даёт математический фундамент для анализа стабильности, координации частиц и потенциальной глобальной сходимости современных матричных оптимизаторов, которыми сейчас обучают LLM.

Для практиков: Пока это строгая математическая база. Если вы используете Muon для обучения, теперь вы знаете, что он не просто делает ортогональную проекцию, а оптимально двигает веса в специальном неевклидовом пространстве. Это открывает путь к созданию новых, математически обоснованных вариантов оптимизаторов для больших моделей.

Вкуривать тут (я ещё не): https://t.me/gonzo_ML_podcasts/3216
🤯7👍53🙏1