Вчера для deep research брали одного большого агента. Но по пять. А сегодня берут несколько маленьких. Но по три.
Memory Intelligence Agent
Jingyang Qiao, Weicheng Meng, Yu Cheng, Zhihang Lin, Zhizhong Zhang, Xin Tan, Jingyu Gong, Kun Shao, Yuan Xie
Статья: https://arxiv.org/abs/2604.04503v2
Ревью: https://arxiviq.substack.com/p/memory-intelligence-agent
Код: https://github.com/ECNU-SII/MIA
Модель: https://huggingface.co/LightningCreeper/MIA
# TL;DR
ЧТО сделали: Авторы предложили фреймворк Memory Intelligence Agent (MIA), который перестраивает ризонинг автономного агента в разделённую архитектуру Manager-Planner-Executor. Подход смещает фокус с простого извлечения фактов на выучивание процедурных стратегий поиска. Это достигается за счёт комбинации явного непараметрического буфера памяти и непрерывного обновления параметров модели через обучение с подкреплением прямо во время инференса (Test-Time Learning, TTL).
ПОЧЕМУ это важно: Исследователи эмпирически доказали, что умное управление памятью и стратегическая абстракция способны нивелировать разницу в качестве между маленькими и большими моделями. Использование 7B модели в роли исполнителя позволило превзойти 32B модель на 18%. MIA показывает, что выучивание самого "процесса" решения задачи вычислительно эффективнее и лучше масштабируется, чем простое расширение окна контекста или увеличение числа параметров.
Для практиков: Современные deep research агенты часто страдают от раздувания памяти и размытия внимания при обработке длинных историй выполнения. MIA решает эту проблему, сжимая сырые трейсы взаимодействия в высокоуровневые саммари рабочих процессов, которые затем используются для динамического обновления агента-планировщика через попеременное обучение с подкреплением. Для архитекторов ИИ-систем это сигнал к переходу на саморазвивающиеся архитектуры, где непрерывное обучение специфичным процедурам прямо на инференсе даёт больший профит, чем статический, перегруженный знаниями контекст.
Три агента тут: https://t.me/gonzo_ML_podcasts/3169
Memory Intelligence Agent
Jingyang Qiao, Weicheng Meng, Yu Cheng, Zhihang Lin, Zhizhong Zhang, Xin Tan, Jingyu Gong, Kun Shao, Yuan Xie
Статья: https://arxiv.org/abs/2604.04503v2
Ревью: https://arxiviq.substack.com/p/memory-intelligence-agent
Код: https://github.com/ECNU-SII/MIA
Модель: https://huggingface.co/LightningCreeper/MIA
# TL;DR
ЧТО сделали: Авторы предложили фреймворк Memory Intelligence Agent (MIA), который перестраивает ризонинг автономного агента в разделённую архитектуру Manager-Planner-Executor. Подход смещает фокус с простого извлечения фактов на выучивание процедурных стратегий поиска. Это достигается за счёт комбинации явного непараметрического буфера памяти и непрерывного обновления параметров модели через обучение с подкреплением прямо во время инференса (Test-Time Learning, TTL).
ПОЧЕМУ это важно: Исследователи эмпирически доказали, что умное управление памятью и стратегическая абстракция способны нивелировать разницу в качестве между маленькими и большими моделями. Использование 7B модели в роли исполнителя позволило превзойти 32B модель на 18%. MIA показывает, что выучивание самого "процесса" решения задачи вычислительно эффективнее и лучше масштабируется, чем простое расширение окна контекста или увеличение числа параметров.
Для практиков: Современные deep research агенты часто страдают от раздувания памяти и размытия внимания при обработке длинных историй выполнения. MIA решает эту проблему, сжимая сырые трейсы взаимодействия в высокоуровневые саммари рабочих процессов, которые затем используются для динамического обновления агента-планировщика через попеременное обучение с подкреплением. Для архитекторов ИИ-систем это сигнал к переходу на саморазвивающиеся архитектуры, где непрерывное обучение специфичным процедурам прямо на инференсе даёт больший профит, чем статический, перегруженный знаниями контекст.
Три агента тут: https://t.me/gonzo_ML_podcasts/3169
arXiv.org
Memory Intelligence Agent
Deep research agents (DRAs) integrate LLM reasoning with external tools. Memory systems enable DRAs to leverage historical experiences, which are essential for efficient reasoning and autonomous...
👍12❤7😁5🔥2
Большой обзор про латентное пространство!
The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
Xinlei Yu, Zhangquan Chen, Yongbo He, Tianyu Fu, Cheng Yang, Chengming Xu, Yue Ma, Xiaobin Hu, Zhe Cao, Jie Xu, Guibin Zhang, Jiale Tao, Jiayi Zhang, Siyuan Ma, Kaituo Feng, Haojie Huang, Youxing Li, Ronghao Chen, Huacan Wang, Chenglin Wu, Zikun Su, Xiaogang Xu, Kelu Yao, Kun Wang, Chen Gao, Yue Liao, Ruqi Huang, Tao Jin, Zhucun Xue, Cheng Tan, Jiangning Zhang, Wenqi Ren, Yanwei Fu, Yong Liu, Yu Wang, Xiangyu Yue, Yu-Gang Jiang, Shuicheng Yan
Статья: https://arxiv.org/abs/2604.02029v1
Репа: https://github.com/YU-deep/Awesome-Latent-Space
Ревью: https://arxiviq.substack.com/p/the-latent-space-foundation-evolution
# TL;DR
ЧТО сделали: Авторы представили подробную таксономию и формальный обзор подходов на базе "латентного пространства" в языковых моделях. Работа переосмысляет непрерывные внутренние состояния: из скрытых деталей реализации они превращаются в первичный, машинно-нативный вычислительный субстрат. Исследователи систематизировали сотни разрозненных статей в двумерную структуру, сопоставляющую механистический дизайн (архитектуру, репрезентации, вычисления, оптимизацию) с функциональными возможностями (рассуждения, планирование, восприятие, память, embodied-задачи и коллаборация).
ПОЧЕМУ это важно: Современные авторегрессионные модели упираются в серьёзные структурные ограничения из-за избыточности языка, боттлнека дискретизации и высоких затрат на последовательное декодирование. Перенос вычислений в непрерывное латентное многообразие позволяет кодировать суперпозиции путей рассуждения, сохранять высокоточную мультимодальную информацию и обмениваться данными между агентами без семантических потерь. Это фундаментально меняет архитектурные рамки базовых моделей следующего поколения.
Для практиков: Переход на непрерывные репрезентации означает скорый отказ от явного промпт-инжиниринга промежуточных шагов (CoT) в пользу работы со скрытыми состояниями. Дискретный текст останется лишь интерфейсом ввода-вывода, тогда как основная тяжёлая работа (поиск, симуляция, память) уйдёт в латентное пространство. Потребуется новый инструментарий для мониторинга, отладки и AI alignment таких состояний, так как для человека они полностью непрозрачны.
Латенты тут: https://t.me/gonzo_ML_podcasts/3185
The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
Xinlei Yu, Zhangquan Chen, Yongbo He, Tianyu Fu, Cheng Yang, Chengming Xu, Yue Ma, Xiaobin Hu, Zhe Cao, Jie Xu, Guibin Zhang, Jiale Tao, Jiayi Zhang, Siyuan Ma, Kaituo Feng, Haojie Huang, Youxing Li, Ronghao Chen, Huacan Wang, Chenglin Wu, Zikun Su, Xiaogang Xu, Kelu Yao, Kun Wang, Chen Gao, Yue Liao, Ruqi Huang, Tao Jin, Zhucun Xue, Cheng Tan, Jiangning Zhang, Wenqi Ren, Yanwei Fu, Yong Liu, Yu Wang, Xiangyu Yue, Yu-Gang Jiang, Shuicheng Yan
Статья: https://arxiv.org/abs/2604.02029v1
Репа: https://github.com/YU-deep/Awesome-Latent-Space
Ревью: https://arxiviq.substack.com/p/the-latent-space-foundation-evolution
# TL;DR
ЧТО сделали: Авторы представили подробную таксономию и формальный обзор подходов на базе "латентного пространства" в языковых моделях. Работа переосмысляет непрерывные внутренние состояния: из скрытых деталей реализации они превращаются в первичный, машинно-нативный вычислительный субстрат. Исследователи систематизировали сотни разрозненных статей в двумерную структуру, сопоставляющую механистический дизайн (архитектуру, репрезентации, вычисления, оптимизацию) с функциональными возможностями (рассуждения, планирование, восприятие, память, embodied-задачи и коллаборация).
ПОЧЕМУ это важно: Современные авторегрессионные модели упираются в серьёзные структурные ограничения из-за избыточности языка, боттлнека дискретизации и высоких затрат на последовательное декодирование. Перенос вычислений в непрерывное латентное многообразие позволяет кодировать суперпозиции путей рассуждения, сохранять высокоточную мультимодальную информацию и обмениваться данными между агентами без семантических потерь. Это фундаментально меняет архитектурные рамки базовых моделей следующего поколения.
Для практиков: Переход на непрерывные репрезентации означает скорый отказ от явного промпт-инжиниринга промежуточных шагов (CoT) в пользу работы со скрытыми состояниями. Дискретный текст останется лишь интерфейсом ввода-вывода, тогда как основная тяжёлая работа (поиск, симуляция, память) уйдёт в латентное пространство. Потребуется новый инструментарий для мониторинга, отладки и AI alignment таких состояний, так как для человека они полностью непрозрачны.
Латенты тут: https://t.me/gonzo_ML_podcasts/3185
arXiv.org
The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
Latent space is rapidly emerging as a native substrate for language-based models. While modern systems are still commonly understood through explicit token-level generation, an increasing body of...
❤14👌1
Про будущее математики от Теренса Тао. Также в тему свежая статья из Quanta Magazine: “The AI Revolution in Math Has Arrived”
Mathematical methods and human thought in the age of AI
Tanya Klowden, Terence Tao
Статья: https://arxiv.org/abs/2603.26524
Ревью: https://arxiviq.substack.com/p/mathematical-methods-and-human-thought
# TL;DR
ЧТО сделали: Авторы предлагают философский и стратегический фреймворк для интеграции ИИ в математически строгие пайплайны. Описан поэтапный переход от простой помощи на периферии к полноценному коллаборативному сосуществованию человека и машины.
ПОЧЕМУ это важно: По мере того как языковые и рассуждающие модели масштабируются, автоматизация интеллектуального труда опасно отрывается от базовых когнитивных процессов. Бесконтрольное внедрение ИИ грозит системным загрязнением данных («коллапс ИИ») и эпистемологической цикличностью.
Для практиков: Для безопасного использования ИИ в качестве интеллектуальной базы необходимы строгие барьеры формальной верификации. Это позволяет изолировать стохастические галлюцинации моделей и не принимать сгенерированный синтаксис за фактическую истину.
Искать истину тут: https://t.me/gonzo_ML_podcasts/3199
Mathematical methods and human thought in the age of AI
Tanya Klowden, Terence Tao
Статья: https://arxiv.org/abs/2603.26524
Ревью: https://arxiviq.substack.com/p/mathematical-methods-and-human-thought
# TL;DR
ЧТО сделали: Авторы предлагают философский и стратегический фреймворк для интеграции ИИ в математически строгие пайплайны. Описан поэтапный переход от простой помощи на периферии к полноценному коллаборативному сосуществованию человека и машины.
ПОЧЕМУ это важно: По мере того как языковые и рассуждающие модели масштабируются, автоматизация интеллектуального труда опасно отрывается от базовых когнитивных процессов. Бесконтрольное внедрение ИИ грозит системным загрязнением данных («коллапс ИИ») и эпистемологической цикличностью.
Для практиков: Для безопасного использования ИИ в качестве интеллектуальной базы необходимы строгие барьеры формальной верификации. Это позволяет изолировать стохастические галлюцинации моделей и не принимать сгенерированный синтаксис за фактическую истину.
Искать истину тут: https://t.me/gonzo_ML_podcasts/3199
Quanta Magazine
The AI Revolution in Math Has Arrived | Quanta Magazine
AI is being used to prove new results at a rapid pace. Mathematicians think this is just the beginning.
👍7🤓1
Про многоэтапную верификацию CUA (Computer Use Agent).
The Art of Building Verifiers for Computer Use Agents
Corby Rosset, Pratyusha Sharma, Andrew Zhao, Miguel Gonzalez-Fernandez, Ahmed Awadallah
Статья: https://arxiv.org/abs/2604.06240v1
Код: https://github.com/microsoft/fara
Ревью: https://arxiviq.substack.com/p/the-art-of-building-verifiers-for
# TL;DR
ЧТО сделали: Авторы разработали Universal Verifier (UV) — многоэтапную систему для оценки траекторий агентов, использующих компьютер (Computer Use Agent, CUA). Они отошли от бинарных вердиктов через один промпт, внедрив специфичные для каждой задачи рубрикаторы, мультимодальную оценку релевантности по всем скриншотам траектории и явное разделение оценки качества исполнения (process rewards) и достижения конечной цели (outcome rewards). Кроме того, в опенсорс выложили CUAVerifierBench — датасет из 246 размеченных людьми траекторий для оценки верификаторов.
ПОЧЕМУ это важно: Надёжная верификация — главное узкое горлышко для масштабирования RLHF и циклов автономного обучения в агентном ИИ. Существующие эвалюаторы страдают от огромного количества ложноположительных срабатываний, часто слепо доверяя галлюцинациям агентов. Снижая долю ложноположительных ошибок почти до нуля и достигая уровня согласия между людьми-разметчиками, этот фреймворк даёт надёжный, гранулярный сигнал награды, необходимый для обучения следующего поколения веб- и десктопных агентов.
Для практиков: По мере того как модели переходят от ответов на вопросы к выполнению длинных задач за компьютером, оценка их реального успеха на практике оказывается обманчиво сложной. Модель может сделать всё правильно, но споткнуться о пейволл или окно логина, или наоборот — сгаллюцинировать успех, ничего по факту не сделав. Статья показывает, что для решения проблемы верификации нужна архитектурная строгость, а не просто более крупные базовые модели. Структурно отделяя процесс от результата и требуя тщательной визуальной привязки на каждом шагу, предложенная система снижает уровень ложноположительных оценок с более чем 30% до примерно 1%. Для ИИ-исследователей это сигнал к необходимому отказу от простой оценки конечного состояния в пользу модульных пайплайнов верификации, основанных на сборе доказательств.
Верифицировать здесь: https://t.me/gonzo_ML_podcasts/3204
The Art of Building Verifiers for Computer Use Agents
Corby Rosset, Pratyusha Sharma, Andrew Zhao, Miguel Gonzalez-Fernandez, Ahmed Awadallah
Статья: https://arxiv.org/abs/2604.06240v1
Код: https://github.com/microsoft/fara
Ревью: https://arxiviq.substack.com/p/the-art-of-building-verifiers-for
# TL;DR
ЧТО сделали: Авторы разработали Universal Verifier (UV) — многоэтапную систему для оценки траекторий агентов, использующих компьютер (Computer Use Agent, CUA). Они отошли от бинарных вердиктов через один промпт, внедрив специфичные для каждой задачи рубрикаторы, мультимодальную оценку релевантности по всем скриншотам траектории и явное разделение оценки качества исполнения (process rewards) и достижения конечной цели (outcome rewards). Кроме того, в опенсорс выложили CUAVerifierBench — датасет из 246 размеченных людьми траекторий для оценки верификаторов.
ПОЧЕМУ это важно: Надёжная верификация — главное узкое горлышко для масштабирования RLHF и циклов автономного обучения в агентном ИИ. Существующие эвалюаторы страдают от огромного количества ложноположительных срабатываний, часто слепо доверяя галлюцинациям агентов. Снижая долю ложноположительных ошибок почти до нуля и достигая уровня согласия между людьми-разметчиками, этот фреймворк даёт надёжный, гранулярный сигнал награды, необходимый для обучения следующего поколения веб- и десктопных агентов.
Для практиков: По мере того как модели переходят от ответов на вопросы к выполнению длинных задач за компьютером, оценка их реального успеха на практике оказывается обманчиво сложной. Модель может сделать всё правильно, но споткнуться о пейволл или окно логина, или наоборот — сгаллюцинировать успех, ничего по факту не сделав. Статья показывает, что для решения проблемы верификации нужна архитектурная строгость, а не просто более крупные базовые модели. Структурно отделяя процесс от результата и требуя тщательной визуальной привязки на каждом шагу, предложенная система снижает уровень ложноположительных оценок с более чем 30% до примерно 1%. Для ИИ-исследователей это сигнал к необходимому отказу от простой оценки конечного состояния в пользу модульных пайплайнов верификации, основанных на сборе доказательств.
Верифицировать здесь: https://t.me/gonzo_ML_podcasts/3204
arXiv.org
The Art of Building Verifiers for Computer Use Agents
Verifying the success of computer use agent (CUA) trajectories is a critical challenge: without reliable verification, neither evaluation nor training signal can be trusted. In this paper, we...
👍2😁2❤1
Про спектральную математику оптимизатора Мюон. На подумать.
Muon Dynamics as a Spectral Wasserstein Flow
Gabriel Peyré
Статья: https://arxiv.org/abs/2604.04891
Код: https://github.com/gpeyre/spectral-wasserstein
Ревью: https://arxiviq.substack.com/p/muon-dynamics-as-a-spectral-wasserstein
# TL;DR
ЧТО сделали: Автор представляет семейство «спектральных расстояний Вассерштейна», параметризованных матричной нормой на положительно полуопределённых матрицах. Обобщая оптимальный транспорт через штрафование глобальной ковариации смещений, статья доказывает, что непрерывный предел оптимизатора Muon (https://kellerjordan.github.io/posts/muon/) — это точный градиентный поток в операторной норме этой геометрии.
ПОЧЕМУ это важно: Работа переводит спектрально нормализованные апдейты из разряда эмпирических эвристик в строгие геометрические принципы непрерывного времени. Это даёт математический фундамент для анализа стабильности, координации частиц и потенциальной глобальной сходимости современных матричных оптимизаторов, которыми сейчас обучают LLM.
Для практиков: Пока это строгая математическая база. Если вы используете Muon для обучения, теперь вы знаете, что он не просто делает ортогональную проекцию, а оптимально двигает веса в специальном неевклидовом пространстве. Это открывает путь к созданию новых, математически обоснованных вариантов оптимизаторов для больших моделей.
Вкуривать тут (я ещё не): https://t.me/gonzo_ML_podcasts/3216
Muon Dynamics as a Spectral Wasserstein Flow
Gabriel Peyré
Статья: https://arxiv.org/abs/2604.04891
Код: https://github.com/gpeyre/spectral-wasserstein
Ревью: https://arxiviq.substack.com/p/muon-dynamics-as-a-spectral-wasserstein
# TL;DR
ЧТО сделали: Автор представляет семейство «спектральных расстояний Вассерштейна», параметризованных матричной нормой на положительно полуопределённых матрицах. Обобщая оптимальный транспорт через штрафование глобальной ковариации смещений, статья доказывает, что непрерывный предел оптимизатора Muon (https://kellerjordan.github.io/posts/muon/) — это точный градиентный поток в операторной норме этой геометрии.
ПОЧЕМУ это важно: Работа переводит спектрально нормализованные апдейты из разряда эмпирических эвристик в строгие геометрические принципы непрерывного времени. Это даёт математический фундамент для анализа стабильности, координации частиц и потенциальной глобальной сходимости современных матричных оптимизаторов, которыми сейчас обучают LLM.
Для практиков: Пока это строгая математическая база. Если вы используете Muon для обучения, теперь вы знаете, что он не просто делает ортогональную проекцию, а оптимально двигает веса в специальном неевклидовом пространстве. Это открывает путь к созданию новых, математически обоснованных вариантов оптимизаторов для больших моделей.
Вкуривать тут (я ещё не): https://t.me/gonzo_ML_podcasts/3216
arXiv.org
Muon Dynamics as a Spectral Wasserstein Flow
Gradient normalization is central in deep-learning optimization because it stabilizes training and reduces sensitivity to scale. For deep architectures, parameters are naturally grouped into...
🤯7👍5❤3🙏1