Модели продолжают подвозить и подвозить
https://z.ai/blog/glm-4.6v
Мультимодальные GLM-4.6V (106B) и GLM-4.6V-Flash (9B) с поддержкой тулов.
https://z.ai/blog/glm-4.6v
Мультимодальные GLM-4.6V (106B) и GLM-4.6V-Flash (9B) с поддержкой тулов.
1🔥6
Ещё одна работа про то, как агенты косячат. На этот раз исследовательские.
В целом работа из серии, когда целиком читать неинтересно, но саммари прочитать любопытно. Авторы придумали свою классификацию косяков агентов и выдумали несколько забористых терминов — Strategic Content Fabrication или Redundant Content Piling, например. Можно теперь оценивать агента по булшит-бинго чеклисту!
Дальше поразбираю какие-нибудь другие темы.
How Far Are We from Genuinely Useful Deep Research Agents?
Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
Paper: https://arxiv.org/abs/2512.01948
Code: https://github.com/OPPO-PersonalAI/FINDER_DEFT
Review: https://arxiviq.substack.com/p/how-far-are-we-from-genuinely-useful
# TL;DR
ЧТО сделали: Представили FINDER — детальный бенчмарк для Deep Research агентов (DRA), включающий 100 экспертных задач с 419 проверочными чек-листами, и DEFT — таксономию сбоев, построенную на методе обоснованной теории (Grounded Theory), которая классифицирует ошибки агентов по 14 различным режимам.
ПОЧЕМУ это важно: Текущие бенчмарки часто путают «умение болтать» с «исследовательской строгостью», позволяя моделям проскакивать за счёт генерации гладкого, но бессодержательного текста. Работа квантифицирует явление Strategic Content Fabrication (стратегическая фабрикация контента), когда агенты имитируют *форму* профессионального анализа (цитаты, академический тон), подделывая *содержание*. Это показывает, что узкое место агентов — не понимание задачи, а интеграция доказательств и устойчивость ризонинга (reasoning resilience).
Подробнее: https://t.me/gonzo_ML_podcasts/1621
В целом работа из серии, когда целиком читать неинтересно, но саммари прочитать любопытно. Авторы придумали свою классификацию косяков агентов и выдумали несколько забористых терминов — Strategic Content Fabrication или Redundant Content Piling, например. Можно теперь оценивать агента по булшит-бинго чеклисту!
Дальше поразбираю какие-нибудь другие темы.
How Far Are We from Genuinely Useful Deep Research Agents?
Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
Paper: https://arxiv.org/abs/2512.01948
Code: https://github.com/OPPO-PersonalAI/FINDER_DEFT
Review: https://arxiviq.substack.com/p/how-far-are-we-from-genuinely-useful
# TL;DR
ЧТО сделали: Представили FINDER — детальный бенчмарк для Deep Research агентов (DRA), включающий 100 экспертных задач с 419 проверочными чек-листами, и DEFT — таксономию сбоев, построенную на методе обоснованной теории (Grounded Theory), которая классифицирует ошибки агентов по 14 различным режимам.
ПОЧЕМУ это важно: Текущие бенчмарки часто путают «умение болтать» с «исследовательской строгостью», позволяя моделям проскакивать за счёт генерации гладкого, но бессодержательного текста. Работа квантифицирует явление Strategic Content Fabrication (стратегическая фабрикация контента), когда агенты имитируют *форму* профессионального анализа (цитаты, академический тон), подделывая *содержание*. Это показывает, что узкое место агентов — не понимание задачи, а интеграция доказательств и устойчивость ризонинга (reasoning resilience).
Подробнее: https://t.me/gonzo_ML_podcasts/1621
arXiv.org
How Far Are We from Genuinely Useful Deep Research Agents?
Deep Research Agents (DRAs) aim to automatically produce analyst-level reports through iterative information retrieval and synthesis. However, most existing DRAs were validated on...
👍12❤7😁4
В очередной раз программировал тут с агентом, надо было переписать MCP сервер с stdio-транспорта на Streamable HTTP -- в принципе типичный пример задачи, для которой человек не нужен. На этот раз в Курсоре с Sonnet 4.5/Composer 1.
Ну он зараза ушёл опять в недофиксинг -- один мелкий баг пофиксил, другой находится, и так десять раз. Меня это выбесило, говорю, достало уже так по микробагу фиксить, давай как нормальный инженер разберись, с тестами там, с логгированием где нужно, всё перепроверь, чтобы точно работало.
И сделал, зараза. Professional Verification Checklist себе создал, прошёлся, галочки везде проставил. Вот почему сразу нельзя было, чтобы как у Apple, когда по одной кнопке всё сразу работает?!
Ну он зараза ушёл опять в недофиксинг -- один мелкий баг пофиксил, другой находится, и так десять раз. Меня это выбесило, говорю, достало уже так по микробагу фиксить, давай как нормальный инженер разберись, с тестами там, с логгированием где нужно, всё перепроверь, чтобы точно работало.
И сделал, зараза. Professional Verification Checklist себе создал, прошёлся, галочки везде проставил. Вот почему сразу нельзя было, чтобы как у Apple, когда по одной кнопке всё сразу работает?!
😁68🤣25👍3🔥1
ARC Prize подтвердили новую SOTA Gemini 3 Pro Refinement technique от Poetiq
54% на ARC-AGI-2, $31/task
https://x.com/i/status/1997743855203148038
54% на ARC-AGI-2, $31/task
https://x.com/i/status/1997743855203148038
X (formerly Twitter)
ARC Prize (@arcprize) on X
We have verified a new SOTA Gemini 3 Pro Refinement technique, authored by Poetiq
54% on ARC-AGI-2, $31/task
54% on ARC-AGI-2, $31/task
👍12🔥3👀3
Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах? Главный вывод — хорошо быть GPU-rich.
On the Origin of Algorithmic Progress in AI
Hans Gundlach, Alex Fogelson, Jayson Lynch, Ana Trišović, Jonathan Rosenfeld, Anmol Sandhu, Neil Thompson
Статья: https://arxiv.org/abs/2511.21622
Код: https://github.com/hansgundlach/Experimental_Progress
Ревью: https://arxiviq.substack.com/p/on-the-origin-of-algorithmic-progress
# TL;DR
ЧТО сделали: Авторы деконструировали популярную оценку, согласно которой алгоритмическая эффективность в ИИ за 2012–2023 годы выросла в 22 000 раз. Через серию абляций современных трансформеров (отключая SwiGLU, RoPE и т.д.) и сравнение с LSTM исследователи выяснили, что львиная доля этого "прогресса" — вовсе не сумма множества мелких улучшений. На самом деле 91% экстраполированного прироста на фронтире (
ПОЧЕМУ это важно: Работа разрушает нарратив о том, что прогресс ИИ — это непрерывный поток алгоритмических улучшений, не зависящих от железа. Выясняется, что многие инновации дают ничтожный выигрыш на малых масштабах и начинают работать как мощные мультипликаторы только при огромных вычислительных бюджетах. Это значит, что алгоритмический прогресс — не константа, а функция от масштаба вычислений (
Подробнее: https://t.me/gonzo_ML_podcasts/1635
On the Origin of Algorithmic Progress in AI
Hans Gundlach, Alex Fogelson, Jayson Lynch, Ana Trišović, Jonathan Rosenfeld, Anmol Sandhu, Neil Thompson
Статья: https://arxiv.org/abs/2511.21622
Код: https://github.com/hansgundlach/Experimental_Progress
Ревью: https://arxiviq.substack.com/p/on-the-origin-of-algorithmic-progress
# TL;DR
ЧТО сделали: Авторы деконструировали популярную оценку, согласно которой алгоритмическая эффективность в ИИ за 2012–2023 годы выросла в 22 000 раз. Через серию абляций современных трансформеров (отключая SwiGLU, RoPE и т.д.) и сравнение с LSTM исследователи выяснили, что львиная доля этого "прогресса" — вовсе не сумма множества мелких улучшений. На самом деле 91% экстраполированного прироста на фронтире (
10^23 FLOPs) обеспечили два конкретных зависящих от масштаба (scale-dependent) сдвига: архитектурный переход от LSTM к трансформерам и смена законов масштабирования с Kaplan на Chinchilla.ПОЧЕМУ это важно: Работа разрушает нарратив о том, что прогресс ИИ — это непрерывный поток алгоритмических улучшений, не зависящих от железа. Выясняется, что многие инновации дают ничтожный выигрыш на малых масштабах и начинают работать как мощные мультипликаторы только при огромных вычислительных бюджетах. Это значит, что алгоритмический прогресс — не константа, а функция от масштаба вычислений (
scale), и будущий рост эффективности намертво привязан к способности дальше наращивать железо.Подробнее: https://t.me/gonzo_ML_podcasts/1635
arXiv.org
On the Origin of Algorithmic Progress in AI
Algorithms have been estimated to increase AI training FLOP efficiency by a factor of 22,000 between 2012 and 2023 [Ho et al., 2024]. Running small-scale ablation experiments on key innovations...
😢12👍7🔥1💯1
Для тех, кому нравилась тема про Lottery Ticket Hypothesis (https://t.me/gonzo_ML/21). Взяли кучу моделей одинаковой архитектуры, полные или LoRA, и нашли через SVD небольшое подмножество универсальных весов, которые хорошо работают для всего.
The Universal Weight Subspace Hypothesis
Prakhar Kaushik, Shravan Chaudhari, Ankit Vaidya, Rama Chellappa, Alan Yuille
Статья: https://arxiv.org/abs/2512.05117
Код: https://toshi2k2.github.io/unisub/
Ревью: https://arxiviq.substack.com/p/the-universal-weight-subspace-hypothesis
# TL;DR
ЧТО сделали: Авторы проанализировали более 1100 глубоких нейросетей — от Vision Transformers до LoRA-адаптеров для LLaMA-3 и Mistral. Они показали, что модели, обученные на совершенно разных задачах, сходятся к общему низкоразмерному подпространству параметров. Применив спектральное разложение к агрегированным весам этих моделей, исследователи выделили «универсальный» набор базисных векторов, который объясняет большую часть дисперсии. Это позволяет обучаться под новые задачи, оптимизируя лишь скалярные коэффициенты, а не полные матрицы весов.
ПОЧЕМУ это важно: Результаты говорят о том, что огромная часть параметров в моделях после файнтюнинга избыточна. Это даёт геометрическое объяснение успеху методов PEFT (Parameter-Efficient Fine-Tuning), открывает возможность для экстремального сжатия моделей (до 100 раз по памяти) и мгновенного слияния моделей через простую арифметику без сложного дообучения или эвристического прунинга.
Подробнее: https://t.me/gonzo_ML_podcasts/1644
The Universal Weight Subspace Hypothesis
Prakhar Kaushik, Shravan Chaudhari, Ankit Vaidya, Rama Chellappa, Alan Yuille
Статья: https://arxiv.org/abs/2512.05117
Код: https://toshi2k2.github.io/unisub/
Ревью: https://arxiviq.substack.com/p/the-universal-weight-subspace-hypothesis
# TL;DR
ЧТО сделали: Авторы проанализировали более 1100 глубоких нейросетей — от Vision Transformers до LoRA-адаптеров для LLaMA-3 и Mistral. Они показали, что модели, обученные на совершенно разных задачах, сходятся к общему низкоразмерному подпространству параметров. Применив спектральное разложение к агрегированным весам этих моделей, исследователи выделили «универсальный» набор базисных векторов, который объясняет большую часть дисперсии. Это позволяет обучаться под новые задачи, оптимизируя лишь скалярные коэффициенты, а не полные матрицы весов.
ПОЧЕМУ это важно: Результаты говорят о том, что огромная часть параметров в моделях после файнтюнинга избыточна. Это даёт геометрическое объяснение успеху методов PEFT (Parameter-Efficient Fine-Tuning), открывает возможность для экстремального сжатия моделей (до 100 раз по памяти) и мгновенного слияния моделей через простую арифметику без сложного дообучения или эвристического прунинга.
Подробнее: https://t.me/gonzo_ML_podcasts/1644
Telegram
gonzo-обзоры ML статей
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
Jonathan Frankle, Michael Carbin
CSAIL MIT
Статья: https://arxiv.org/abs/1803.03635
#CNN, #FFNN, #optimization, #pruning, #ICLR 2019
Статья немного про природу вещей. Рассматривают…
Jonathan Frankle, Michael Carbin
CSAIL MIT
Статья: https://arxiv.org/abs/1803.03635
#CNN, #FFNN, #optimization, #pruning, #ICLR 2019
Статья немного про природу вещей. Рассматривают…
1👍39❤3🙈2🔥1
Недавно Гугл выпускал блог пост про SIMA 2, а теперь наконец вышла статья.
SIMA 2: A Generalist Embodied Agent for Virtual Worlds
SIMA Team, Google DeepMind
Paper: https://arxiv.org/abs/2512.04797
Review: https://arxiviq.substack.com/p/sima-2-a-generalist-embodied-agent
# TL;DR
ЧТО сделали: Представили SIMA 2 — универсальную Vision-Language-Action (VLA) модель, созданную через файнтюнинг Gemini Flash-Lite. В отличие от первой версии (https://t.me/gonzo_ML/2466), которая просто переводила инструкции в нажатия клавиш, SIMA 2 интегрирует внутренний процесс рассуждения (chain-of-thought). Это позволяет ей справляться с неоднозначными инструкциями, вести диалог и выполнять сложные многошаговые задачи в различных 3D-средах.
ПОЧЕМУ это важно: Работа демонстрирует успешный рецепт создания "foundation agents", которые не страдают от катастрофического забывания: SIMA 2 сохраняет математические и рассуждающие способности базовой Gemini, при этом достигая человеческого уровня в видеоиграх. Кроме того, предложен масштабируемый механизм open-ended self-improvement, где LLM выступают и постановщиками задач, и моделями вознаграждения, позволяя агенту учиться в новых средах без доступа к программным API игры.
Подробнее: https://t.me/gonzo_ML_podcasts/1656
SIMA 2: A Generalist Embodied Agent for Virtual Worlds
SIMA Team, Google DeepMind
Paper: https://arxiv.org/abs/2512.04797
Review: https://arxiviq.substack.com/p/sima-2-a-generalist-embodied-agent
# TL;DR
ЧТО сделали: Представили SIMA 2 — универсальную Vision-Language-Action (VLA) модель, созданную через файнтюнинг Gemini Flash-Lite. В отличие от первой версии (https://t.me/gonzo_ML/2466), которая просто переводила инструкции в нажатия клавиш, SIMA 2 интегрирует внутренний процесс рассуждения (chain-of-thought). Это позволяет ей справляться с неоднозначными инструкциями, вести диалог и выполнять сложные многошаговые задачи в различных 3D-средах.
ПОЧЕМУ это важно: Работа демонстрирует успешный рецепт создания "foundation agents", которые не страдают от катастрофического забывания: SIMA 2 сохраняет математические и рассуждающие способности базовой Gemini, при этом достигая человеческого уровня в видеоиграх. Кроме того, предложен масштабируемый механизм open-ended self-improvement, где LLM выступают и постановщиками задач, и моделями вознаграждения, позволяя агенту учиться в новых средах без доступа к программным API игры.
Подробнее: https://t.me/gonzo_ML_podcasts/1656
arXiv.org
SIMA 2: A Generalist Embodied Agent for Virtual Worlds
We introduce SIMA 2, a generalist embodied agent that understands and acts in a wide variety of 3D virtual worlds. Built upon a Gemini foundation model, SIMA 2 represents a significant step toward...
🔥8❤1
Меня периодически спрашивают, как я генерю комиксы. Выношу из комментов, ибо многие могли пропустить.
Примерно так:
https://gonzoml.substack.com/p/visualizing-research-how-i-use-gemini
Примерно так:
https://gonzoml.substack.com/p/visualizing-research-how-i-use-gemini
Substack
Visualizing Research: How I Use Gemini 3.0 to Turn Papers into Comics
Lately, I’ve been actively experimenting with the new Gemini 3.0, and I like it.
1👍31🔥14❤8😐1
Walrus: A Cross-domain Foundation Model for Continuum Dynamics
Michael McCabe, Payel Mukhopadhyay, Tanya Marwah, Bruno Regaldo-Saint Blancard, Francois Rozet, Cristiana Diaconu, Lucas Meyer, Kaze W. K. Wong, Hadi Sotoudeh, Alberto Bietti, Irina Espejo, Rio Fear, Siavash Golkar, Tom Hehir, Keiya Hirashima, Geraud Krawezik, Francois Lanusse, Rudy Morel, Ruben Ohana, Liam Parker, Mariel Pettee, Jeff Shen, Kyunghyun Cho, Miles Cranmer, Shirley Ho
Статья: https://arxiv.org/abs/2511.15684
Ревью: https://arxiviq.substack.com/p/walrus-a-cross-domain-foundation
Код: https://github.com/PolymathicAI/walrus
Модель: https://huggingface.co/polymathic-ai/walrus
# TL;DR
ЧТО сделали: Представили Walrus — фундаментальную модель на базе трансформера (1.3B параметров) для симуляции физических полей. Модель предобучена на 19 разнообразных сценариях (от астрофизики до неньютоновских жидкостей). Главная фишка: данные 2D трактуются как срезы в 3D-пространстве эмбеддингов, а для стабильности длинных прогнозов используется новая техника джиттеринга.
ПОЧЕМУ это важно: Существующие суррогатные модели (вроде FNO или GraphCast) обычно зажаты в рамки конкретной геометрии, что мешает им масштабироваться так же эффективно, как LLM. Walrus показывает, что унификация 2D и 3D режимов и решение проблемы артефактов сетки позволяют одной модели обобщаться на совершенно разные физические режимы, побеждая узкоспециализированные бейзлайны по точности и стабильности.
Подробнее: https://t.me/gonzo_ML_podcasts/1670
Другая недавняя идейно близкая работа: Towards a Physics Foundation Model (https://t.me/gonzo_ML_podcasts/1055)
Michael McCabe, Payel Mukhopadhyay, Tanya Marwah, Bruno Regaldo-Saint Blancard, Francois Rozet, Cristiana Diaconu, Lucas Meyer, Kaze W. K. Wong, Hadi Sotoudeh, Alberto Bietti, Irina Espejo, Rio Fear, Siavash Golkar, Tom Hehir, Keiya Hirashima, Geraud Krawezik, Francois Lanusse, Rudy Morel, Ruben Ohana, Liam Parker, Mariel Pettee, Jeff Shen, Kyunghyun Cho, Miles Cranmer, Shirley Ho
Статья: https://arxiv.org/abs/2511.15684
Ревью: https://arxiviq.substack.com/p/walrus-a-cross-domain-foundation
Код: https://github.com/PolymathicAI/walrus
Модель: https://huggingface.co/polymathic-ai/walrus
# TL;DR
ЧТО сделали: Представили Walrus — фундаментальную модель на базе трансформера (1.3B параметров) для симуляции физических полей. Модель предобучена на 19 разнообразных сценариях (от астрофизики до неньютоновских жидкостей). Главная фишка: данные 2D трактуются как срезы в 3D-пространстве эмбеддингов, а для стабильности длинных прогнозов используется новая техника джиттеринга.
ПОЧЕМУ это важно: Существующие суррогатные модели (вроде FNO или GraphCast) обычно зажаты в рамки конкретной геометрии, что мешает им масштабироваться так же эффективно, как LLM. Walrus показывает, что унификация 2D и 3D режимов и решение проблемы артефактов сетки позволяют одной модели обобщаться на совершенно разные физические режимы, побеждая узкоспециализированные бейзлайны по точности и стабильности.
Подробнее: https://t.me/gonzo_ML_podcasts/1670
Другая недавняя идейно близкая работа: Towards a Physics Foundation Model (https://t.me/gonzo_ML_podcasts/1055)
arXiv.org
Walrus: A Cross-Domain Foundation Model for Continuum Dynamics
Foundation models have transformed machine learning for language and vision, but achieving comparable impact in physical simulation remains a challenge. Data heterogeneity and unstable long-term...
👌4👍3🔥2