gonzo-обзоры ML статей
24.1K subscribers
2.81K photos
2 videos
3 files
1.39K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
🔥15🥴6😁4
Модели продолжают подвозить и подвозить

https://z.ai/blog/glm-4.6v

Мультимодальные GLM-4.6V (106B) и GLM-4.6V-Flash (9B) с поддержкой тулов.
1🔥6
Ещё одна работа про то, как агенты косячат. На этот раз исследовательские.

В целом работа из серии, когда целиком читать неинтересно, но саммари прочитать любопытно. Авторы придумали свою классификацию косяков агентов и выдумали несколько забористых терминов — Strategic Content Fabrication или Redundant Content Piling, например. Можно теперь оценивать агента по булшит-бинго чеклисту!

Дальше поразбираю какие-нибудь другие темы.

How Far Are We from Genuinely Useful Deep Research Agents?
Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
Paper: https://arxiv.org/abs/2512.01948
Code: https://github.com/OPPO-PersonalAI/FINDER_DEFT
Review: https://arxiviq.substack.com/p/how-far-are-we-from-genuinely-useful

# TL;DR

ЧТО сделали: Представили FINDER — детальный бенчмарк для Deep Research агентов (DRA), включающий 100 экспертных задач с 419 проверочными чек-листами, и DEFT — таксономию сбоев, построенную на методе обоснованной теории (Grounded Theory), которая классифицирует ошибки агентов по 14 различным режимам.

ПОЧЕМУ это важно: Текущие бенчмарки часто путают «умение болтать» с «исследовательской строгостью», позволяя моделям проскакивать за счёт генерации гладкого, но бессодержательного текста. Работа квантифицирует явление Strategic Content Fabrication (стратегическая фабрикация контента), когда агенты имитируют *форму* профессионального анализа (цитаты, академический тон), подделывая *содержание*. Это показывает, что узкое место агентов — не понимание задачи, а интеграция доказательств и устойчивость ризонинга (reasoning resilience).

Подробнее: https://t.me/gonzo_ML_podcasts/1621
👍127😁4
6🔥32👍7👻7😁6😈31
В очередной раз программировал тут с агентом, надо было переписать MCP сервер с stdio-транспорта на Streamable HTTP -- в принципе типичный пример задачи, для которой человек не нужен. На этот раз в Курсоре с Sonnet 4.5/Composer 1.

Ну он зараза ушёл опять в недофиксинг -- один мелкий баг пофиксил, другой находится, и так десять раз. Меня это выбесило, говорю, достало уже так по микробагу фиксить, давай как нормальный инженер разберись, с тестами там, с логгированием где нужно, всё перепроверь, чтобы точно работало.

И сделал, зараза. Professional Verification Checklist себе создал, прошёлся, галочки везде проставил. Вот почему сразу нельзя было, чтобы как у Apple, когда по одной кнопке всё сразу работает?!
😁68🤣25👍3🔥1
Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах? Главный вывод — хорошо быть GPU-rich.

On the Origin of Algorithmic Progress in AI
Hans Gundlach, Alex Fogelson, Jayson Lynch, Ana Trišović, Jonathan Rosenfeld, Anmol Sandhu, Neil Thompson
Статья: https://arxiv.org/abs/2511.21622
Код: https://github.com/hansgundlach/Experimental_Progress
Ревью: https://arxiviq.substack.com/p/on-the-origin-of-algorithmic-progress

# TL;DR

ЧТО сделали: Авторы деконструировали популярную оценку, согласно которой алгоритмическая эффективность в ИИ за 2012–2023 годы выросла в 22 000 раз. Через серию абляций современных трансформеров (отключая SwiGLU, RoPE и т.д.) и сравнение с LSTM исследователи выяснили, что львиная доля этого "прогресса" — вовсе не сумма множества мелких улучшений. На самом деле 91% экстраполированного прироста на фронтире (10^23 FLOPs) обеспечили два конкретных зависящих от масштаба (scale-dependent) сдвига: архитектурный переход от LSTM к трансформерам и смена законов масштабирования с Kaplan на Chinchilla.

ПОЧЕМУ это важно: Работа разрушает нарратив о том, что прогресс ИИ — это непрерывный поток алгоритмических улучшений, не зависящих от железа. Выясняется, что многие инновации дают ничтожный выигрыш на малых масштабах и начинают работать как мощные мультипликаторы только при огромных вычислительных бюджетах. Это значит, что алгоритмический прогресс — не константа, а функция от масштаба вычислений (scale), и будущий рост эффективности намертво привязан к способности дальше наращивать железо.

Подробнее: https://t.me/gonzo_ML_podcasts/1635
😢12👍7🔥1💯1
😢16👍12🔥6😁6🤔1
Для тех, кому нравилась тема про Lottery Ticket Hypothesis (https://t.me/gonzo_ML/21). Взяли кучу моделей одинаковой архитектуры, полные или LoRA, и нашли через SVD небольшое подмножество универсальных весов, которые хорошо работают для всего.

The Universal Weight Subspace Hypothesis
Prakhar Kaushik, Shravan Chaudhari, Ankit Vaidya, Rama Chellappa, Alan Yuille
Статья: https://arxiv.org/abs/2512.05117
Код: https://toshi2k2.github.io/unisub/
Ревью: https://arxiviq.substack.com/p/the-universal-weight-subspace-hypothesis

# TL;DR

ЧТО сделали: Авторы проанализировали более 1100 глубоких нейросетей — от Vision Transformers до LoRA-адаптеров для LLaMA-3 и Mistral. Они показали, что модели, обученные на совершенно разных задачах, сходятся к общему низкоразмерному подпространству параметров. Применив спектральное разложение к агрегированным весам этих моделей, исследователи выделили «универсальный» набор базисных векторов, который объясняет большую часть дисперсии. Это позволяет обучаться под новые задачи, оптимизируя лишь скалярные коэффициенты, а не полные матрицы весов.

ПОЧЕМУ это важно: Результаты говорят о том, что огромная часть параметров в моделях после файнтюнинга избыточна. Это даёт геометрическое объяснение успеху методов PEFT (Parameter-Efficient Fine-Tuning), открывает возможность для экстремального сжатия моделей (до 100 раз по памяти) и мгновенного слияния моделей через простую арифметику без сложного дообучения или эвристического прунинга.

Подробнее: https://t.me/gonzo_ML_podcasts/1644
1👍393🙈2🔥1
🔥27🤔3👏1
Недавно Гугл выпускал блог пост про SIMA 2, а теперь наконец вышла статья.

SIMA 2: A Generalist Embodied Agent for Virtual Worlds
SIMA Team, Google DeepMind
Paper: https://arxiv.org/abs/2512.04797
Review: https://arxiviq.substack.com/p/sima-2-a-generalist-embodied-agent

# TL;DR

ЧТО сделали: Представили SIMA 2 — универсальную Vision-Language-Action (VLA) модель, созданную через файнтюнинг Gemini Flash-Lite. В отличие от первой версии (https://t.me/gonzo_ML/2466), которая просто переводила инструкции в нажатия клавиш, SIMA 2 интегрирует внутренний процесс рассуждения (chain-of-thought). Это позволяет ей справляться с неоднозначными инструкциями, вести диалог и выполнять сложные многошаговые задачи в различных 3D-средах.

ПОЧЕМУ это важно: Работа демонстрирует успешный рецепт создания "foundation agents", которые не страдают от катастрофического забывания: SIMA 2 сохраняет математические и рассуждающие способности базовой Gemini, при этом достигая человеческого уровня в видеоиграх. Кроме того, предложен масштабируемый механизм open-ended self-improvement, где LLM выступают и постановщиками задач, и моделями вознаграждения, позволяя агенту учиться в новых средах без доступа к программным API игры.

Подробнее: https://t.me/gonzo_ML_podcasts/1656
🔥81
1😁28👍5👎1👌1
Меня периодически спрашивают, как я генерю комиксы. Выношу из комментов, ибо многие могли пропустить.

Примерно так:

https://gonzoml.substack.com/p/visualizing-research-how-i-use-gemini
1👍31🔥148😐1
Walrus: A Cross-domain Foundation Model for Continuum Dynamics
Michael McCabe, Payel Mukhopadhyay, Tanya Marwah, Bruno Regaldo-Saint Blancard, Francois Rozet, Cristiana Diaconu, Lucas Meyer, Kaze W. K. Wong, Hadi Sotoudeh, Alberto Bietti, Irina Espejo, Rio Fear, Siavash Golkar, Tom Hehir, Keiya Hirashima, Geraud Krawezik, Francois Lanusse, Rudy Morel, Ruben Ohana, Liam Parker, Mariel Pettee, Jeff Shen, Kyunghyun Cho, Miles Cranmer, Shirley Ho
Статья: https://arxiv.org/abs/2511.15684
Ревью: https://arxiviq.substack.com/p/walrus-a-cross-domain-foundation
Код: https://github.com/PolymathicAI/walrus
Модель: https://huggingface.co/polymathic-ai/walrus

# TL;DR

ЧТО сделали: Представили Walrus — фундаментальную модель на базе трансформера (1.3B параметров) для симуляции физических полей. Модель предобучена на 19 разнообразных сценариях (от астрофизики до неньютоновских жидкостей). Главная фишка: данные 2D трактуются как срезы в 3D-пространстве эмбеддингов, а для стабильности длинных прогнозов используется новая техника джиттеринга.

ПОЧЕМУ это важно: Существующие суррогатные модели (вроде FNO или GraphCast) обычно зажаты в рамки конкретной геометрии, что мешает им масштабироваться так же эффективно, как LLM. Walrus показывает, что унификация 2D и 3D режимов и решение проблемы артефактов сетки позволяют одной модели обобщаться на совершенно разные физические режимы, побеждая узкоспециализированные бейзлайны по точности и стабильности.

Подробнее: https://t.me/gonzo_ML_podcasts/1670

Другая недавняя идейно близкая работа: Towards a Physics Foundation Model (https://t.me/gonzo_ML_podcasts/1055)
👌4👍3🔥2