gonzo-обзоры ML статей
24.1K subscribers
2.81K photos
2 videos
3 files
1.39K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
6
Важная тема на живом примере. Переход от прототипа к продакшн-агенту нетривиален. Имхо это вообще одна из самих больших проблем области в моменте.

Традиционный инжиниринг привык работать в терминах надёжности и часто оперирует уровнями нескольких девяток — три девятки (99.9%, 8.7 часов даунтайма в год) это минимальный стандарт, пять девяток (99.999%, 5 минут даунтайма) — стандарт для критических сервисов, некоторые экзотические вещи требуют и обеспечивают ещё более высокие стандарты (есть мифический легендарный Эриксоновский свитч AXD301 с софтом на Эрланге, обеспечивающий 9 девяток, 32 миллисекунды даунтайма в год). *Здесь конечно отдельный вопрос, что именно считается, я тоже довольно вольно с этим обошёлся, смешав надёжность и доступность, но суть тезиса это не меняет.

Так вот, в агентах в среднем надёжность не дотягивает и до одной девятки. Я бы сказал, что мы там на уровне семёрок или даже шестёрок. В сочетании с оверселлингом от некоторых игроков это особенно бросается в глаза.

Побывав в этом году на каком-то заметном числе конференций, я хочу сказать, что процент фейлов агентских демонстраций запредельно высок, даже на уровне кейноутов. То агент войдёт в цикл смерти, не способный решить проблему перед ним; то сделает не то, что от него хотят; то просто упадёт вместе с сервером и запятисотит; ну и так далее. По ощущениям, фейлов не менее 30%. Конечно есть отдельные ниши, где всё детерминировано и хорошо, но такое счастье далеко не везде.

Нам эту пропасть ещё преодолевать.

A Practical Guide for Designing, Developing, and Deploying Production-Grade Agentic AI Workflows

Eranga Bandara, Ross Gore, Peter Foytik, Sachin Shetty, Ravi Mukkamala, Abdul Rahman, Xueping Liang, Safdar H. Bouka, Amin Hass, Sachini Rajapakse, Ng Wee Keong, Kasun De Zoysae, Aruna Withanage, Nilaan Loganathan
Статья: https://arxiv.org/abs/2512.08769
Код: https://gitlab.com/rahasak-labs/podcast-workflow
Ревью: https://arxiviq.substack.com/p/a-practical-guide-for-designing-developing

# TL;DR

ЧТО сделали:
Авторы представили комплексный инженерный фреймворк для переноса агентных систем из экспериментальных ноутбуков в полноценные продакшен-среды на базе Kubernetes. На примере пайплайна «Новости в подкаст» они сформулировали девять паттернов проектирования (например, «Чистые функции вместо вызовов инструментов» и «Рассуждение через консорциум»), призванных нивелировать врождённый недетерминизм LLM.

ПОЧЕМУ это важно:
Пока индустрия пытается перейти от простых промптов к многошаговым агентным цепочкам, надёжность становится главным бутылочным горлышком. Эта статья даёт необходимый чертёж для AgentOps, показывая, как отделить рассуждения от исполнения и доказывая, что строгие принципы программной инженерии (вроде Single Responsibility Principle) становятся ещё важнее, когда наш вычислительный движок носит вероятностный характер.

Подробнее: https://t.me/gonzo_ML_podcasts/1811
3👍144🔥2
😱5👌4🌚3
Монстрический Tri Dao (соавтор Мамбы) и его группа снова делает хардкорные инженерные вещи, теперь про MoE.

SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao
Статья: https://arxiv.org/abs/2512.14080
Код: https://github.com/Dao-AILab/sonic-moe
Ревью: https://arxiviq.substack.com/p/sonicmoe-accelerating-moe-with-io

# TL;DR

ЧТО сделали: Представили SonicMoE — фреймворк для обучения, заточенный под современные "мелкозернистые" (fine-grained) MoE-модели с большим числом экспертов и малой размерностью. Авторы предложили memory-efficient алгоритм обратного прохода, набор ядер под NVIDIA Hopper с перекрытием вычислений и IO, а также стратегию роутинга "Token Rounding", устраняющую накладные расходы на паддинг.

ПОЧЕМУ это важно: Индустрия (DeepSeek-V3, Qwen3) движется к мелкозернистым MoE ради качества (quality per FLOP). Но такая архитектура упирается в пропускную способность памяти (memory wall) и страдает от неэффективных вычислений из-за невыровненных тайлов GEMM. SonicMoE решает эти проблемы, выдавая ускорение 1.86x на H100 по сравнению с SOTA-бейзлайнами вроде ScatterMoE (https://arxiv.org/abs/2403.08245) и снижая потребление памяти активациями на 45%.

Подробнее: https://t.me/gonzo_ML_podcasts/1821
1🔥136
1🔥8😁7🤯3
Интересно как...

Today, Groq announced that it has entered into a non-exclusive licensing agreement with Nvidia for Groq’s inference technology. The agreement reflects a shared focus on expanding access to high-performance, low cost inference.

As part of this agreement, Jonathan Ross, Groq’s Founder, Sunny Madra, Groq’s President, and other members of the Groq team will join Nvidia to help advance and scale the licensed technology.

Groq will continue to operate as an independent company with Simon Edwards stepping into the role of Chief Executive Officer.

https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale

Вот бы ещё Гугл начал TPU продавать, вообще бы весело стало.
🤔43
Невидимая рука рынка для AGI: Безопасность через экономику

Distributional AGI Safety
Nenad Tomašev, Matija Franklin, Julian Jacobs, Sébastien Krier, Simon Osindero
Статья: https://arxiv.org/abs/2512.16856
Ревью: https://arxiviq.substack.com/p/distributional-agi-safety

# TL;DR

ЧТО сделали:
Авторы предлагают фреймворк "Distributional AGI Safety", смещающий фокус с выравнивания (alignment) отдельных моделей на управление взаимодействиями в мультиагентных системах. Вводится концепция Virtual Agentic Sandbox Economy (Виртуальная агентная песочница-экономика) — архитектура глубокоэшелонированной защиты. Безопасность здесь обеспечивается рыночными механизмами (налоги на транзакции, криптографически подтверждённая идентичность, автоматические предохранители), а не только надеждой на "правильные" веса внутри одной нейросети.

ПОЧЕМУ это важно:
Текущие парадигмы безопасности в основном готовятся к появлению монолитного AGI (одной гигантской модели). Эта работа аргументирует в пользу гипотезы "Patchwork AGI" (Лоскутный AGI): общий интеллект возникает из сети специализированных агентов, каждый из которых по отдельности не является AGI. Это меняет правила игры: стандартные методы вроде RLHF не могут предотвратить эмерджентные коллективные патологии — например, неявный сговор или биржевые крахи (flash crashes). Безопасность AGI становится задачей экономического дизайна и системного управления, а не просто психологией одиночного сверхразума.

Подробнее: https://t.me/gonzo_ML_podcasts/1833
👍105