Важная тема на живом примере. Переход от прототипа к продакшн-агенту нетривиален. Имхо это вообще одна из самих больших проблем области в моменте.
Традиционный инжиниринг привык работать в терминах надёжности и часто оперирует уровнями нескольких девяток — три девятки (99.9%, 8.7 часов даунтайма в год) это минимальный стандарт, пять девяток (99.999%, 5 минут даунтайма) — стандарт для критических сервисов, некоторые экзотические вещи требуют и обеспечивают ещё более высокие стандарты (есть мифический легендарный Эриксоновский свитч AXD301 с софтом на Эрланге, обеспечивающий 9 девяток, 32 миллисекунды даунтайма в год). *Здесь конечно отдельный вопрос, что именно считается, я тоже довольно вольно с этим обошёлся, смешав надёжность и доступность, но суть тезиса это не меняет.
Так вот, в агентах в среднем надёжность не дотягивает и до одной девятки. Я бы сказал, что мы там на уровне семёрок или даже шестёрок. В сочетании с оверселлингом от некоторых игроков это особенно бросается в глаза.
Побывав в этом году на каком-то заметном числе конференций, я хочу сказать, что процент фейлов агентских демонстраций запредельно высок, даже на уровне кейноутов. То агент войдёт в цикл смерти, не способный решить проблему перед ним; то сделает не то, что от него хотят; то просто упадёт вместе с сервером и запятисотит; ну и так далее. По ощущениям, фейлов не менее 30%. Конечно есть отдельные ниши, где всё детерминировано и хорошо, но такое счастье далеко не везде.
Нам эту пропасть ещё преодолевать.
A Practical Guide for Designing, Developing, and Deploying Production-Grade Agentic AI Workflows
Eranga Bandara, Ross Gore, Peter Foytik, Sachin Shetty, Ravi Mukkamala, Abdul Rahman, Xueping Liang, Safdar H. Bouka, Amin Hass, Sachini Rajapakse, Ng Wee Keong, Kasun De Zoysae, Aruna Withanage, Nilaan Loganathan
Статья: https://arxiv.org/abs/2512.08769
Код: https://gitlab.com/rahasak-labs/podcast-workflow
Ревью: https://arxiviq.substack.com/p/a-practical-guide-for-designing-developing
# TL;DR
ЧТО сделали:
Авторы представили комплексный инженерный фреймворк для переноса агентных систем из экспериментальных ноутбуков в полноценные продакшен-среды на базе Kubernetes. На примере пайплайна «Новости в подкаст» они сформулировали девять паттернов проектирования (например, «Чистые функции вместо вызовов инструментов» и «Рассуждение через консорциум»), призванных нивелировать врождённый недетерминизм LLM.
ПОЧЕМУ это важно:
Пока индустрия пытается перейти от простых промптов к многошаговым агентным цепочкам, надёжность становится главным бутылочным горлышком. Эта статья даёт необходимый чертёж для AgentOps, показывая, как отделить рассуждения от исполнения и доказывая, что строгие принципы программной инженерии (вроде Single Responsibility Principle) становятся ещё важнее, когда наш вычислительный движок носит вероятностный характер.
Подробнее: https://t.me/gonzo_ML_podcasts/1811
Традиционный инжиниринг привык работать в терминах надёжности и часто оперирует уровнями нескольких девяток — три девятки (99.9%, 8.7 часов даунтайма в год) это минимальный стандарт, пять девяток (99.999%, 5 минут даунтайма) — стандарт для критических сервисов, некоторые экзотические вещи требуют и обеспечивают ещё более высокие стандарты (есть мифический легендарный Эриксоновский свитч AXD301 с софтом на Эрланге, обеспечивающий 9 девяток, 32 миллисекунды даунтайма в год). *Здесь конечно отдельный вопрос, что именно считается, я тоже довольно вольно с этим обошёлся, смешав надёжность и доступность, но суть тезиса это не меняет.
Так вот, в агентах в среднем надёжность не дотягивает и до одной девятки. Я бы сказал, что мы там на уровне семёрок или даже шестёрок. В сочетании с оверселлингом от некоторых игроков это особенно бросается в глаза.
Побывав в этом году на каком-то заметном числе конференций, я хочу сказать, что процент фейлов агентских демонстраций запредельно высок, даже на уровне кейноутов. То агент войдёт в цикл смерти, не способный решить проблему перед ним; то сделает не то, что от него хотят; то просто упадёт вместе с сервером и запятисотит; ну и так далее. По ощущениям, фейлов не менее 30%. Конечно есть отдельные ниши, где всё детерминировано и хорошо, но такое счастье далеко не везде.
Нам эту пропасть ещё преодолевать.
A Practical Guide for Designing, Developing, and Deploying Production-Grade Agentic AI Workflows
Eranga Bandara, Ross Gore, Peter Foytik, Sachin Shetty, Ravi Mukkamala, Abdul Rahman, Xueping Liang, Safdar H. Bouka, Amin Hass, Sachini Rajapakse, Ng Wee Keong, Kasun De Zoysae, Aruna Withanage, Nilaan Loganathan
Статья: https://arxiv.org/abs/2512.08769
Код: https://gitlab.com/rahasak-labs/podcast-workflow
Ревью: https://arxiviq.substack.com/p/a-practical-guide-for-designing-developing
# TL;DR
ЧТО сделали:
Авторы представили комплексный инженерный фреймворк для переноса агентных систем из экспериментальных ноутбуков в полноценные продакшен-среды на базе Kubernetes. На примере пайплайна «Новости в подкаст» они сформулировали девять паттернов проектирования (например, «Чистые функции вместо вызовов инструментов» и «Рассуждение через консорциум»), призванных нивелировать врождённый недетерминизм LLM.
ПОЧЕМУ это важно:
Пока индустрия пытается перейти от простых промптов к многошаговым агентным цепочкам, надёжность становится главным бутылочным горлышком. Эта статья даёт необходимый чертёж для AgentOps, показывая, как отделить рассуждения от исполнения и доказывая, что строгие принципы программной инженерии (вроде Single Responsibility Principle) становятся ещё важнее, когда наш вычислительный движок носит вероятностный характер.
Подробнее: https://t.me/gonzo_ML_podcasts/1811
arXiv.org
A Practical Guide for Designing, Developing, and Deploying...
Agentic AI marks a major shift in how autonomous systems reason, plan, and execute multi-step tasks. Unlike traditional single model prompting, agentic workflows integrate multiple specialized...
3👍14❤4🔥2
Монстрический Tri Dao (соавтор Мамбы) и его группа снова делает хардкорные инженерные вещи, теперь про MoE.
SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao
Статья: https://arxiv.org/abs/2512.14080
Код: https://github.com/Dao-AILab/sonic-moe
Ревью: https://arxiviq.substack.com/p/sonicmoe-accelerating-moe-with-io
# TL;DR
ЧТО сделали: Представили SonicMoE — фреймворк для обучения, заточенный под современные "мелкозернистые" (fine-grained) MoE-модели с большим числом экспертов и малой размерностью. Авторы предложили memory-efficient алгоритм обратного прохода, набор ядер под NVIDIA Hopper с перекрытием вычислений и IO, а также стратегию роутинга "Token Rounding", устраняющую накладные расходы на паддинг.
ПОЧЕМУ это важно: Индустрия (DeepSeek-V3, Qwen3) движется к мелкозернистым MoE ради качества (quality per FLOP). Но такая архитектура упирается в пропускную способность памяти (memory wall) и страдает от неэффективных вычислений из-за невыровненных тайлов GEMM. SonicMoE решает эти проблемы, выдавая ускорение 1.86x на H100 по сравнению с SOTA-бейзлайнами вроде ScatterMoE (https://arxiv.org/abs/2403.08245) и снижая потребление памяти активациями на 45%.
Подробнее: https://t.me/gonzo_ML_podcasts/1821
SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao
Статья: https://arxiv.org/abs/2512.14080
Код: https://github.com/Dao-AILab/sonic-moe
Ревью: https://arxiviq.substack.com/p/sonicmoe-accelerating-moe-with-io
# TL;DR
ЧТО сделали: Представили SonicMoE — фреймворк для обучения, заточенный под современные "мелкозернистые" (fine-grained) MoE-модели с большим числом экспертов и малой размерностью. Авторы предложили memory-efficient алгоритм обратного прохода, набор ядер под NVIDIA Hopper с перекрытием вычислений и IO, а также стратегию роутинга "Token Rounding", устраняющую накладные расходы на паддинг.
ПОЧЕМУ это важно: Индустрия (DeepSeek-V3, Qwen3) движется к мелкозернистым MoE ради качества (quality per FLOP). Но такая архитектура упирается в пропускную способность памяти (memory wall) и страдает от неэффективных вычислений из-за невыровненных тайлов GEMM. SonicMoE решает эти проблемы, выдавая ускорение 1.86x на H100 по сравнению с SOTA-бейзлайнами вроде ScatterMoE (https://arxiv.org/abs/2403.08245) и снижая потребление памяти активациями на 45%.
Подробнее: https://t.me/gonzo_ML_podcasts/1821
arXiv.org
SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
Mixture of Experts (MoE) models have emerged as the de facto architecture for scaling up language models without significantly increasing the computational cost. Recent MoE models demonstrate a...
1🔥13❤6
Интересно как...
Today, Groq announced that it has entered into a non-exclusive licensing agreement with Nvidia for Groq’s inference technology. The agreement reflects a shared focus on expanding access to high-performance, low cost inference.
As part of this agreement, Jonathan Ross, Groq’s Founder, Sunny Madra, Groq’s President, and other members of the Groq team will join Nvidia to help advance and scale the licensed technology.
Groq will continue to operate as an independent company with Simon Edwards stepping into the role of Chief Executive Officer.
https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale
Вот бы ещё Гугл начал TPU продавать, вообще бы весело стало.
Today, Groq announced that it has entered into a non-exclusive licensing agreement with Nvidia for Groq’s inference technology. The agreement reflects a shared focus on expanding access to high-performance, low cost inference.
As part of this agreement, Jonathan Ross, Groq’s Founder, Sunny Madra, Groq’s President, and other members of the Groq team will join Nvidia to help advance and scale the licensed technology.
Groq will continue to operate as an independent company with Simon Edwards stepping into the role of Chief Executive Officer.
https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale
Вот бы ещё Гугл начал TPU продавать, вообще бы весело стало.
Groq
Groq and Nvidia Enter Non-Exclusive Inference Technology Licensing Agreement to Accelerate AI Inference at Global Scale
The Groq LPU delivers inference with the speed and cost developers need.
🤔4❤3
Невидимая рука рынка для AGI: Безопасность через экономику
Distributional AGI Safety
Nenad Tomašev, Matija Franklin, Julian Jacobs, Sébastien Krier, Simon Osindero
Статья: https://arxiv.org/abs/2512.16856
Ревью: https://arxiviq.substack.com/p/distributional-agi-safety
# TL;DR
ЧТО сделали:
Авторы предлагают фреймворк "Distributional AGI Safety", смещающий фокус с выравнивания (alignment) отдельных моделей на управление взаимодействиями в мультиагентных системах. Вводится концепция Virtual Agentic Sandbox Economy (Виртуальная агентная песочница-экономика) — архитектура глубокоэшелонированной защиты. Безопасность здесь обеспечивается рыночными механизмами (налоги на транзакции, криптографически подтверждённая идентичность, автоматические предохранители), а не только надеждой на "правильные" веса внутри одной нейросети.
ПОЧЕМУ это важно:
Текущие парадигмы безопасности в основном готовятся к появлению монолитного AGI (одной гигантской модели). Эта работа аргументирует в пользу гипотезы "Patchwork AGI" (Лоскутный AGI): общий интеллект возникает из сети специализированных агентов, каждый из которых по отдельности не является AGI. Это меняет правила игры: стандартные методы вроде RLHF не могут предотвратить эмерджентные коллективные патологии — например, неявный сговор или биржевые крахи (flash crashes). Безопасность AGI становится задачей экономического дизайна и системного управления, а не просто психологией одиночного сверхразума.
Подробнее: https://t.me/gonzo_ML_podcasts/1833
Distributional AGI Safety
Nenad Tomašev, Matija Franklin, Julian Jacobs, Sébastien Krier, Simon Osindero
Статья: https://arxiv.org/abs/2512.16856
Ревью: https://arxiviq.substack.com/p/distributional-agi-safety
# TL;DR
ЧТО сделали:
Авторы предлагают фреймворк "Distributional AGI Safety", смещающий фокус с выравнивания (alignment) отдельных моделей на управление взаимодействиями в мультиагентных системах. Вводится концепция Virtual Agentic Sandbox Economy (Виртуальная агентная песочница-экономика) — архитектура глубокоэшелонированной защиты. Безопасность здесь обеспечивается рыночными механизмами (налоги на транзакции, криптографически подтверждённая идентичность, автоматические предохранители), а не только надеждой на "правильные" веса внутри одной нейросети.
ПОЧЕМУ это важно:
Текущие парадигмы безопасности в основном готовятся к появлению монолитного AGI (одной гигантской модели). Эта работа аргументирует в пользу гипотезы "Patchwork AGI" (Лоскутный AGI): общий интеллект возникает из сети специализированных агентов, каждый из которых по отдельности не является AGI. Это меняет правила игры: стандартные методы вроде RLHF не могут предотвратить эмерджентные коллективные патологии — например, неявный сговор или биржевые крахи (flash crashes). Безопасность AGI становится задачей экономического дизайна и системного управления, а не просто психологией одиночного сверхразума.
Подробнее: https://t.me/gonzo_ML_podcasts/1833
arXiv.org
Distributional AGI Safety
AI safety and alignment research has predominantly been focused on methods for safeguarding individual AI systems, resting on the assumption of an eventual emergence of a monolithic Artificial...
👍10❤5