gonzo-обзоры ML статей

This media is not supported in your browser

VIEW IN TELEGRAM

3.3K views20:28

❤6

gonzo-обзоры ML статей

https://z.ai/blog/glm-4.7

🔥

🔥3

3.72K views21:21

gonzo-обзоры ML статей

👍4🗿1

4.08K views21:21

gonzo-обзоры ML статей

Важная тема на живом примере. Переход от прототипа к продакшн-агенту нетривиален. Имхо это вообще одна из самих больших проблем области в моменте.

Традиционный инжиниринг привык работать в терминах надёжности и часто оперирует уровнями нескольких девяток — три девятки (99.9%, 8.7 часов даунтайма в год) это минимальный стандарт, пять девяток (99.999%, 5 минут даунтайма) — стандарт для критических сервисов, некоторые экзотические вещи требуют и обеспечивают ещё более высокие стандарты (есть мифический легендарный Эриксоновский свитч AXD301 с софтом на Эрланге, обеспечивающий 9 девяток, 32 миллисекунды даунтайма в год). *Здесь конечно отдельный вопрос, что именно считается, я тоже довольно вольно с этим обошёлся, смешав надёжность и доступность, но суть тезиса это не меняет.

Так вот, в агентах в среднем надёжность не дотягивает и до одной девятки. Я бы сказал, что мы там на уровне семёрок или даже шестёрок. В сочетании с оверселлингом от некоторых игроков это особенно бросается в глаза.

Побывав в этом году на каком-то заметном числе конференций, я хочу сказать, что процент фейлов агентских демонстраций запредельно высок, даже на уровне кейноутов. То агент войдёт в цикл смерти, не способный решить проблему перед ним; то сделает не то, что от него хотят; то просто упадёт вместе с сервером и запятисотит; ну и так далее. По ощущениям, фейлов не менее 30%. Конечно есть отдельные ниши, где всё детерминировано и хорошо, но такое счастье далеко не везде.

Нам эту пропасть ещё преодолевать.

A Practical Guide for Designing, Developing, and Deploying Production-Grade Agentic AI Workflows
Eranga Bandara, Ross Gore, Peter Foytik, Sachin Shetty, Ravi Mukkamala, Abdul Rahman, Xueping Liang, Safdar H. Bouka, Amin Hass, Sachini Rajapakse, Ng Wee Keong, Kasun De Zoysae, Aruna Withanage, Nilaan Loganathan
Статья: https://arxiv.org/abs/2512.08769
Код: https://gitlab.com/rahasak-labs/podcast-workflow
Ревью: https://arxiviq.substack.com/p/a-practical-guide-for-designing-developing

# TL;DR

ЧТО сделали:
Авторы представили комплексный инженерный фреймворк для переноса агентных систем из экспериментальных ноутбуков в полноценные продакшен-среды на базе Kubernetes. На примере пайплайна «Новости в подкаст» они сформулировали девять паттернов проектирования (например, «Чистые функции вместо вызовов инструментов» и «Рассуждение через консорциум»), призванных нивелировать врождённый недетерминизм LLM.

ПОЧЕМУ это важно:
Пока индустрия пытается перейти от простых промптов к многошаговым агентным цепочкам, надёжность становится главным бутылочным горлышком. Эта статья даёт необходимый чертёж для AgentOps, показывая, как отделить рассуждения от исполнения и доказывая, что строгие принципы программной инженерии (вроде Single Responsibility Principle) становятся ещё важнее, когда наш вычислительный движок носит вероятностный характер.

Подробнее: https://t.me/gonzo_ML_podcasts/1811

arXiv.org

A Practical Guide for Designing, Developing, and Deploying...

Agentic AI marks a major shift in how autonomous systems reason, plan, and execute multi-step tasks. Unlike traditional single model prompting, agentic workflows integrate multiple specialized...

3👍14❤4🔥2

3.91K views16:48

gonzo-обзоры ML статей

3.44K views16:49

gonzo-обзоры ML статей

😱5👌4🌚3

3.22K views16:54

gonzo-обзоры ML статей

Монстрический Tri Dao (соавтор Мамбы) и его группа снова делает хардкорные инженерные вещи, теперь про MoE.

SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao
Статья: https://arxiv.org/abs/2512.14080
Код: https://github.com/Dao-AILab/sonic-moe
Ревью: https://arxiviq.substack.com/p/sonicmoe-accelerating-moe-with-io

# TL;DR

ЧТО сделали: Представили SonicMoE — фреймворк для обучения, заточенный под современные "мелкозернистые" (fine-grained) MoE-модели с большим числом экспертов и малой размерностью. Авторы предложили memory-efficient алгоритм обратного прохода, набор ядер под NVIDIA Hopper с перекрытием вычислений и IO, а также стратегию роутинга "Token Rounding", устраняющую накладные расходы на паддинг.

ПОЧЕМУ это важно: Индустрия (DeepSeek-V3, Qwen3) движется к мелкозернистым MoE ради качества (quality per FLOP). Но такая архитектура упирается в пропускную способность памяти (memory wall) и страдает от неэффективных вычислений из-за невыровненных тайлов GEMM. SonicMoE решает эти проблемы, выдавая ускорение 1.86x на H100 по сравнению с SOTA-бейзлайнами вроде ScatterMoE (https://arxiv.org/abs/2403.08245) и снижая потребление памяти активациями на 45%.

Подробнее: https://t.me/gonzo_ML_podcasts/1821

arXiv.org

SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations

Mixture of Experts (MoE) models have emerged as the de facto architecture for scaling up language models without significantly increasing the computational cost. Recent MoE models demonstrate a...

1🔥14❤6

3.43K views17:17

gonzo-обзоры ML статей

❤1

3.28K views17:18

gonzo-обзоры ML статей

3.34K views17:18

gonzo-обзоры ML статей

1🔥8😁7🤯3

3.37K views17:19

gonzo-обзоры ML статей

Интересно как...

Today, Groq announced that it has entered into a non-exclusive licensing agreement with Nvidia for Groq’s inference technology. The agreement reflects a shared focus on expanding access to high-performance, low cost inference.

As part of this agreement, Jonathan Ross, Groq’s Founder, Sunny Madra, Groq’s President, and other members of the Groq team will join Nvidia to help advance and scale the licensed technology.

Groq will continue to operate as an independent company with Simon Edwards stepping into the role of Chief Executive Officer.

https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale

Вот бы ещё Гугл начал TPU продавать, вообще бы весело стало.

Groq

Groq and Nvidia Enter Non-Exclusive Inference Technology Licensing Agreement to Accelerate AI Inference at Global Scale

The Groq LPU delivers inference with the speed and cost developers need.

🤔4❤3

3.97K views02:19

gonzo-обзоры ML статей

Невидимая рука рынка для AGI: Безопасность через экономику

Distributional AGI Safety
Nenad Tomašev, Matija Franklin, Julian Jacobs, Sébastien Krier, Simon Osindero
Статья: https://arxiv.org/abs/2512.16856
Ревью: https://arxiviq.substack.com/p/distributional-agi-safety

# TL;DR

ЧТО сделали:
Авторы предлагают фреймворк "Distributional AGI Safety", смещающий фокус с выравнивания (alignment) отдельных моделей на управление взаимодействиями в мультиагентных системах. Вводится концепция Virtual Agentic Sandbox Economy (Виртуальная агентная песочница-экономика) — архитектура глубокоэшелонированной защиты. Безопасность здесь обеспечивается рыночными механизмами (налоги на транзакции, криптографически подтверждённая идентичность, автоматические предохранители), а не только надеждой на "правильные" веса внутри одной нейросети.

ПОЧЕМУ это важно:
Текущие парадигмы безопасности в основном готовятся к появлению монолитного AGI (одной гигантской модели). Эта работа аргументирует в пользу гипотезы "Patchwork AGI" (Лоскутный AGI): общий интеллект возникает из сети специализированных агентов, каждый из которых по отдельности не является AGI. Это меняет правила игры: стандартные методы вроде RLHF не могут предотвратить эмерджентные коллективные патологии — например, неявный сговор или биржевые крахи (flash crashes). Безопасность AGI становится задачей экономического дизайна и системного управления, а не просто психологией одиночного сверхразума.

Подробнее: https://t.me/gonzo_ML_podcasts/1833

arXiv.org

Distributional AGI Safety

AI safety and alignment research has predominantly been focused on methods for safeguarding individual AI systems, resting on the assumption of an eventual emergence of a monolithic Artificial...

👍10❤5

3.22K views11:57

gonzo-обзоры ML статей

3.11K views11:57

gonzo-обзоры ML статей

🔥14😁10

3.09K views11:57

gonzo-обзоры ML статей

Ещё один способ не тренировать новый тип модели с нуля, а адаптировать предобученную. T5Gemma брала предобученный декодер и делала энкодер-декодер, новая Bolmo берёт BPE-модель и делает Byte-level модель.

Особенно приколен результат про перенос post-trained версии Olmo в Bolmo через арифметику весов: посчитали diff между instruction tuned olmo и обычной olmo, прибавили к bolmo, получили instruction tuned bolmo.

Bolmo: Byteifying the Next Generation of Language Models
Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
Статья: https://arxiv.org/abs/2512.15586
Код: https://github.com/allenai/bolmo-core
Модель: https://huggingface.co/allenai/Bolmo-7B
Ревью: https://arxiviq.substack.com/p/bolmo-byteifying-the-next-generation

# TL;DR

ЧТО сделали: Представили Bolmo — семейство языковых моделей (1B и 7B), работающих на уровне байтов. Главная фишка: их не обучали с нуля, а получили путём «байтификации» (byteification) уже существующих subword-моделей (в данном случае Olmo 3). Авторы заменили слои эмбеддингов и токенизатор предобученного трансформера на легковесные локальные рекуррентные сети (mLSTM) и применили двухэтапную дистилляцию. Это позволило сконвертировать обычную LLM в байтовую, потратив менее 1% от исходного бюджета токенов на предобучение.

ПОЧЕМУ это важно: Byte-level модели (BLM) теоретически решают массу проблем: смещения токенизации, ограничение размера словаря, «слепоту» к отдельным символам. Но обучать их до уровня SOTA исторически было безумно дорого. Эта работа дает универсальный рецепт эффективного «ретрофиттинга» (модернизации) мощных subword-моделей в байтовые. И что критически важно: такие модели могут наследовать результаты пост-тренинга (например, instruction tuning) своих «родителей» через слияние весов, избавляя от необходимости заново выстраивать весь пайплайн безопасности и AI alignment.

Подробнее: https://t.me/gonzo_ML_podcasts/1837

gonzo-обзоры ML статей

DeepMind выпустил новую T5Gemma 2, построена по старому рецепту (конвертируем декодер-only в энкодер-декодер), теперь на базе Gemma 3 (старая версия была на Gemma 2). Я бы назвал, конечно, T5Gemma 3 во избежание путаницы :) Из интересного, сделали архитектурное…

👍15🔥5❤1🤔1

3.25K views13:26

gonzo-обзоры ML статей

3.24K views13:26

gonzo-обзоры ML статей

3.22K views13:26

gonzo-обзоры ML статей

🔥10🥴3👍1

2.92K views13:26

gonzo-обзоры ML статей

Даёшь иерархию в авторегрессии!

PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation
Yuma Ichikawa, Naoya Takagi, Takumi Nakagawa, Yuzi Kanazawa, Akira Sakai
Статья: https://arxiv.org/abs/2512.20687
Ревью: https://arxiviq.substack.com/p/photon-hierarchical-autoregressive

# TL;DR

ЧТО сделали: Авторы предложили PHOTON — иерархическую архитектуру языковой модели, которая отказывается от стандартного «плоского» авторегрессионного сканирования в пользу многомасштабного (multi-resolution) подхода. PHOTON обрабатывает текст через энкодер, работающий «снизу вверх» для сжатия токенов в укрупнённые (coarse) латентные потоки, и декодер, работающий «сверху вниз» для реконструкции детализированных токенов, используя строго ограниченное локальное внимание.

ПОЧЕМУ это важно: Эта архитектура фундаментально отделяет стоимость генерации от общей длины последовательности на этапе декодирования. Поддерживая компактное, медленно обновляющееся глобальное состояние и ограничивая генерацию токенов локальными чанками, PHOTON сокращает трафик KV-кэша на порядки. Это дает прирост пропускной способности на единицу памяти (Throughput-per-Memory) до 1000x по сравнению с обычными трансформерами в условиях ограниченной памяти, предлагая потенциальное решение проблемы «бутылочного горлышка» при работе с длинным контекстом.

Подробнее: https://t.me/gonzo_ML_podcasts/1849

arXiv.org

PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and...

Transformers operate as horizontal token-by-token scanners; at each generation step, the model attends to an ever-growing sequence of token-level states. This access pattern increases prefill...

🔥13🤔6🤯1

3.31K views23:46

gonzo-обзоры ML статей

🥰1

3.29K views23:46

gonzo-обзоры ML статей

🥰10👌3🥴1

3.35K views23:47