Интересно как...
Today, Groq announced that it has entered into a non-exclusive licensing agreement with Nvidia for Groq’s inference technology. The agreement reflects a shared focus on expanding access to high-performance, low cost inference.
As part of this agreement, Jonathan Ross, Groq’s Founder, Sunny Madra, Groq’s President, and other members of the Groq team will join Nvidia to help advance and scale the licensed technology.
Groq will continue to operate as an independent company with Simon Edwards stepping into the role of Chief Executive Officer.
https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale
Вот бы ещё Гугл начал TPU продавать, вообще бы весело стало.
Today, Groq announced that it has entered into a non-exclusive licensing agreement with Nvidia for Groq’s inference technology. The agreement reflects a shared focus on expanding access to high-performance, low cost inference.
As part of this agreement, Jonathan Ross, Groq’s Founder, Sunny Madra, Groq’s President, and other members of the Groq team will join Nvidia to help advance and scale the licensed technology.
Groq will continue to operate as an independent company with Simon Edwards stepping into the role of Chief Executive Officer.
https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale
Вот бы ещё Гугл начал TPU продавать, вообще бы весело стало.
Groq
Groq and Nvidia Enter Non-Exclusive Inference Technology Licensing Agreement to Accelerate AI Inference at Global Scale
The Groq LPU delivers inference with the speed and cost developers need.
🤔5❤3
Невидимая рука рынка для AGI: Безопасность через экономику
Distributional AGI Safety
Nenad Tomašev, Matija Franklin, Julian Jacobs, Sébastien Krier, Simon Osindero
Статья: https://arxiv.org/abs/2512.16856
Ревью: https://arxiviq.substack.com/p/distributional-agi-safety
# TL;DR
ЧТО сделали:
Авторы предлагают фреймворк "Distributional AGI Safety", смещающий фокус с выравнивания (alignment) отдельных моделей на управление взаимодействиями в мультиагентных системах. Вводится концепция Virtual Agentic Sandbox Economy (Виртуальная агентная песочница-экономика) — архитектура глубокоэшелонированной защиты. Безопасность здесь обеспечивается рыночными механизмами (налоги на транзакции, криптографически подтверждённая идентичность, автоматические предохранители), а не только надеждой на "правильные" веса внутри одной нейросети.
ПОЧЕМУ это важно:
Текущие парадигмы безопасности в основном готовятся к появлению монолитного AGI (одной гигантской модели). Эта работа аргументирует в пользу гипотезы "Patchwork AGI" (Лоскутный AGI): общий интеллект возникает из сети специализированных агентов, каждый из которых по отдельности не является AGI. Это меняет правила игры: стандартные методы вроде RLHF не могут предотвратить эмерджентные коллективные патологии — например, неявный сговор или биржевые крахи (flash crashes). Безопасность AGI становится задачей экономического дизайна и системного управления, а не просто психологией одиночного сверхразума.
Подробнее: https://t.me/gonzo_ML_podcasts/1833
Distributional AGI Safety
Nenad Tomašev, Matija Franklin, Julian Jacobs, Sébastien Krier, Simon Osindero
Статья: https://arxiv.org/abs/2512.16856
Ревью: https://arxiviq.substack.com/p/distributional-agi-safety
# TL;DR
ЧТО сделали:
Авторы предлагают фреймворк "Distributional AGI Safety", смещающий фокус с выравнивания (alignment) отдельных моделей на управление взаимодействиями в мультиагентных системах. Вводится концепция Virtual Agentic Sandbox Economy (Виртуальная агентная песочница-экономика) — архитектура глубокоэшелонированной защиты. Безопасность здесь обеспечивается рыночными механизмами (налоги на транзакции, криптографически подтверждённая идентичность, автоматические предохранители), а не только надеждой на "правильные" веса внутри одной нейросети.
ПОЧЕМУ это важно:
Текущие парадигмы безопасности в основном готовятся к появлению монолитного AGI (одной гигантской модели). Эта работа аргументирует в пользу гипотезы "Patchwork AGI" (Лоскутный AGI): общий интеллект возникает из сети специализированных агентов, каждый из которых по отдельности не является AGI. Это меняет правила игры: стандартные методы вроде RLHF не могут предотвратить эмерджентные коллективные патологии — например, неявный сговор или биржевые крахи (flash crashes). Безопасность AGI становится задачей экономического дизайна и системного управления, а не просто психологией одиночного сверхразума.
Подробнее: https://t.me/gonzo_ML_podcasts/1833
arXiv.org
Distributional AGI Safety
AI safety and alignment research has predominantly been focused on methods for safeguarding individual AI systems, resting on the assumption of an eventual emergence of a monolithic Artificial...
👍11❤5🤔1
Ещё один способ не тренировать новый тип модели с нуля, а адаптировать предобученную. T5Gemma брала предобученный декодер и делала энкодер-декодер, новая Bolmo берёт BPE-модель и делает Byte-level модель.
Особенно приколен результат про перенос post-trained версии Olmo в Bolmo через арифметику весов: посчитали diff между instruction tuned olmo и обычной olmo, прибавили к bolmo, получили instruction tuned bolmo.
Bolmo: Byteifying the Next Generation of Language Models
Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
Статья: https://arxiv.org/abs/2512.15586
Код: https://github.com/allenai/bolmo-core
Модель: https://huggingface.co/allenai/Bolmo-7B
Ревью: https://arxiviq.substack.com/p/bolmo-byteifying-the-next-generation
# TL;DR
ЧТО сделали: Представили Bolmo — семейство языковых моделей (1B и 7B), работающих на уровне байтов. Главная фишка: их не обучали с нуля, а получили путём «байтификации» (byteification) уже существующих subword-моделей (в данном случае Olmo 3). Авторы заменили слои эмбеддингов и токенизатор предобученного трансформера на легковесные локальные рекуррентные сети (mLSTM) и применили двухэтапную дистилляцию. Это позволило сконвертировать обычную LLM в байтовую, потратив менее 1% от исходного бюджета токенов на предобучение.
ПОЧЕМУ это важно: Byte-level модели (BLM) теоретически решают массу проблем: смещения токенизации, ограничение размера словаря, «слепоту» к отдельным символам. Но обучать их до уровня SOTA исторически было безумно дорого. Эта работа дает универсальный рецепт эффективного «ретрофиттинга» (модернизации) мощных subword-моделей в байтовые. И что критически важно: такие модели могут наследовать результаты пост-тренинга (например, instruction tuning) своих «родителей» через слияние весов, избавляя от необходимости заново выстраивать весь пайплайн безопасности и AI alignment.
Подробнее: https://t.me/gonzo_ML_podcasts/1837
Особенно приколен результат про перенос post-trained версии Olmo в Bolmo через арифметику весов: посчитали diff между instruction tuned olmo и обычной olmo, прибавили к bolmo, получили instruction tuned bolmo.
Bolmo: Byteifying the Next Generation of Language Models
Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
Статья: https://arxiv.org/abs/2512.15586
Код: https://github.com/allenai/bolmo-core
Модель: https://huggingface.co/allenai/Bolmo-7B
Ревью: https://arxiviq.substack.com/p/bolmo-byteifying-the-next-generation
# TL;DR
ЧТО сделали: Представили Bolmo — семейство языковых моделей (1B и 7B), работающих на уровне байтов. Главная фишка: их не обучали с нуля, а получили путём «байтификации» (byteification) уже существующих subword-моделей (в данном случае Olmo 3). Авторы заменили слои эмбеддингов и токенизатор предобученного трансформера на легковесные локальные рекуррентные сети (mLSTM) и применили двухэтапную дистилляцию. Это позволило сконвертировать обычную LLM в байтовую, потратив менее 1% от исходного бюджета токенов на предобучение.
ПОЧЕМУ это важно: Byte-level модели (BLM) теоретически решают массу проблем: смещения токенизации, ограничение размера словаря, «слепоту» к отдельным символам. Но обучать их до уровня SOTA исторически было безумно дорого. Эта работа дает универсальный рецепт эффективного «ретрофиттинга» (модернизации) мощных subword-моделей в байтовые. И что критически важно: такие модели могут наследовать результаты пост-тренинга (например, instruction tuning) своих «родителей» через слияние весов, избавляя от необходимости заново выстраивать весь пайплайн безопасности и AI alignment.
Подробнее: https://t.me/gonzo_ML_podcasts/1837
Telegram
gonzo-обзоры ML статей
DeepMind выпустил новую T5Gemma 2, построена по старому рецепту (конвертируем декодер-only в энкодер-декодер), теперь на базе Gemma 3 (старая версия была на Gemma 2). Я бы назвал, конечно, T5Gemma 3 во избежание путаницы :) Из интересного, сделали архитектурное…
👍16🔥5❤1🤔1
Даёшь иерархию в авторегрессии!
PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation
Yuma Ichikawa, Naoya Takagi, Takumi Nakagawa, Yuzi Kanazawa, Akira Sakai
Статья: https://arxiv.org/abs/2512.20687
Ревью: https://arxiviq.substack.com/p/photon-hierarchical-autoregressive
# TL;DR
ЧТО сделали: Авторы предложили PHOTON — иерархическую архитектуру языковой модели, которая отказывается от стандартного «плоского» авторегрессионного сканирования в пользу многомасштабного (multi-resolution) подхода. PHOTON обрабатывает текст через энкодер, работающий «снизу вверх» для сжатия токенов в укрупнённые (coarse) латентные потоки, и декодер, работающий «сверху вниз» для реконструкции детализированных токенов, используя строго ограниченное локальное внимание.
ПОЧЕМУ это важно: Эта архитектура фундаментально отделяет стоимость генерации от общей длины последовательности на этапе декодирования. Поддерживая компактное, медленно обновляющееся глобальное состояние и ограничивая генерацию токенов локальными чанками, PHOTON сокращает трафик KV-кэша на порядки. Это дает прирост пропускной способности на единицу памяти (Throughput-per-Memory) до 1000x по сравнению с обычными трансформерами в условиях ограниченной памяти, предлагая потенциальное решение проблемы «бутылочного горлышка» при работе с длинным контекстом.
Подробнее: https://t.me/gonzo_ML_podcasts/1849
PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation
Yuma Ichikawa, Naoya Takagi, Takumi Nakagawa, Yuzi Kanazawa, Akira Sakai
Статья: https://arxiv.org/abs/2512.20687
Ревью: https://arxiviq.substack.com/p/photon-hierarchical-autoregressive
# TL;DR
ЧТО сделали: Авторы предложили PHOTON — иерархическую архитектуру языковой модели, которая отказывается от стандартного «плоского» авторегрессионного сканирования в пользу многомасштабного (multi-resolution) подхода. PHOTON обрабатывает текст через энкодер, работающий «снизу вверх» для сжатия токенов в укрупнённые (coarse) латентные потоки, и декодер, работающий «сверху вниз» для реконструкции детализированных токенов, используя строго ограниченное локальное внимание.
ПОЧЕМУ это важно: Эта архитектура фундаментально отделяет стоимость генерации от общей длины последовательности на этапе декодирования. Поддерживая компактное, медленно обновляющееся глобальное состояние и ограничивая генерацию токенов локальными чанками, PHOTON сокращает трафик KV-кэша на порядки. Это дает прирост пропускной способности на единицу памяти (Throughput-per-Memory) до 1000x по сравнению с обычными трансформерами в условиях ограниченной памяти, предлагая потенциальное решение проблемы «бутылочного горлышка» при работе с длинным контекстом.
Подробнее: https://t.me/gonzo_ML_podcasts/1849
arXiv.org
PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and...
Transformers operate as horizontal token-by-token scanners; at each generation step, the model attends to an ever-growing sequence of token-level states. This access pattern increases prefill...
🔥13🤔6🤯1
Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на внешних API. Ну может ещё на опенсорс моделях.
https://manus.im/blog/manus-100m-arr
Время строить, однозначно.
https://manus.im/blog/manus-100m-arr
Время строить, однозначно.
manus.im
Manus Update: $100M ARR, $125M revenue run-rate
Manus reaches $100M ARR, becoming the fastest startup to hit this milestone. With $125M total revenue run-rate, 147T tokens processed, and 80M virtual computers created, Manus is redefining AI-human collaboration through its General AI Agent platform.
🔥10🤔2
Больше гибридов SSM+Transformer! NVIDIA уже давно с ними экспериментирует.
NVIDIA Nemotron 3: Efficient and Open Intelligence
NVIDIA (250+ contributors)
Статья: https://arxiv.org/abs/2512.20856
Код: https://github.com/NVIDIA-NeMo/RL
Модель: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3 (пока только Nano c тех.репортом, Super и Ultra обещают в ближайшие месяцы)
Ревью: https://arxiviq.substack.com/p/nvidia-nemotron-3-efficient-and-open
# TL;DR
ЧТО сделали: Представили семейство моделей Nemotron 3 (Nano, Super, Ultra) на базе гибридной архитектуры Mamba-Transformer Mixture-of-Experts (MoE). Главные фишки: LatentMoE (роутинг со сжатием для экономии канала), нативное обучение в NVFP4 для крупных моделей и одновременное RL-обучение в нескольких средах.
ПОЧЕМУ это важно: Это стратегический поворот от плотных (dense) гибридов к разреженным MoE ради скорости. Благодаря константному состоянию Mamba и аппаратно-эффективному LatentMoE модели держат контекст в 1M токенов и значительно обгоняют трансформеры по пропускной способности, а NVFP4 задаёт новый стандарт стабильности для обучения с низкой точностью.
Подробнее: https://t.me/gonzo_ML_podcasts/1861
NVIDIA Nemotron 3: Efficient and Open Intelligence
NVIDIA (250+ contributors)
Статья: https://arxiv.org/abs/2512.20856
Код: https://github.com/NVIDIA-NeMo/RL
Модель: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3 (пока только Nano c тех.репортом, Super и Ultra обещают в ближайшие месяцы)
Ревью: https://arxiviq.substack.com/p/nvidia-nemotron-3-efficient-and-open
# TL;DR
ЧТО сделали: Представили семейство моделей Nemotron 3 (Nano, Super, Ultra) на базе гибридной архитектуры Mamba-Transformer Mixture-of-Experts (MoE). Главные фишки: LatentMoE (роутинг со сжатием для экономии канала), нативное обучение в NVFP4 для крупных моделей и одновременное RL-обучение в нескольких средах.
ПОЧЕМУ это важно: Это стратегический поворот от плотных (dense) гибридов к разреженным MoE ради скорости. Благодаря константному состоянию Mamba и аппаратно-эффективному LatentMoE модели держат контекст в 1M токенов и значительно обгоняют трансформеры по пропускной способности, а NVFP4 задаёт новый стандарт стабильности для обучения с низкой точностью.
Подробнее: https://t.me/gonzo_ML_podcasts/1861
Google Docs
Transformer Alternatives: What Else is Out There? / Jun'25
Transformer Alternatives: What Else is Out There? Grigory Sapunov 20.06.2025 / Revolut & PyTorch London Meet-up gs@inten.to
❤9
Объединённый автоэнкодер придумали. Объенкодер.
Странно, конечно, что раньше до такого спектрального разложения никто не дошёл. Наверняка кто-то дошёл. Ещё по-своему это похоже на старую историю имени Леона Гатиса про Neural Style Transfer (https://arxiv.org/abs/1508.06576), с которой Призма пошла и много прочего. Там низкоуровневые и высокоуровневые признаки брались с разных слоёв, здесь они же берутся из разных частотных полос разложения Фурье для латента. На кепстральные коэффициенты тоже похоже. Не, ну реально, неужели никто такого же раньше не сделал???
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
Статья: https://arxiv.org/abs/2512.19693
Код: https://github.com/WeichenFan/UAE
Ревью: https://arxiviq.substack.com/p/the-prism-hypothesis-harmonizing
# TL;DR
ЧТО сделали: Авторы выдвинули «Гипотезу Призмы» (Prism Hypothesis), предположив, что конфликт между пониманием семантики (DINO) и визуальной генерацией (VAE) — это проблема частотной области. Семантика живет в низких частотах, а детали — в высоких. На этой базе создали Unified Autoencoding (UAE) — токенизатор, который через FFT раскладывает латенты на частотные полосы. Он сохраняет низкочастотную «семантическую базу», выровненную с учителем, и выносит мелкие детали реконструкции в остаточные высокочастотные слои.
ПОЧЕМУ это важно: Современные фундаментальные модели страдают от раздвоения архитектуры (отдельные энкодеры для понимания и декодеры для генерации), что неэффективно и ломает представления. UAE показывает, что единое латентное пространство может выдавать SOTA качество реконструкции (обходя RAE и SVG) и при этом сохранять высокую точность linear probing дискриминативных моделей. Это фактически объединяет восприятие и генерацию без привычных компромиссов.
Подробнее: https://t.me/gonzo_ML_podcasts/1874
Странно, конечно, что раньше до такого спектрального разложения никто не дошёл. Наверняка кто-то дошёл. Ещё по-своему это похоже на старую историю имени Леона Гатиса про Neural Style Transfer (https://arxiv.org/abs/1508.06576), с которой Призма пошла и много прочего. Там низкоуровневые и высокоуровневые признаки брались с разных слоёв, здесь они же берутся из разных частотных полос разложения Фурье для латента. На кепстральные коэффициенты тоже похоже. Не, ну реально, неужели никто такого же раньше не сделал???
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
Статья: https://arxiv.org/abs/2512.19693
Код: https://github.com/WeichenFan/UAE
Ревью: https://arxiviq.substack.com/p/the-prism-hypothesis-harmonizing
# TL;DR
ЧТО сделали: Авторы выдвинули «Гипотезу Призмы» (Prism Hypothesis), предположив, что конфликт между пониманием семантики (DINO) и визуальной генерацией (VAE) — это проблема частотной области. Семантика живет в низких частотах, а детали — в высоких. На этой базе создали Unified Autoencoding (UAE) — токенизатор, который через FFT раскладывает латенты на частотные полосы. Он сохраняет низкочастотную «семантическую базу», выровненную с учителем, и выносит мелкие детали реконструкции в остаточные высокочастотные слои.
ПОЧЕМУ это важно: Современные фундаментальные модели страдают от раздвоения архитектуры (отдельные энкодеры для понимания и декодеры для генерации), что неэффективно и ломает представления. UAE показывает, что единое латентное пространство может выдавать SOTA качество реконструкции (обходя RAE и SVG) и при этом сохранять высокую точность linear probing дискриминативных моделей. Это фактически объединяет восприятие и генерацию без привычных компромиссов.
Подробнее: https://t.me/gonzo_ML_podcasts/1874
Telegram
gonzo_ML_podcasts
Спектральная унификация: Решаем конфликт семантики и пикселей через частотное разложение
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
Статья: http…
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
Статья: http…
👍13❤3😱3🤔1