Для баланса также есть свежий пост Миши Самина про Антропик:
Many in my community hold Anthropic in high regard. Sadly, they should not. I wrote a post showing why.
Anthropic in its current form is not trustworthy. The leadership is sometimes misleading and deceptive; they contradict themselves and lobby against regulations just like everyone else, while not really being accountable to anyone except perhaps their investors.
The post discloses a number of facts that had not previously been reported on and combines them with publicly available information in an attempt to paint an image of Anthropic more accurate than the picture Anthropic’s leadership likes to present.
Read: https://anthropic.ml
Many in my community hold Anthropic in high regard. Sadly, they should not. I wrote a post showing why.
Anthropic in its current form is not trustworthy. The leadership is sometimes misleading and deceptive; they contradict themselves and lobby against regulations just like everyone else, while not really being accountable to anyone except perhaps their investors.
The post discloses a number of facts that had not previously been reported on and combines them with publicly available information in an attempt to paint an image of Anthropic more accurate than the picture Anthropic’s leadership likes to present.
Read: https://anthropic.ml
❤20🤔8💩3🙏3🤡1
Очередная волна китайских моделей
Последняя неделя января выдалась насыщенной — три серьёзных релиза, каждый со своей изюминкой.
Qwen3-Max-Thinking — флагманская reasoning-модель от Alibaba, анонсированная 26 января. Max-Thinking была анонсирована в сентябрьском посте про Max, вот наконец доехала.
Про архитектуру точно неизвестно, но скорее всего MoE на 1T параметров, контекст 262K токенов. Обучена на 36T токенов (цифра от Qwen3-Max-Base, Max-Thinking вероятно дообучали ещё на чём-то). В посте про Thinking пишут про скейлинг и RL, но непонятно, это оригинальный скейлинг Max имелся в виду или какой-то новый. Семейство Qwen3 поддерживает 119 языков, но непонятно насколько это распространяется на Max.
Из новых фич заявлены
1) адаптивный вызов тулов на стороне модели (поиск, память и интерпретатор кода) и
2) Test-time Scaling Strategy с параллельными траекториями, multi-round self-reflection и хитрым механизмом, анализирующим предыдущие раунды рассуждения и фокусирующимся на ещё неразрешённых неопределённостях.
По их собственным бенчмаркам заявлен уровень моделей GPT-5.2-Thinking, Claude-Opus-4.5 и Gemini 3 Pro.
Закрытая, только через API, как и вся ветка Max 🙁.
———
Kimi K2.5 от Moonshot AI — построена на базе Kimi K2 с continued pretraining на 15T токенов текста и изображений. Это первая по-настоящему мультимодальная модель в линейке Kimi, K2 был text-only.
MoE на 1T параметров (32B активных), 384 эксперта, контекст 256K (карточка). Добавили визуальный энкодер MoonViT на 400M параметров — теперь модель понимает изображения и видео.
На сайте и в приложении указаны четыре режима: K2.5 Instant, K2.5 Thinking, K2.5 Agent и K2.5 Agent Swarm (Beta). Для Kimi K2 Thinking заявляли стабильный тул‑юзинг для 200–300 последовательных вызовов, для K2.5 пишут, что может управлять 100 параллельными субагентами и выполнять воркфлоу до 1500 вызовов тулов, этот сворм агентов создаётся моделью самостоятельно. Обучена через Parallel-Agent Reinforcement Learning (PARL) с обучаемым агентом-оркестратором, который сам декомпозирует задачи и запускает замороженных субагентов впараллель (что хорошо сказывается на latency). В блоге есть немного деталей про этот подход.
По бенчмаркам тоже рулит и соревнуется с GPT-5.2 (xhigh), Claude 4.5 Opus (Extend Thinking) и Gemini 3 Pro. Ещё и в офисные задачи умеет: документы, спредшиты, PDF, слайды (я только не понял, это через какие-то тулы в веб-версии или она нативно что-то умеет, в HF деталей не увидел).
Веса открыты под Modified MIT — единственное ограничение: при >100M MAU или >$20M/месяц выручки нужно показывать брендинг "Kimi K2.5". Поддержка vLLM, SGLang, KTransformers. Нативная INT4 квантизация из коробки.
———
Qwen3-TTS — open-source TTS под Apache 2.0, релиз 21 января. Обучен на 5+ миллионов часов речи, 10 языков (включая русский). Клонирует голос по 3-секундному сэмплу, стримит первый аудио-пакет за 97 мс.
Архитектура — discrete multi-codebook language model на базе Qwen3 LM. Два варианта токенизатора: 12Hz (16-layer multi-codebook design) и 25Hz (single-codebook). Модели от 0.6B до 1.7B параметров.
Есть VoiceDesign-вариант — создаёт новые голоса по текстовому описанию ("кокетливый молодой женский голос с высоким тоном и явными интонационными перепадами").
Бьёт кое-где MiniMax-Speech и ElevenLabs, но у тех языков больше.
Страшная вещь.
———
UPDATE:
А сегодня ещё и DeepSeek-OCR-2 подъехал:
https://github.com/deepseek-ai/DeepSeek-OCR-2
Из нового — новый энкодер, DeepEncoder V2, который может переставлять визуальные токены в угоду семантике. Что наверное больше похоже на человеческое зрение со сканированием объектов, а не растра.
Последняя неделя января выдалась насыщенной — три серьёзных релиза, каждый со своей изюминкой.
Qwen3-Max-Thinking — флагманская reasoning-модель от Alibaba, анонсированная 26 января. Max-Thinking была анонсирована в сентябрьском посте про Max, вот наконец доехала.
Про архитектуру точно неизвестно, но скорее всего MoE на 1T параметров, контекст 262K токенов. Обучена на 36T токенов (цифра от Qwen3-Max-Base, Max-Thinking вероятно дообучали ещё на чём-то). В посте про Thinking пишут про скейлинг и RL, но непонятно, это оригинальный скейлинг Max имелся в виду или какой-то новый. Семейство Qwen3 поддерживает 119 языков, но непонятно насколько это распространяется на Max.
Из новых фич заявлены
1) адаптивный вызов тулов на стороне модели (поиск, память и интерпретатор кода) и
2) Test-time Scaling Strategy с параллельными траекториями, multi-round self-reflection и хитрым механизмом, анализирующим предыдущие раунды рассуждения и фокусирующимся на ещё неразрешённых неопределённостях.
По их собственным бенчмаркам заявлен уровень моделей GPT-5.2-Thinking, Claude-Opus-4.5 и Gemini 3 Pro.
Закрытая, только через API, как и вся ветка Max 🙁.
———
Kimi K2.5 от Moonshot AI — построена на базе Kimi K2 с continued pretraining на 15T токенов текста и изображений. Это первая по-настоящему мультимодальная модель в линейке Kimi, K2 был text-only.
MoE на 1T параметров (32B активных), 384 эксперта, контекст 256K (карточка). Добавили визуальный энкодер MoonViT на 400M параметров — теперь модель понимает изображения и видео.
На сайте и в приложении указаны четыре режима: K2.5 Instant, K2.5 Thinking, K2.5 Agent и K2.5 Agent Swarm (Beta). Для Kimi K2 Thinking заявляли стабильный тул‑юзинг для 200–300 последовательных вызовов, для K2.5 пишут, что может управлять 100 параллельными субагентами и выполнять воркфлоу до 1500 вызовов тулов, этот сворм агентов создаётся моделью самостоятельно. Обучена через Parallel-Agent Reinforcement Learning (PARL) с обучаемым агентом-оркестратором, который сам декомпозирует задачи и запускает замороженных субагентов впараллель (что хорошо сказывается на latency). В блоге есть немного деталей про этот подход.
По бенчмаркам тоже рулит и соревнуется с GPT-5.2 (xhigh), Claude 4.5 Opus (Extend Thinking) и Gemini 3 Pro. Ещё и в офисные задачи умеет: документы, спредшиты, PDF, слайды (я только не понял, это через какие-то тулы в веб-версии или она нативно что-то умеет, в HF деталей не увидел).
Веса открыты под Modified MIT — единственное ограничение: при >100M MAU или >$20M/месяц выручки нужно показывать брендинг "Kimi K2.5". Поддержка vLLM, SGLang, KTransformers. Нативная INT4 квантизация из коробки.
———
Qwen3-TTS — open-source TTS под Apache 2.0, релиз 21 января. Обучен на 5+ миллионов часов речи, 10 языков (включая русский). Клонирует голос по 3-секундному сэмплу, стримит первый аудио-пакет за 97 мс.
Архитектура — discrete multi-codebook language model на базе Qwen3 LM. Два варианта токенизатора: 12Hz (16-layer multi-codebook design) и 25Hz (single-codebook). Модели от 0.6B до 1.7B параметров.
Есть VoiceDesign-вариант — создаёт новые голоса по текстовому описанию ("кокетливый молодой женский голос с высоким тоном и явными интонационными перепадами").
Бьёт кое-где MiniMax-Speech и ElevenLabs, но у тех языков больше.
Страшная вещь.
———
UPDATE:
А сегодня ещё и DeepSeek-OCR-2 подъехал:
https://github.com/deepseek-ai/DeepSeek-OCR-2
Из нового — новый энкодер, DeepEncoder V2, который может переставлять визуальные токены в угоду семантике. Что наверное больше похоже на человеческое зрение со сканированием объектов, а не растра.
Kimi
Kimi K2.5 Tech Blog: Visual Agentic Intelligence
Kimi K2.5 defines Visual Agentic Intelligence. Trained on 15T tokens, it introduces SOTA visual coding and autonomous agent swarm. Read the full tech blog.
❤13👍8
Обучаться во время экзамена — зыко! Что отдельно интересно, это слияние обучения с инференсом.
Learning to Discover at Test Time
Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun
Статья: https://arxiv.org/abs/2601.16175
Ревью: https://arxiviq.substack.com/p/learning-to-discover-at-test-time
Модель: https://huggingface.co/openai/gpt-oss-120b
# TL;DR
ЧТО сделали: Представили TTT-Discover — метод, который файнтюнит большую языковую модель (LLM) с помощью RL прямо во время инференса на конкретной тестовой задаче. Вместо того чтобы просто искать решение замороженной моделью, веса обновляются динамически, чтобы модель «выучила» структуру текущей проблемы.
ПОЧЕМУ это важно: Это меняет парадигму «test-time compute» с чистого поиска (как поиск по дереву) на test-time learning. Оптимизируя энтропийную цель, которая ставит во главу угла *один лучший* результат, а не среднее качество, TTT-Discover достигает SOTA в открытых научных задачах. Используя открытую
Подробнее: https://t.me/gonzo_ML_podcasts/2212
Learning to Discover at Test Time
Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun
Статья: https://arxiv.org/abs/2601.16175
Ревью: https://arxiviq.substack.com/p/learning-to-discover-at-test-time
Модель: https://huggingface.co/openai/gpt-oss-120b
# TL;DR
ЧТО сделали: Представили TTT-Discover — метод, который файнтюнит большую языковую модель (LLM) с помощью RL прямо во время инференса на конкретной тестовой задаче. Вместо того чтобы просто искать решение замороженной моделью, веса обновляются динамически, чтобы модель «выучила» структуру текущей проблемы.
ПОЧЕМУ это важно: Это меняет парадигму «test-time compute» с чистого поиска (как поиск по дереву) на test-time learning. Оптимизируя энтропийную цель, которая ставит во главу угла *один лучший* результат, а не среднее качество, TTT-Discover достигает SOTA в открытых научных задачах. Используя открытую
gpt-oss-120b, авторы улучшили границы в задаче Эрдёша и написали GPU-ядра эффективнее человеческих экспертов.Подробнее: https://t.me/gonzo_ML_podcasts/2212
arXiv.org
Learning to Discover at Test Time
How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform...
🔥23⚡4👍3❤2🤔2
Maia 200: Ускоритель для инференса от Microsoft
Вчера был интересный анонс от Microsoft, они сделали свой чип для инференса, Maia 200 (https://blogs.microsoft.com/blog/2026/01/26/maia-200-the-ai-accelerator-built-for-inference/). Пока задеплоили в US Central, на очереди US West 3 регион.
Построен на 3нм процессе от TSMC, 140B транзисторов. Содержит нативные FP8/FP4 тензорные ядра, 216GB HBM3e памяти с пропускной способностью 7 TB/s и 272MB on-chip SRAM, а также специальные DMA engines для перемещения данных и “redesigned memory subsystem” для узких типов пониженной точности, но не понял относительно чего конкретно она redesigned. Чипы могут объединяться с другими по Ethernet, 2.8 TB/s bidirectional bandwidth, до 6144 чипов в кластере.
>10 PFLOPS FP4, >5 PFLOPS FP8, 750W TDP. По сравнению с Amazon Trainium 3-го поколения, у Maia FP4 перформанс в три (почти в четыре) раза выше. Так понимаю, у AWS хоть и есть отдельный чип для инференса (Inferentia2), новые поколения Trainium по факту универсальные акселераторы в том числе и для инференса, и цифры у них выше. В сравнении же с Гугловым TPU gen7, выше перформанс на FP8.
В целом, в эру test-time scaling это имеет смысл, для ризонинга FP4/FP8 вполне хватает, да и для обучения некоторым тоже уже хватает. Заявляют, что среди прочего будут использовать эти чипы для инференса GPT-5.2, а их Superintelligence team (не знал, что у MS тоже есть такая) будет их использовать для генерации синтетики и для RL.
Maia SDK в превью (по реквесту) с поддержкой PyTorch, компилятором Triton, библиотекой оптимизированных ядер и доступом к их низкоуровневому языку программирования. Можно стать уникальным специалистом по ядрам для ещё одной архитектуры 😀
Больше подробностей про железо и архитектуру здесь: https://techcommunity.microsoft.com/blog/azureinfrastructureblog/deep-dive-into-the-maia-200-architecture/4489312
Документ от вчера, но уже версии 3.0 🙂
Короче, ещё одна компания отвязывается от монополии NVIDIA, все хотят оунить полный стек. Как видимо и сама Нвидия, идущая в обратную сторону.
Вчера был интересный анонс от Microsoft, они сделали свой чип для инференса, Maia 200 (https://blogs.microsoft.com/blog/2026/01/26/maia-200-the-ai-accelerator-built-for-inference/). Пока задеплоили в US Central, на очереди US West 3 регион.
Построен на 3нм процессе от TSMC, 140B транзисторов. Содержит нативные FP8/FP4 тензорные ядра, 216GB HBM3e памяти с пропускной способностью 7 TB/s и 272MB on-chip SRAM, а также специальные DMA engines для перемещения данных и “redesigned memory subsystem” для узких типов пониженной точности, но не понял относительно чего конкретно она redesigned. Чипы могут объединяться с другими по Ethernet, 2.8 TB/s bidirectional bandwidth, до 6144 чипов в кластере.
>10 PFLOPS FP4, >5 PFLOPS FP8, 750W TDP. По сравнению с Amazon Trainium 3-го поколения, у Maia FP4 перформанс в три (почти в четыре) раза выше. Так понимаю, у AWS хоть и есть отдельный чип для инференса (Inferentia2), новые поколения Trainium по факту универсальные акселераторы в том числе и для инференса, и цифры у них выше. В сравнении же с Гугловым TPU gen7, выше перформанс на FP8.
В целом, в эру test-time scaling это имеет смысл, для ризонинга FP4/FP8 вполне хватает, да и для обучения некоторым тоже уже хватает. Заявляют, что среди прочего будут использовать эти чипы для инференса GPT-5.2, а их Superintelligence team (не знал, что у MS тоже есть такая) будет их использовать для генерации синтетики и для RL.
Maia SDK в превью (по реквесту) с поддержкой PyTorch, компилятором Triton, библиотекой оптимизированных ядер и доступом к их низкоуровневому языку программирования. Можно стать уникальным специалистом по ядрам для ещё одной архитектуры 😀
Больше подробностей про железо и архитектуру здесь: https://techcommunity.microsoft.com/blog/azureinfrastructureblog/deep-dive-into-the-maia-200-architecture/4489312
Документ от вчера, но уже версии 3.0 🙂
Короче, ещё одна компания отвязывается от монополии NVIDIA, все хотят оунить полный стек. Как видимо и сама Нвидия, идущая в обратную сторону.
The Official Microsoft Blog
Maia 200: The AI accelerator built for inference
Today, we’re proud to introduce Maia 200, a breakthrough inference accelerator engineered to dramatically improve the economics of AI token generation. Maia 200 is an AI inference powerhouse: an accelerator built on TSMC’s 3nm process with native FP8/FP4…
👍11🔥3