Может, паттерн-матчинг — это хорошо?
The unreasonable effectiveness of pattern matching
Gary Lupyan, Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2601.11432
Ревью: https://arxiviq.substack.com/p/the-unreasonable-effectiveness-of
# TL;DR
ЧТО сделали:
Авторы исследовали способность LLM восстанавливать семантический смысл из текста в стиле «Бармаглота» (Jabberwocky) — отрывков, где значимые слова заменены на бессмысленный набор букв, но сохранён синтаксис (например, «He dwushed a ghanc zawk»). Показано, что модели уровня Gemini и ChatGPT способны переводить эту абракадабру обратно в исходный текст или правдоподобные альтернативы, а также играть в текстовые квесты на выдуманном языке, опираясь исключительно на структурные паттерны.
ПОЧЕМУ это важно:
Работа бросает вызов редукционистскому взгляду на LLM как на «стохастических попугаев» или «размытые JPEG-картинки интернета». Исследование утверждает, что высокоуровневое понимание — это эмерджентное свойство сложного сопоставления паттернов (pattern matching). Механизм, который модели используют для «устранения размытости» (de-blurring) в бессмысленном тексте, фундаментально схож с человеческим мышлением, которое опирается на удовлетворение ограничений (constraint satisfaction), а не на формальную булеву логику.
Подробнее: https://t.me/gonzo_ML_podcasts/2202
The unreasonable effectiveness of pattern matching
Gary Lupyan, Blaise Agüera y Arcas
Статья: https://arxiv.org/abs/2601.11432
Ревью: https://arxiviq.substack.com/p/the-unreasonable-effectiveness-of
# TL;DR
ЧТО сделали:
Авторы исследовали способность LLM восстанавливать семантический смысл из текста в стиле «Бармаглота» (Jabberwocky) — отрывков, где значимые слова заменены на бессмысленный набор букв, но сохранён синтаксис (например, «He dwushed a ghanc zawk»). Показано, что модели уровня Gemini и ChatGPT способны переводить эту абракадабру обратно в исходный текст или правдоподобные альтернативы, а также играть в текстовые квесты на выдуманном языке, опираясь исключительно на структурные паттерны.
ПОЧЕМУ это важно:
Работа бросает вызов редукционистскому взгляду на LLM как на «стохастических попугаев» или «размытые JPEG-картинки интернета». Исследование утверждает, что высокоуровневое понимание — это эмерджентное свойство сложного сопоставления паттернов (pattern matching). Механизм, который модели используют для «устранения размытости» (de-blurring) в бессмысленном тексте, фундаментально схож с человеческим мышлением, которое опирается на удовлетворение ограничений (constraint satisfaction), а не на формальную булеву логику.
Подробнее: https://t.me/gonzo_ML_podcasts/2202
arXiv.org
The unreasonable effectiveness of pattern matching
We report on an astonishing ability of large language models (LLMs) to make sense of "Jabberwocky" language in which most or all content words have been randomly replaced by nonsense strings,...
🔥16❤5🤔4
Вообще не про ML, но зато это красиво.
Запишите в свои календари, 27 января, завтра или для кого-то уже сегодня, в 7pm GMT, в столице Шетландии, Лервике, будет факельное шествие Up Helly Aa.
С осени они строили реплику викингского Langskip, и завтра они его торжественно сожгут.
Ссылка на трансляцию:
https://www.uphellyaa.com/
Запишите в свои календари, 27 января, завтра или для кого-то уже сегодня, в 7pm GMT, в столице Шетландии, Лервике, будет факельное шествие Up Helly Aa.
С осени они строили реплику викингского Langskip, и завтра они его торжественно сожгут.
Ссылка на трансляцию:
https://www.uphellyaa.com/
Uphellyaa
UpHellyAa.com - Watch Up Helly Aa live!
Our live stream will return for Up Helly Aa in Lerwick on 27th January 2026, bringing you the fiery drama as it happens.
🔥6❤2
Для баланса также есть свежий пост Миши Самина про Антропик:
Many in my community hold Anthropic in high regard. Sadly, they should not. I wrote a post showing why.
Anthropic in its current form is not trustworthy. The leadership is sometimes misleading and deceptive; they contradict themselves and lobby against regulations just like everyone else, while not really being accountable to anyone except perhaps their investors.
The post discloses a number of facts that had not previously been reported on and combines them with publicly available information in an attempt to paint an image of Anthropic more accurate than the picture Anthropic’s leadership likes to present.
Read: https://anthropic.ml
Many in my community hold Anthropic in high regard. Sadly, they should not. I wrote a post showing why.
Anthropic in its current form is not trustworthy. The leadership is sometimes misleading and deceptive; they contradict themselves and lobby against regulations just like everyone else, while not really being accountable to anyone except perhaps their investors.
The post discloses a number of facts that had not previously been reported on and combines them with publicly available information in an attempt to paint an image of Anthropic more accurate than the picture Anthropic’s leadership likes to present.
Read: https://anthropic.ml
❤20🤔8💩3🙏3🤡1
Очередная волна китайских моделей
Последняя неделя января выдалась насыщенной — три серьёзных релиза, каждый со своей изюминкой.
Qwen3-Max-Thinking — флагманская reasoning-модель от Alibaba, анонсированная 26 января. Max-Thinking была анонсирована в сентябрьском посте про Max, вот наконец доехала.
Про архитектуру точно неизвестно, но скорее всего MoE на 1T параметров, контекст 262K токенов. Обучена на 36T токенов (цифра от Qwen3-Max-Base, Max-Thinking вероятно дообучали ещё на чём-то). В посте про Thinking пишут про скейлинг и RL, но непонятно, это оригинальный скейлинг Max имелся в виду или какой-то новый. Семейство Qwen3 поддерживает 119 языков, но непонятно насколько это распространяется на Max.
Из новых фич заявлены
1) адаптивный вызов тулов на стороне модели (поиск, память и интерпретатор кода) и
2) Test-time Scaling Strategy с параллельными траекториями, multi-round self-reflection и хитрым механизмом, анализирующим предыдущие раунды рассуждения и фокусирующимся на ещё неразрешённых неопределённостях.
По их собственным бенчмаркам заявлен уровень моделей GPT-5.2-Thinking, Claude-Opus-4.5 и Gemini 3 Pro.
Закрытая, только через API, как и вся ветка Max 🙁.
———
Kimi K2.5 от Moonshot AI — построена на базе Kimi K2 с continued pretraining на 15T токенов текста и изображений. Это первая по-настоящему мультимодальная модель в линейке Kimi, K2 был text-only.
MoE на 1T параметров (32B активных), 384 эксперта, контекст 256K (карточка). Добавили визуальный энкодер MoonViT на 400M параметров — теперь модель понимает изображения и видео.
На сайте и в приложении указаны четыре режима: K2.5 Instant, K2.5 Thinking, K2.5 Agent и K2.5 Agent Swarm (Beta). Для Kimi K2 Thinking заявляли стабильный тул‑юзинг для 200–300 последовательных вызовов, для K2.5 пишут, что может управлять 100 параллельными субагентами и выполнять воркфлоу до 1500 вызовов тулов, этот сворм агентов создаётся моделью самостоятельно. Обучена через Parallel-Agent Reinforcement Learning (PARL) с обучаемым агентом-оркестратором, который сам декомпозирует задачи и запускает замороженных субагентов впараллель (что хорошо сказывается на latency). В блоге есть немного деталей про этот подход.
По бенчмаркам тоже рулит и соревнуется с GPT-5.2 (xhigh), Claude 4.5 Opus (Extend Thinking) и Gemini 3 Pro. Ещё и в офисные задачи умеет: документы, спредшиты, PDF, слайды (я только не понял, это через какие-то тулы в веб-версии или она нативно что-то умеет, в HF деталей не увидел).
Веса открыты под Modified MIT — единственное ограничение: при >100M MAU или >$20M/месяц выручки нужно показывать брендинг "Kimi K2.5". Поддержка vLLM, SGLang, KTransformers. Нативная INT4 квантизация из коробки.
———
Qwen3-TTS — open-source TTS под Apache 2.0, релиз 21 января. Обучен на 5+ миллионов часов речи, 10 языков (включая русский). Клонирует голос по 3-секундному сэмплу, стримит первый аудио-пакет за 97 мс.
Архитектура — discrete multi-codebook language model на базе Qwen3 LM. Два варианта токенизатора: 12Hz (16-layer multi-codebook design) и 25Hz (single-codebook). Модели от 0.6B до 1.7B параметров.
Есть VoiceDesign-вариант — создаёт новые голоса по текстовому описанию ("кокетливый молодой женский голос с высоким тоном и явными интонационными перепадами").
Бьёт кое-где MiniMax-Speech и ElevenLabs, но у тех языков больше.
Страшная вещь.
———
UPDATE:
А сегодня ещё и DeepSeek-OCR-2 подъехал:
https://github.com/deepseek-ai/DeepSeek-OCR-2
Из нового — новый энкодер, DeepEncoder V2, который может переставлять визуальные токены в угоду семантике. Что наверное больше похоже на человеческое зрение со сканированием объектов, а не растра.
Последняя неделя января выдалась насыщенной — три серьёзных релиза, каждый со своей изюминкой.
Qwen3-Max-Thinking — флагманская reasoning-модель от Alibaba, анонсированная 26 января. Max-Thinking была анонсирована в сентябрьском посте про Max, вот наконец доехала.
Про архитектуру точно неизвестно, но скорее всего MoE на 1T параметров, контекст 262K токенов. Обучена на 36T токенов (цифра от Qwen3-Max-Base, Max-Thinking вероятно дообучали ещё на чём-то). В посте про Thinking пишут про скейлинг и RL, но непонятно, это оригинальный скейлинг Max имелся в виду или какой-то новый. Семейство Qwen3 поддерживает 119 языков, но непонятно насколько это распространяется на Max.
Из новых фич заявлены
1) адаптивный вызов тулов на стороне модели (поиск, память и интерпретатор кода) и
2) Test-time Scaling Strategy с параллельными траекториями, multi-round self-reflection и хитрым механизмом, анализирующим предыдущие раунды рассуждения и фокусирующимся на ещё неразрешённых неопределённостях.
По их собственным бенчмаркам заявлен уровень моделей GPT-5.2-Thinking, Claude-Opus-4.5 и Gemini 3 Pro.
Закрытая, только через API, как и вся ветка Max 🙁.
———
Kimi K2.5 от Moonshot AI — построена на базе Kimi K2 с continued pretraining на 15T токенов текста и изображений. Это первая по-настоящему мультимодальная модель в линейке Kimi, K2 был text-only.
MoE на 1T параметров (32B активных), 384 эксперта, контекст 256K (карточка). Добавили визуальный энкодер MoonViT на 400M параметров — теперь модель понимает изображения и видео.
На сайте и в приложении указаны четыре режима: K2.5 Instant, K2.5 Thinking, K2.5 Agent и K2.5 Agent Swarm (Beta). Для Kimi K2 Thinking заявляли стабильный тул‑юзинг для 200–300 последовательных вызовов, для K2.5 пишут, что может управлять 100 параллельными субагентами и выполнять воркфлоу до 1500 вызовов тулов, этот сворм агентов создаётся моделью самостоятельно. Обучена через Parallel-Agent Reinforcement Learning (PARL) с обучаемым агентом-оркестратором, который сам декомпозирует задачи и запускает замороженных субагентов впараллель (что хорошо сказывается на latency). В блоге есть немного деталей про этот подход.
По бенчмаркам тоже рулит и соревнуется с GPT-5.2 (xhigh), Claude 4.5 Opus (Extend Thinking) и Gemini 3 Pro. Ещё и в офисные задачи умеет: документы, спредшиты, PDF, слайды (я только не понял, это через какие-то тулы в веб-версии или она нативно что-то умеет, в HF деталей не увидел).
Веса открыты под Modified MIT — единственное ограничение: при >100M MAU или >$20M/месяц выручки нужно показывать брендинг "Kimi K2.5". Поддержка vLLM, SGLang, KTransformers. Нативная INT4 квантизация из коробки.
———
Qwen3-TTS — open-source TTS под Apache 2.0, релиз 21 января. Обучен на 5+ миллионов часов речи, 10 языков (включая русский). Клонирует голос по 3-секундному сэмплу, стримит первый аудио-пакет за 97 мс.
Архитектура — discrete multi-codebook language model на базе Qwen3 LM. Два варианта токенизатора: 12Hz (16-layer multi-codebook design) и 25Hz (single-codebook). Модели от 0.6B до 1.7B параметров.
Есть VoiceDesign-вариант — создаёт новые голоса по текстовому описанию ("кокетливый молодой женский голос с высоким тоном и явными интонационными перепадами").
Бьёт кое-где MiniMax-Speech и ElevenLabs, но у тех языков больше.
Страшная вещь.
———
UPDATE:
А сегодня ещё и DeepSeek-OCR-2 подъехал:
https://github.com/deepseek-ai/DeepSeek-OCR-2
Из нового — новый энкодер, DeepEncoder V2, который может переставлять визуальные токены в угоду семантике. Что наверное больше похоже на человеческое зрение со сканированием объектов, а не растра.
Kimi
Kimi K2.5 Tech Blog: Visual Agentic Intelligence
Kimi K2.5 defines Visual Agentic Intelligence. Trained on 15T tokens, it introduces SOTA visual coding and autonomous agent swarm. Read the full tech blog.
❤13👍8
Обучаться во время экзамена — зыко! Что отдельно интересно, это слияние обучения с инференсом.
Learning to Discover at Test Time
Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun
Статья: https://arxiv.org/abs/2601.16175
Ревью: https://arxiviq.substack.com/p/learning-to-discover-at-test-time
Модель: https://huggingface.co/openai/gpt-oss-120b
# TL;DR
ЧТО сделали: Представили TTT-Discover — метод, который файнтюнит большую языковую модель (LLM) с помощью RL прямо во время инференса на конкретной тестовой задаче. Вместо того чтобы просто искать решение замороженной моделью, веса обновляются динамически, чтобы модель «выучила» структуру текущей проблемы.
ПОЧЕМУ это важно: Это меняет парадигму «test-time compute» с чистого поиска (как поиск по дереву) на test-time learning. Оптимизируя энтропийную цель, которая ставит во главу угла *один лучший* результат, а не среднее качество, TTT-Discover достигает SOTA в открытых научных задачах. Используя открытую
Подробнее: https://t.me/gonzo_ML_podcasts/2212
Learning to Discover at Test Time
Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun
Статья: https://arxiv.org/abs/2601.16175
Ревью: https://arxiviq.substack.com/p/learning-to-discover-at-test-time
Модель: https://huggingface.co/openai/gpt-oss-120b
# TL;DR
ЧТО сделали: Представили TTT-Discover — метод, который файнтюнит большую языковую модель (LLM) с помощью RL прямо во время инференса на конкретной тестовой задаче. Вместо того чтобы просто искать решение замороженной моделью, веса обновляются динамически, чтобы модель «выучила» структуру текущей проблемы.
ПОЧЕМУ это важно: Это меняет парадигму «test-time compute» с чистого поиска (как поиск по дереву) на test-time learning. Оптимизируя энтропийную цель, которая ставит во главу угла *один лучший* результат, а не среднее качество, TTT-Discover достигает SOTA в открытых научных задачах. Используя открытую
gpt-oss-120b, авторы улучшили границы в задаче Эрдёша и написали GPU-ядра эффективнее человеческих экспертов.Подробнее: https://t.me/gonzo_ML_podcasts/2212
arXiv.org
Learning to Discover at Test Time
How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform...
🔥23⚡4👍3❤2🤔2