gonzo-обзоры ML статей

Ещё вам всякой прекрасной геометрии в ленту. На этот раз для быстрой генерации в дискретных модальностях.

Categorical Flow Maps
Daan Roos, Oscar Davis, Floor Eijkelboom, Michael Bronstein, Max Welling, İsmail İlkan Ceylan, Luca Ambrogioni, Jan-Willem van de Meent
Статья: https://arxiv.org/abs/2602.12233
Ревью: https://arxiviq.substack.com/p/categorical-flow-maps

# TL;DR

ЧТО сделали: Авторы представили Categorical Flow Maps (CFM) — метод обучения непрерывных во времени генеративных потоковых моделей на вероятностном симплексе. Подход позволяет генерировать дискретные данные (текст, молекулярные графы) через уравнения потока. Предложена новая параметризация через конечную точку (endpoint-based parametrisation), строго соблюдающая геометрию симплекса, и соответствующий метод самодистилляции Endpoint-Consistent Lagrangian Distillation (ECLD). Фреймворк позволяет генерировать качественные сэмплы всего за один-два шага.

ПОЧЕМУ это важно: Пока непрерывные диффузионные модели для картинок успешно ускорили до 1-2 шагов (спасибо consistency distillation), дискретные модальности отставали, полагаясь на тяжёлые авторегрессионные циклы или многошаговые цепочки дискретной диффузии. CFM переносит матан согласования потоков (flow matching) и самодистилляции на дискретные рельсы. Результат — SOTA при одношаговой генерации молекул (QM9, ZINC) и конкурентная перплексия на текстах (Text8, LM1B).

Подробнее: https://t.me/gonzo_ML_podcasts/2469

arXiv.org

Categorical Flow Maps

We introduce Categorical Flow Maps, a flow-matching method for accelerated few-step generation of categorical data via self-distillation. Building on recent variational formulations of flow...

🔥7👍2

3.15K views17:20

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.83K views17:20

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.91K views17:20

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1😁27

2.91K views17:20

gonzo-обзоры ML статей

Статей про работу с текстом на уровне концептов прибыло. BLT, LCM, Thought Gestalt, LLM-JEPA, ...

Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models
Yuliang Liu, Yunchong Song, Yixuan Wang, Kewen Ge, Alex Lamb, Qipeng Guo, Kai Chen, Bowen Zhou, Zhouhan Lin
Статья: https://arxiv.org/abs/2602.08984
Ревью: https://arxiviq.substack.com/p/next-concept-prediction-in-discrete
Код: https://github.com/LUMIA-Group/ConceptLM

# TL;DR

ЧТО сделали:
Авторы представили ConceptLM — фреймворк, который дополняет стандартное предсказание следующего токена (NTP) задачей предсказания следующего концепта (Next Concept Prediction, NCP). Вместо генерации исключительно токен за токеном, модель сначала предсказывает высокоуровневый «концепт» — дискретный латентный вектор, кодирующий спан из k токенов. Затем этот концепт используется как условие для генерации конкретного текста. Получается двухуровневая иерархия, где модель неявно «планирует» будущее в семантическом пространстве перед выбором синтаксиса.

ПОЧЕМУ это важно:
Работа бьёт в больное место текущих LLM — их «близорукость» и неэффективность в рассуждениях. Заставляя модель работать в абстрактном латентном пространстве, ConceptLM улучшает законы скейлинга (scaling laws): она достигает качества GPT-2/Pythia, используя на 37% меньше параметров или на 24% меньше токенов при обучении. Теоретически это приближает нас к парадигме «World Model» (как JEPA в зрении), где предсказание происходит на уровне смыслов, а не пикселей или букв.

Подробнее: https://t.me/gonzo_ML_podcasts/2480

gonzo-обзоры ML статей

Byte Latent Transformer: Patches Scale Better Than Tokens
Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan…

🔥16👍7🤔4❤1

3.46K views09:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

3.23K views09:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

3.24K views09:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

🥰2👍1👌1

3.32K views09:46

gonzo-обзоры ML статей

Всех с Масленицей!

🔥35😁19❤4🥰2

3.65K views17:48

gonzo-обзоры ML статей

4:50

Media is too big

VIEW IN TELEGRAM

И китайской Масленицы вам тоже в ленту

🔥26😱9😁5👍3

4.03K views18:14

gonzo-обзоры ML статей

И это тоже прекрасно.

😁36❤16🔥4🌚1🤨1

3.64K views19:14

gonzo-обзоры ML статей

Интересная тема про Теорию пространства. Вперёд к embodiment!

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li
Статья: https://arxiv.org/abs/2602.07055
Код: https://github.com/mll-lab-nu/Theory-of-Space
Ревью: https://arxiviq.substack.com/p/theory-of-space-can-foundation-models

# TL;DR

ЧТО сделали: Представили "Theory of Space" (ToS) — бенчмарк для проверки того, способны ли мультимодальные большие языковые модели (MLLMs) активно исследовать частично наблюдаемую среду и строить явную внутреннюю "когнитивную карту". Вместо пассивных ответов по картинкам, агент должен автономно перемещаться, чтобы уменьшить неопределенность, и на каждом шаге выдавать JSON с макетом мира.

ПОЧЕМУ это важно: Работа сдвигает фокус оценки с простого маппинга «вход-выход» на способность поддерживать латентное состояние мира. Обнаружен критический "Активно-пассивный разрыв": модели уровня GPT-5.2 и Gemini-3 Pro работают значительно хуже, когда им приходится самим добывать информацию. Также выявлена "Инерция убеждений" — визуальные агенты не могут "развидеть" старые данные и обновить карту даже при наличии противоречащих доказательств.

Подробнее: https://t.me/gonzo_ML_podcasts/2490

arXiv.org

Theory of Space: Can Foundation Models Construct Spatial Beliefs...

Spatial embodied intelligence requires agents to act to acquire information under partial observability. While multimodal foundation models excel at passive perception, their capacity for active,...

👍11🔥3❤2

3.26K views11:47

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

❤1

2.61K views11:48

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

🔥2

2.74K views11:48

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.83K views11:48

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

👍3

2.95K views11:48

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

😁7👍5🔥2

3.08K views11:48

gonzo-обзоры ML статей

Полезен ли вам ежедневный поток авторазборов новых статей?

Anonymous Poll

16%

Да, хочу чаще

37%

Да, статья в день норм

23%

Да, но хочу реже

21%

Нет, отстойный AI слоп

Нет, что-то ещё (напишите в комментариях)

❤13😁3

765 voters3.49K views13:41

gonzo-обзоры ML статей

Сколько статей в неделю вы читаете (безотносительно нашего канала, с ним или без него)?

Anonymous Poll

933 voters3.55K views15:20

gonzo-обзоры ML статей

А сколько статей в неделю вы хотели бы или вам кажется нужно читать?

Anonymous Poll

❤6

840 voters3.42K views19:14

gonzo-обзоры ML статей

Интересное свежее интервью с Борисом Чёрным, создателем Claude Code

https://www.youtube.com/watch?v=We7BZVKbCVw

Про то, что он о конца прошлого года не написал ни строки кода сам, я уже слышал (и форвардил сюда), но тут есть и другие интересные мысли.

Среди прочего согласен с тем, что в области есть своего рода bitter lesson, напоминающий времена конца 90-х, когда можно было не вкладываться в ускорение программы — закон Мура ускорял её с каждым новым процессором. Так и сейчас, кроме специальных случаев, нет большого смысла начинать с оптимизаций — малых моделей, файнтюнинга и т.п., а надо брать топовые фронтир модели и строить на них, и только после этого уходить в оптимизации, и то только если новая фронтир модель (а они выходят быстро) не решает проблем.

Интересно сравнение текущего момента автоматизации программирования с моментом изобретения печатного станка. Писари и прочие подобные профессии вероятно похожи на программистов современности. Всем приготовиться.

Также интересно соображение, что в Claude Code (да и в остальных подобных тулах) есть смысл по дефолту работать с топовой моделью на максималках (много thinking). Она хоть и дороже по токенам, суммарно может выйти не дороже, если с более слабой моделью придётся генерить и итерироваться дольше. Я не измерял, но интуитивно тоже к этому склоняюсь. Понятно, что у представителя Антропика есть конфликт интересов и нет ограничений на токены, но тем не менее.

В общем интересное интервью и интересный человек. Рекомендую послушать.

YouTube

Head of Claude Code: What happens after coding is solved | Boris Cherny

Boris Cherny is the creator and head of Claude Code at Anthropic. What began as a simple terminal-based prototype just a year ago has transformed the role of software engineering and is increasingly transforming all professional work.

*We discuss:*
1. How…

🔥19👍14❤5🥱4💩1

4.59K views20:47

About

Blog

Apps

Platform