Ещё вам всякой прекрасной геометрии в ленту. На этот раз для быстрой генерации в дискретных модальностях.
Categorical Flow Maps
Daan Roos, Oscar Davis, Floor Eijkelboom, Michael Bronstein, Max Welling, İsmail İlkan Ceylan, Luca Ambrogioni, Jan-Willem van de Meent
Статья: https://arxiv.org/abs/2602.12233
Ревью: https://arxiviq.substack.com/p/categorical-flow-maps
# TL;DR
ЧТО сделали: Авторы представили Categorical Flow Maps (CFM) — метод обучения непрерывных во времени генеративных потоковых моделей на вероятностном симплексе. Подход позволяет генерировать дискретные данные (текст, молекулярные графы) через уравнения потока. Предложена новая параметризация через конечную точку (endpoint-based parametrisation), строго соблюдающая геометрию симплекса, и соответствующий метод самодистилляции Endpoint-Consistent Lagrangian Distillation (ECLD). Фреймворк позволяет генерировать качественные сэмплы всего за один-два шага.
ПОЧЕМУ это важно: Пока непрерывные диффузионные модели для картинок успешно ускорили до 1-2 шагов (спасибо consistency distillation), дискретные модальности отставали, полагаясь на тяжёлые авторегрессионные циклы или многошаговые цепочки дискретной диффузии. CFM переносит матан согласования потоков (flow matching) и самодистилляции на дискретные рельсы. Результат — SOTA при одношаговой генерации молекул (QM9, ZINC) и конкурентная перплексия на текстах (Text8, LM1B).
Подробнее: https://t.me/gonzo_ML_podcasts/2469
Categorical Flow Maps
Daan Roos, Oscar Davis, Floor Eijkelboom, Michael Bronstein, Max Welling, İsmail İlkan Ceylan, Luca Ambrogioni, Jan-Willem van de Meent
Статья: https://arxiv.org/abs/2602.12233
Ревью: https://arxiviq.substack.com/p/categorical-flow-maps
# TL;DR
ЧТО сделали: Авторы представили Categorical Flow Maps (CFM) — метод обучения непрерывных во времени генеративных потоковых моделей на вероятностном симплексе. Подход позволяет генерировать дискретные данные (текст, молекулярные графы) через уравнения потока. Предложена новая параметризация через конечную точку (endpoint-based parametrisation), строго соблюдающая геометрию симплекса, и соответствующий метод самодистилляции Endpoint-Consistent Lagrangian Distillation (ECLD). Фреймворк позволяет генерировать качественные сэмплы всего за один-два шага.
ПОЧЕМУ это важно: Пока непрерывные диффузионные модели для картинок успешно ускорили до 1-2 шагов (спасибо consistency distillation), дискретные модальности отставали, полагаясь на тяжёлые авторегрессионные циклы или многошаговые цепочки дискретной диффузии. CFM переносит матан согласования потоков (flow matching) и самодистилляции на дискретные рельсы. Результат — SOTA при одношаговой генерации молекул (QM9, ZINC) и конкурентная перплексия на текстах (Text8, LM1B).
Подробнее: https://t.me/gonzo_ML_podcasts/2469
arXiv.org
Categorical Flow Maps
We introduce Categorical Flow Maps, a flow-matching method for accelerated few-step generation of categorical data via self-distillation. Building on recent variational formulations of flow...
🔥7👍2
Статей про работу с текстом на уровне концептов прибыло. BLT, LCM, Thought Gestalt, LLM-JEPA, ...
Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models
Yuliang Liu, Yunchong Song, Yixuan Wang, Kewen Ge, Alex Lamb, Qipeng Guo, Kai Chen, Bowen Zhou, Zhouhan Lin
Статья: https://arxiv.org/abs/2602.08984
Ревью: https://arxiviq.substack.com/p/next-concept-prediction-in-discrete
Код: https://github.com/LUMIA-Group/ConceptLM
# TL;DR
ЧТО сделали:
Авторы представили ConceptLM — фреймворк, который дополняет стандартное предсказание следующего токена (NTP) задачей предсказания следующего концепта (Next Concept Prediction, NCP). Вместо генерации исключительно токен за токеном, модель сначала предсказывает высокоуровневый «концепт» — дискретный латентный вектор, кодирующий спан из
ПОЧЕМУ это важно:
Работа бьёт в больное место текущих LLM — их «близорукость» и неэффективность в рассуждениях. Заставляя модель работать в абстрактном латентном пространстве, ConceptLM улучшает законы скейлинга (scaling laws): она достигает качества GPT-2/Pythia, используя на 37% меньше параметров или на 24% меньше токенов при обучении. Теоретически это приближает нас к парадигме «World Model» (как JEPA в зрении), где предсказание происходит на уровне смыслов, а не пикселей или букв.
Подробнее: https://t.me/gonzo_ML_podcasts/2480
Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models
Yuliang Liu, Yunchong Song, Yixuan Wang, Kewen Ge, Alex Lamb, Qipeng Guo, Kai Chen, Bowen Zhou, Zhouhan Lin
Статья: https://arxiv.org/abs/2602.08984
Ревью: https://arxiviq.substack.com/p/next-concept-prediction-in-discrete
Код: https://github.com/LUMIA-Group/ConceptLM
# TL;DR
ЧТО сделали:
Авторы представили ConceptLM — фреймворк, который дополняет стандартное предсказание следующего токена (NTP) задачей предсказания следующего концепта (Next Concept Prediction, NCP). Вместо генерации исключительно токен за токеном, модель сначала предсказывает высокоуровневый «концепт» — дискретный латентный вектор, кодирующий спан из
k токенов. Затем этот концепт используется как условие для генерации конкретного текста. Получается двухуровневая иерархия, где модель неявно «планирует» будущее в семантическом пространстве перед выбором синтаксиса.ПОЧЕМУ это важно:
Работа бьёт в больное место текущих LLM — их «близорукость» и неэффективность в рассуждениях. Заставляя модель работать в абстрактном латентном пространстве, ConceptLM улучшает законы скейлинга (scaling laws): она достигает качества GPT-2/Pythia, используя на 37% меньше параметров или на 24% меньше токенов при обучении. Теоретически это приближает нас к парадигме «World Model» (как JEPA в зрении), где предсказание происходит на уровне смыслов, а не пикселей или букв.
Подробнее: https://t.me/gonzo_ML_podcasts/2480
Telegram
gonzo-обзоры ML статей
Byte Latent Transformer: Patches Scale Better Than Tokens
Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan…
Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan…
🔥16👍7🤔4❤1
Интересная тема про Теорию пространства. Вперёд к embodiment!
Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li
Статья: https://arxiv.org/abs/2602.07055
Код: https://github.com/mll-lab-nu/Theory-of-Space
Ревью: https://arxiviq.substack.com/p/theory-of-space-can-foundation-models
# TL;DR
ЧТО сделали: Представили "Theory of Space" (ToS) — бенчмарк для проверки того, способны ли мультимодальные большие языковые модели (MLLMs) активно исследовать частично наблюдаемую среду и строить явную внутреннюю "когнитивную карту". Вместо пассивных ответов по картинкам, агент должен автономно перемещаться, чтобы уменьшить неопределенность, и на каждом шаге выдавать JSON с макетом мира.
ПОЧЕМУ это важно: Работа сдвигает фокус оценки с простого маппинга «вход-выход» на способность поддерживать латентное состояние мира. Обнаружен критический "Активно-пассивный разрыв": модели уровня GPT-5.2 и Gemini-3 Pro работают значительно хуже, когда им приходится самим добывать информацию. Также выявлена "Инерция убеждений" — визуальные агенты не могут "развидеть" старые данные и обновить карту даже при наличии противоречащих доказательств.
Подробнее: https://t.me/gonzo_ML_podcasts/2490
Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li
Статья: https://arxiv.org/abs/2602.07055
Код: https://github.com/mll-lab-nu/Theory-of-Space
Ревью: https://arxiviq.substack.com/p/theory-of-space-can-foundation-models
# TL;DR
ЧТО сделали: Представили "Theory of Space" (ToS) — бенчмарк для проверки того, способны ли мультимодальные большие языковые модели (MLLMs) активно исследовать частично наблюдаемую среду и строить явную внутреннюю "когнитивную карту". Вместо пассивных ответов по картинкам, агент должен автономно перемещаться, чтобы уменьшить неопределенность, и на каждом шаге выдавать JSON с макетом мира.
ПОЧЕМУ это важно: Работа сдвигает фокус оценки с простого маппинга «вход-выход» на способность поддерживать латентное состояние мира. Обнаружен критический "Активно-пассивный разрыв": модели уровня GPT-5.2 и Gemini-3 Pro работают значительно хуже, когда им приходится самим добывать информацию. Также выявлена "Инерция убеждений" — визуальные агенты не могут "развидеть" старые данные и обновить карту даже при наличии противоречащих доказательств.
Подробнее: https://t.me/gonzo_ML_podcasts/2490
arXiv.org
Theory of Space: Can Foundation Models Construct Spatial Beliefs...
Spatial embodied intelligence requires agents to act to acquire information under partial observability. While multimodal foundation models excel at passive perception, their capacity for active,...
👍11🔥3❤2
Полезен ли вам ежедневный поток авторазборов новых статей?
Anonymous Poll
16%
Да, хочу чаще
37%
Да, статья в день норм
23%
Да, но хочу реже
21%
Нет, отстойный AI слоп
2%
Нет, что-то ещё (напишите в комментариях)
❤13😁3
Сколько статей в неделю вы читаете (безотносительно нашего канала, с ним или без него)?
Anonymous Poll
38%
<1
16%
1
28%
2-3
8%
4-6
11%
7+
А сколько статей в неделю вы хотели бы или вам кажется нужно читать?
Anonymous Poll
4%
<1
11%
1
35%
2-3
15%
4-6
12%
7-10
4%
11-25
1%
26-50
5%
50+
12%
Читать вредно
❤6
Интересное свежее интервью с Борисом Чёрным, создателем Claude Code
https://www.youtube.com/watch?v=We7BZVKbCVw
Про то, что он о конца прошлого года не написал ни строки кода сам, я уже слышал (и форвардил сюда), но тут есть и другие интересные мысли.
Среди прочего согласен с тем, что в области есть своего рода bitter lesson, напоминающий времена конца 90-х, когда можно было не вкладываться в ускорение программы — закон Мура ускорял её с каждым новым процессором. Так и сейчас, кроме специальных случаев, нет большого смысла начинать с оптимизаций — малых моделей, файнтюнинга и т.п., а надо брать топовые фронтир модели и строить на них, и только после этого уходить в оптимизации, и то только если новая фронтир модель (а они выходят быстро) не решает проблем.
Интересно сравнение текущего момента автоматизации программирования с моментом изобретения печатного станка. Писари и прочие подобные профессии вероятно похожи на программистов современности. Всем приготовиться.
Также интересно соображение, что в Claude Code (да и в остальных подобных тулах) есть смысл по дефолту работать с топовой моделью на максималках (много thinking). Она хоть и дороже по токенам, суммарно может выйти не дороже, если с более слабой моделью придётся генерить и итерироваться дольше. Я не измерял, но интуитивно тоже к этому склоняюсь. Понятно, что у представителя Антропика есть конфликт интересов и нет ограничений на токены, но тем не менее.
В общем интересное интервью и интересный человек. Рекомендую послушать.
https://www.youtube.com/watch?v=We7BZVKbCVw
Про то, что он о конца прошлого года не написал ни строки кода сам, я уже слышал (и форвардил сюда), но тут есть и другие интересные мысли.
Среди прочего согласен с тем, что в области есть своего рода bitter lesson, напоминающий времена конца 90-х, когда можно было не вкладываться в ускорение программы — закон Мура ускорял её с каждым новым процессором. Так и сейчас, кроме специальных случаев, нет большого смысла начинать с оптимизаций — малых моделей, файнтюнинга и т.п., а надо брать топовые фронтир модели и строить на них, и только после этого уходить в оптимизации, и то только если новая фронтир модель (а они выходят быстро) не решает проблем.
Интересно сравнение текущего момента автоматизации программирования с моментом изобретения печатного станка. Писари и прочие подобные профессии вероятно похожи на программистов современности. Всем приготовиться.
Также интересно соображение, что в Claude Code (да и в остальных подобных тулах) есть смысл по дефолту работать с топовой моделью на максималках (много thinking). Она хоть и дороже по токенам, суммарно может выйти не дороже, если с более слабой моделью придётся генерить и итерироваться дольше. Я не измерял, но интуитивно тоже к этому склоняюсь. Понятно, что у представителя Антропика есть конфликт интересов и нет ограничений на токены, но тем не менее.
В общем интересное интервью и интересный человек. Рекомендую послушать.
YouTube
Head of Claude Code: What happens after coding is solved | Boris Cherny
Boris Cherny is the creator and head of Claude Code at Anthropic. What began as a simple terminal-based prototype just a year ago has transformed the role of software engineering and is increasingly transforming all professional work.
*We discuss:*
1. How…
*We discuss:*
1. How…
🔥19👍14❤5🥱4💩1