gonzo-обзоры ML статей
24.3K subscribers
3.07K photos
3 videos
3 files
1.51K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Ещё вам всякой прекрасной геометрии в ленту. На этот раз для быстрой генерации в дискретных модальностях.

Categorical Flow Maps
Daan Roos, Oscar Davis, Floor Eijkelboom, Michael Bronstein, Max Welling, İsmail İlkan Ceylan, Luca Ambrogioni, Jan-Willem van de Meent
Статья: https://arxiv.org/abs/2602.12233
Ревью: https://arxiviq.substack.com/p/categorical-flow-maps

# TL;DR

ЧТО сделали: Авторы представили Categorical Flow Maps (CFM) — метод обучения непрерывных во времени генеративных потоковых моделей на вероятностном симплексе. Подход позволяет генерировать дискретные данные (текст, молекулярные графы) через уравнения потока. Предложена новая параметризация через конечную точку (endpoint-based parametrisation), строго соблюдающая геометрию симплекса, и соответствующий метод самодистилляции Endpoint-Consistent Lagrangian Distillation (ECLD). Фреймворк позволяет генерировать качественные сэмплы всего за один-два шага.

ПОЧЕМУ это важно: Пока непрерывные диффузионные модели для картинок успешно ускорили до 1-2 шагов (спасибо consistency distillation), дискретные модальности отставали, полагаясь на тяжёлые авторегрессионные циклы или многошаговые цепочки дискретной диффузии. CFM переносит матан согласования потоков (flow matching) и самодистилляции на дискретные рельсы. Результат — SOTA при одношаговой генерации молекул (QM9, ZINC) и конкурентная перплексия на текстах (Text8, LM1B).

Подробнее: https://t.me/gonzo_ML_podcasts/2469
🔥7👍2
Forwarded from gonzo_ML_podcasts
1😁27
Статей про работу с текстом на уровне концептов прибыло. BLT, LCM, Thought Gestalt, LLM-JEPA, ...

Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models
Yuliang Liu, Yunchong Song, Yixuan Wang, Kewen Ge, Alex Lamb, Qipeng Guo, Kai Chen, Bowen Zhou, Zhouhan Lin
Статья: https://arxiv.org/abs/2602.08984
Ревью: https://arxiviq.substack.com/p/next-concept-prediction-in-discrete
Код: https://github.com/LUMIA-Group/ConceptLM

# TL;DR

ЧТО сделали:
Авторы представили ConceptLM — фреймворк, который дополняет стандартное предсказание следующего токена (NTP) задачей предсказания следующего концепта (Next Concept Prediction, NCP). Вместо генерации исключительно токен за токеном, модель сначала предсказывает высокоуровневый «концепт» — дискретный латентный вектор, кодирующий спан из k токенов. Затем этот концепт используется как условие для генерации конкретного текста. Получается двухуровневая иерархия, где модель неявно «планирует» будущее в семантическом пространстве перед выбором синтаксиса.

ПОЧЕМУ это важно:
Работа бьёт в больное место текущих LLM — их «близорукость» и неэффективность в рассуждениях. Заставляя модель работать в абстрактном латентном пространстве, ConceptLM улучшает законы скейлинга (scaling laws): она достигает качества GPT-2/Pythia, используя на 37% меньше параметров или на 24% меньше токенов при обучении. Теоретически это приближает нас к парадигме «World Model» (как JEPA в зрении), где предсказание происходит на уровне смыслов, а не пикселей или букв.

Подробнее: https://t.me/gonzo_ML_podcasts/2480
🔥16👍7🤔41
Forwarded from gonzo_ML_podcasts
🥰2👍1👌1
Всех с Масленицей!
🔥35😁194🥰2
Media is too big
VIEW IN TELEGRAM
И китайской Масленицы вам тоже в ленту
🔥26😱9😁5👍3
И это тоже прекрасно.
😁3616🔥4🌚1🤨1
Интересная тема про Теорию пространства. Вперёд к embodiment!

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li
Статья: https://arxiv.org/abs/2602.07055
Код: https://github.com/mll-lab-nu/Theory-of-Space
Ревью: https://arxiviq.substack.com/p/theory-of-space-can-foundation-models

# TL;DR

ЧТО сделали: Представили "Theory of Space" (ToS) — бенчмарк для проверки того, способны ли мультимодальные большие языковые модели (MLLMs) активно исследовать частично наблюдаемую среду и строить явную внутреннюю "когнитивную карту". Вместо пассивных ответов по картинкам, агент должен автономно перемещаться, чтобы уменьшить неопределенность, и на каждом шаге выдавать JSON с макетом мира.

ПОЧЕМУ это важно: Работа сдвигает фокус оценки с простого маппинга «вход-выход» на способность поддерживать латентное состояние мира. Обнаружен критический "Активно-пассивный разрыв": модели уровня GPT-5.2 и Gemini-3 Pro работают значительно хуже, когда им приходится самим добывать информацию. Также выявлена "Инерция убеждений" — визуальные агенты не могут "развидеть" старые данные и обновить карту даже при наличии противоречащих доказательств.

Подробнее: https://t.me/gonzo_ML_podcasts/2490
👍11🔥32
Forwarded from gonzo_ML_podcasts
😁7👍5🔥2
Сколько статей в неделю вы читаете (безотносительно нашего канала, с ним или без него)?
Anonymous Poll
38%
<1
16%
1
28%
2-3
8%
4-6
11%
7+
А сколько статей в неделю вы хотели бы или вам кажется нужно читать?
Anonymous Poll
4%
<1
11%
1
35%
2-3
15%
4-6
12%
7-10
4%
11-25
1%
26-50
5%
50+
12%
Читать вредно
6
Интересное свежее интервью с Борисом Чёрным, создателем Claude Code

https://www.youtube.com/watch?v=We7BZVKbCVw

Про то, что он о конца прошлого года не написал ни строки кода сам, я уже слышал (и форвардил сюда), но тут есть и другие интересные мысли.

Среди прочего согласен с тем, что в области есть своего рода bitter lesson, напоминающий времена конца 90-х, когда можно было не вкладываться в ускорение программы — закон Мура ускорял её с каждым новым процессором. Так и сейчас, кроме специальных случаев, нет большого смысла начинать с оптимизаций — малых моделей, файнтюнинга и т.п., а надо брать топовые фронтир модели и строить на них, и только после этого уходить в оптимизации, и то только если новая фронтир модель (а они выходят быстро) не решает проблем.

Интересно сравнение текущего момента автоматизации программирования с моментом изобретения печатного станка. Писари и прочие подобные профессии вероятно похожи на программистов современности. Всем приготовиться.

Также интересно соображение, что в Claude Code (да и в остальных подобных тулах) есть смысл по дефолту работать с топовой моделью на максималках (много thinking). Она хоть и дороже по токенам, суммарно может выйти не дороже, если с более слабой моделью придётся генерить и итерироваться дольше. Я не измерял, но интуитивно тоже к этому склоняюсь. Понятно, что у представителя Антропика есть конфликт интересов и нет ограничений на токены, но тем не менее.

В общем интересное интервью и интересный человек. Рекомендую послушать.
🔥19👍145🥱4💩1