gonzo-обзоры ML статей
24.3K subscribers
3.07K photos
3 videos
3 files
1.51K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Forwarded from gonzo_ML_podcasts
🔥6😁3👍1🙉1
25👍12😁10🤯6💩5🤡5🤔4
Исследователи из DeepMind продолжают работать над агентной экономикой.

Intelligent AI Delegation
Nenad Tomašev, Matija Franklin, Simon Osindero
Статья: https://arxiv.org/abs/2602.11865
Ревью: https://arxiviq.substack.com/p/intelligent-ai-delegation

# TL;DR

ЧТО сделали: Исследователи из Google DeepMind предложили фреймворк «Intelligent Delegation» — протокол для передачи полномочий, ответственности и подотчетности в мультиагентных системах. Вместо простой декомпозиции задач предлагается подход contract-first: с динамической оценкой рисков, торгами и верифицируемым выполнением через криптографические доказательства.

ПОЧЕМУ это важно: Переход от изолированных чат-ботов к «агентному вебу» делает простые циклы использования инструментов (tool-use) хрупкими и небезопасными. Чтобы агенты могли нанимать других агентов (или людей) в среде с нулевым доверием (zero-trust), необходим жесткий фундамент, основанный на экономической теории принципала-агента и криптобезопасности.

Читать тут: https://t.me/gonzo_ML_podcasts/2438
👍10🤯3🔥2🤔2
Прикольная работа от Антропика про то, как реализован счёт внутри моделей. Они уже публиковали это осенью в Transformer Circuits, теперь оформили в статью. Это интересный в своей сложности кейс mechinterp.

Отдельно интересно, что это ещё один пример, когда рулит геометрия (в последнее время было уже прям много работ про геометрические подходы) и реализация вычислений сделана не так, как мы по дефолту ожидали в стиле фон Неймана, а через работу на многообразиях. Было бы интересно подумать про перспективы подобных геометрических вычислителей.

When Models Manipulate Manifolds: The Geometry of a Counting Task
Wes Gurnee, Emmanuel Ameisen, Isaac Kauvar, Julius Tarng, Adam Pearce, Chris Olah, Joshua Batson
Статья: https://arxiv.org/abs/2601.04480
Пост на Transformer Circuits Thread: https://transformer-circuits.pub/2025/linebreaks/index.html
Ревью: https://arxiviq.substack.com/p/when-models-manipulate-manifolds
Модель: Claude 3.5 Haiku
Affiliation: Anthropic

# TL;DR

ЧТО сделали: Исследователи из Anthropic провели реверс-инжиниринг механизмов, отвечающих за перенос строк (line-wrapping) в Claude 3.5 Haiku. Они выяснили, что модель не использует целочисленные регистры для отслеживания длины строки. Вместо этого она строит «многообразие подсчёта символов» (character count manifold) — спиралевидную геометрическую структуру, вложенную в residual stream. Манипулируя кривизной и вращением этого многообразия с помощью голов внимания, модель выполняет точные арифметические операции, чтобы определить момент вставки новой строки.

ПОЧЕМУ это важно: Эта работа перекидывает мост между интерпретируемостью на основе признаков (разреженные словари) и геометрической интерпретируемостью (многообразия). Оказывается, задачи, которые мы считаем «арифметическими» (счёт, вычитание), реализуются в трансформерах через «геометрические» операции (вращение, проекция) над низкоразмерными кривыми. Это ставит под сомнение миф о том, что нейросети плохо справляются с точным счётом — просто для решения проблемы они используют другой, непрерывный математический субстрат.

Читать тут: https://t.me/gonzo_ML_podcasts/2444
👍2411🤔4😱2🤯1
Forwarded from gonzo_ML_podcasts
🤩4👍2😁2🤮1
Отдельное прекрасное
🤣29👍52🌚2🔥1
Ещё вам работ про геометрию!

Диффузионки на эмбеддингах DINO работают не очень, в недавней работе про RAE предлагали для этого расширять DiT. Но оказалось, что дело в неевклидовой геометрии и надо сделать правильные лоссы и двигаться по геодезическим, чтобы не уходить с многообразия.

В каком-то смысле перекликающаяся работа была не так давно про FAE (https://t.me/gonzo_ML_podcasts/2013), но там не в самом пространстве DINO работали, а учились его сжимать так, чтобы DiT с ним хорошо работал. Теперь научились пространство не сжимать, а сам DiT при этом не расширять (как в RAE).

Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders

Amandeep Kumar, Vishal M. Patel
Статья: https://arxiv.org/abs/2602.10099
Код: https://github.com/amandpkr/RJF
Ревью: https://arxiviq.substack.com/p/learning-on-the-manifold-unlocking

# TL;DR

ЧТО сделали: Предложили метод Riemannian Flow Matching with Jacobi Regularization (RJF). Он позволяет обучать стандартные диффузионные трансформеры (DiT) напрямую в пространстве признаков предобученных энкодеров (DINOv2, SigLIP). Суть метода в замене евклидовой линейной интерполяции на геодезические пути на гиперсфере (S^{d-1}) и взвешивании лосса с учётом кривизны пространства.

ПОЧЕМУ это важно: Работа опровергает гипотезу о «бутылочном горлышке ёмкости» (capacity bottleneck), выдвинутую в недавней статье про RAE (https://arxiv.org/abs/2510.11690). Ранее считалось, что DiT не справляются с высокоразмерными латентами без колоссального увеличения ширины модели (width scaling). Авторы доказывают: проблема не в размере модели, а в геометрии. Учёт топологии многообразия позволяет обычному DiT-B (131M параметров) выдавать SOTA-уровень (FID 3.37 на ImageNet-256), обходя куда более тяжеловесные бейзлайны.

Читать тут: https://t.me/gonzo_ML_podcasts/2458
8👍5🤯2🐳1
Forwarded from gonzo_ML_podcasts
🫡65👍3😁2🤡1
Вчера приехал Claude Sonnet 4.6 (https://www.anthropic.com/news/claude-sonnet-4-6), сегодня выехала Gemini 3.1 Pro (https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/).

Прикольно, что Гугл уже успел сравниться со вчерашним Соннетом.
👍11
Ещё вам всякой прекрасной геометрии в ленту. На этот раз для быстрой генерации в дискретных модальностях.

Categorical Flow Maps
Daan Roos, Oscar Davis, Floor Eijkelboom, Michael Bronstein, Max Welling, İsmail İlkan Ceylan, Luca Ambrogioni, Jan-Willem van de Meent
Статья: https://arxiv.org/abs/2602.12233
Ревью: https://arxiviq.substack.com/p/categorical-flow-maps

# TL;DR

ЧТО сделали: Авторы представили Categorical Flow Maps (CFM) — метод обучения непрерывных во времени генеративных потоковых моделей на вероятностном симплексе. Подход позволяет генерировать дискретные данные (текст, молекулярные графы) через уравнения потока. Предложена новая параметризация через конечную точку (endpoint-based parametrisation), строго соблюдающая геометрию симплекса, и соответствующий метод самодистилляции Endpoint-Consistent Lagrangian Distillation (ECLD). Фреймворк позволяет генерировать качественные сэмплы всего за один-два шага.

ПОЧЕМУ это важно: Пока непрерывные диффузионные модели для картинок успешно ускорили до 1-2 шагов (спасибо consistency distillation), дискретные модальности отставали, полагаясь на тяжёлые авторегрессионные циклы или многошаговые цепочки дискретной диффузии. CFM переносит матан согласования потоков (flow matching) и самодистилляции на дискретные рельсы. Результат — SOTA при одношаговой генерации молекул (QM9, ZINC) и конкурентная перплексия на текстах (Text8, LM1B).

Подробнее: https://t.me/gonzo_ML_podcasts/2469
🔥7👍2
Forwarded from gonzo_ML_podcasts
1😁27