gonzo-обзоры ML статей
24.3K subscribers
3.08K photos
3 videos
3 files
1.51K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Forwarded from gonzo_ML_podcasts
2👍2
Forwarded from gonzo_ML_podcasts
🎉141👍1
Новый подход к латентной диффузии от DeepMind'а.

Unified Latents (UL): How to train your latents
Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans
Paper: https://arxiv.org/abs/2602.17270
Ревью: https://arxiviq.substack.com/p/unified-latents-ul-how-to-train-your
Code: N/A
Model: N/A

# TL;DR

ЧТО сделали: Авторы представляют Unified Latents (UL) — фреймворк для совместного обучения детерминированного энкодера изображений, диффузионного прайора (prior) и диффузионного декодера. Явно связывая фиксированный шум, добавляемый в латентное пространство, с максимальной точностью априорной диффузионной модели, они заменяют ручные штрафы на базе KL-дивергенции (как в стандартных автоэнкодерах) на взвешенную функцию потерь MSE по уровням шума. Это даёт точную, математически ограниченную оценку информации в латентах.

ПОЧЕМУ это важно: Метод решает фундаментальную проблему компромисса между плотностью информации в латентах и сложностью генеративного моделирования. Предоставляя явные гиперпараметры для настройки «битрейта» латентного пространства, UL устанавливает новый рубеж Парето для эффективности предобучения. Метод выдаёт мощные метрики генерации на ImageNet-512 (FID 1.4) и достигает SOTA на Kinetics-600 (FVD 1.3), требуя при этом меньше вычислительных затрат (FLOPs) на обучение, чем бейзлайны на латентной диффузии. Это закладывает принципиальную основу для вывода законов масштабирования в обучении репрезентаций.

Диффундировать тут: https://t.me/gonzo_ML_podcasts/2516
🔥6👍2
Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к интересным идеям, что в дистилляции важна не конкретная цепочка токенов, а структура, которая за ней стоит. И дистилляция от моделей с разной структурой приводит к проблемам.

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang
Статья: https://arxiv.org/abs/2601.06002
Ревью: https://arxiviq.substack.com/p/the-molecular-structure-of-thought

# TL;DR

ЧТО сделали: Авторы предлагают теоретический фреймворк, моделирующий длинные цепочки рассуждений (Long CoT) как «молекулярную структуру». В этой парадигме шаги рассуждения выступают в роли узлов, а когнитивные переходы — в роли химических связей (глубокое рассуждение, саморефлексия, самоисследование). Исследователи показывают, что эффективное решение задач на рассуждение опирается на стабильное топологическое распределение этих связей, а не на поверхностную имитацию токенов. Для практического применения они разработали MOLE-SYN — метод переноса распределений, который направляет синтез структур Long CoT в более слабых моделях, что даёт существенный прирост качества и стабильности при обучении с подкреплением.

ПОЧЕМУ это важно: Работа даёт механистическое объяснение тому, почему наивная дистилляция продвинутых рассуждающих моделей часто проваливается, и почему сжатие цепочек рассуждений защищает проприетарные модели от клонирования. В более широком смысле, статья сдвигает фокус исследований скрытых рассуждений с отслеживания узловых траекторий на моделирование связей (рёбер графа), предлагая математически обоснованный план для «холодного старта» моделей, масштабирующих вычисления на инференсе.

Подробнее: https://t.me/gonzo_ML_podcasts/2529
👍5🤔1
Очередная тема про Глубже. Недавно была другая.

В текущей работе авторы из Гугла переоткрывают Universal Transformer определяют для каких токенов внутренние репрезентации устаканиваются быстро, а для каких меняются вплоть до финальных слоёв. Если в генерации доля таких глубоких токенов больше, то и генерация считается "глубже".

Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens
Wei-Lin Chen, Liqian Peng, Tian Tan, Chao Zhao, Blake JianHang Chen, Ziqian Lin, Alec Go, Yu Meng
Статья: https://arxiv.org/abs/2602.13517
Ревью: https://arxiviq.substack.com/p/think-deep-not-just-long-measuring

# TL;DR

ЧТО сделали: Авторы предлагают метрику Deep-Thinking Ratio (DTR) — механистически обоснованный способ количественно оценить усилия модели на инференсе. Отслеживая послойное распределение вероятностей промежуточных скрытых состояний, DTR выделяет «глубоко продуманные токены» (deep-thinking tokens). Это токены, чьё распределение вероятностей претерпевает длительные изменения по мере прохождения через слои и стабилизируется только в самых последних слоях трансформера. Также исследователи разработали стратегию Think@n, которая умно распределяет вычисления на инференсе, опираясь на DTR коротких сгенерированных префиксов.

ПОЧЕМУ это важно: Работа решает проблему нарушения эвристики «чем длиннее, тем лучше» при масштабировании вычислений на инференсе. Опора исключительно на количество сгенерированных токенов часто непреднамеренно поощряет чрезмерное обдумывание (overthinking), генерируя многословную чепуху и увеличивая число ошибок. Авторы показывают, что внутренняя стабилизация латентных представлений предсказывает точность рассуждений гораздо лучше, чем длина последовательности или уверенность модели на выходе. Этот фреймворк позволяет на ранних этапах отсекать тупиковые цепочки рассуждений, достигая качества полновесного self-consistency за половину вычислительной стоимости.

Глубже тут: https://t.me/gonzo_ML_podcasts/2540
👍12
Forwarded from gonzo_ML_podcasts
👍3👌2😁1
Прикрутили AlphaEvolve для мультиагентного RL и игр. Работая только с модификацией кода нескольких питон классов, алгоритм нашёл нетривиальные подходы, которые люди не использовали. Ситуация напоминает старый добрый 2012-й (а на самом деле раньше), когда сети нашли фичи для анализа изображений, которые работали лучше созданных человеком.

Discovering Multiagent Learning Algorithms with Large Language Models
Zun Li, John Schultz, Daniel Hennes, Marc Lanctot
Статья: https://arxiv.org/abs/2602.16928
Ревью: https://arxiviq.substack.com/p/discovering-multiagent-learning-algorithms
Код: N/A
Модель: N/A

# TL;DR

ЧТО сделали: Авторы применили эволюционную систему на базе LLM (AlphaEvolve) для автоматического поиска совершенно новых вариантов алгоритмов мультиагентного обучения с подкреплением (MARL). Семантически мутируя исходный код на Python, система нашла новые, неочевидные расширения для Counterfactual Regret Minimization (CFR) и Policy Space Response Oracles (PSRO).

ПОЧЕМУ это важно: Прогресс в алгоритмической теории игр исторически тормозился человеческой интуицией. Исследователи полагались на ручной перебор, чтобы найти математически обоснованные эвристики для дисконтирования сожаления (regret) или смешивания мета-стратегий. Эта работа показывает, что если рассматривать проектирование алгоритмов как задачу символьного поиска, можно получить высокоэффективные, реактивные механизмы — например, дисконтирование с адаптацией к волатильности и асимметричное бустирование сожаления. Эти находки значительно обходят SOTA-бейзлайны, созданные людьми.

Подробнее: https://t.me/gonzo_ML_podcasts/2550
👍10🔥31👏1
Forwarded from gonzo_ML_podcasts
😁6👍42🔥1
Найс! Любителям Openclaw посвящается.

Agents of Chaos
Natalie Shapira, Chris Wendler, Avery Yen, Gabriele Sarti, Koyena Pal, Olivia Floody, Adam Belfki, Alex Loftus, Aditya Ratan Jannali, Nikhil Prakash, Jasmine Cui, Giordano Rogers, Jannik Brinkmann, Can Rager, Amir Zur, Michael Ripa, Aruna Sankaranarayanan, David Atkinson, Rohit Gandikota, Jaden Fiotto-Kaufman, EunJeong Hwang, Hadas Orgad, P Sam Sahil, Negev Taglicht, Tomer Shabtay, Atai Ambus, Nitay Alon, Shiri Oron, Ayelet Gordon-Tapiero, Yotam Kaplan, Vered Shwartz, Tamar Rott Shaham, Christoph Riedl, Reuth Mirsky, Maarten Sap, David Manheim, Tomer Ullman, David Bau
Статья: https://arxiv.org/abs/2602.20021
Ревью: https://arxiviq.substack.com/p/agents-of-chaos
Сайт: https://agentsofchaos.baulab.info/

# TL;DR

ЧТО сделали: Авторы провели исследовательский red-teaming автономных агентов на базе языковых моделей в реальных условиях. В течение двух недель исследователи взаимодействовали с агентами, развёрнутыми в изолированных виртуалках с постоянной памятью, полным доступом к shell и инструментами для мультиагентной коммуникации (Discord, email), чтобы выявить системные уязвимости как в обычных, так и в состязательных сценариях.

ПОЧЕМУ это важно: Работа подсвечивает критическую дыру в безопасности и управлении ИИ-агентами. Она доказывает, что продвинутые модели, получив операционную автономию и доступ к тулзам, структурно уязвимы к несанкционированному доступу, подмене личности и катастрофически кривому управлению ресурсами. Это бьёт по текущим парадигмам AI alignment, показывая, что одного лишь выравнивания поведения на этапе post-training недостаточно для систем, работающих как самостоятельные прокси в сложной социальной среде.

Подробнее: https://t.me/gonzo_ML_podcasts/2557
👍7🔥1🤔1💯1