gonzo-обзоры ML статей

Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к интересным идеям, что в дистилляции важна не конкретная цепочка токенов, а структура, которая за ней стоит. И дистилляция от моделей с разной структурой приводит к проблемам.

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang
Статья: https://arxiv.org/abs/2601.06002
Ревью: https://arxiviq.substack.com/p/the-molecular-structure-of-thought

# TL;DR

ЧТО сделали: Авторы предлагают теоретический фреймворк, моделирующий длинные цепочки рассуждений (Long CoT) как «молекулярную структуру». В этой парадигме шаги рассуждения выступают в роли узлов, а когнитивные переходы — в роли химических связей (глубокое рассуждение, саморефлексия, самоисследование). Исследователи показывают, что эффективное решение задач на рассуждение опирается на стабильное топологическое распределение этих связей, а не на поверхностную имитацию токенов. Для практического применения они разработали MOLE-SYN — метод переноса распределений, который направляет синтез структур Long CoT в более слабых моделях, что даёт существенный прирост качества и стабильности при обучении с подкреплением.

ПОЧЕМУ это важно: Работа даёт механистическое объяснение тому, почему наивная дистилляция продвинутых рассуждающих моделей часто проваливается, и почему сжатие цепочек рассуждений защищает проприетарные модели от клонирования. В более широком смысле, статья сдвигает фокус исследований скрытых рассуждений с отслеживания узловых траекторий на моделирование связей (рёбер графа), предлагая математически обоснованный план для «холодного старта» моделей, масштабирующих вычисления на инференсе.

Подробнее: https://t.me/gonzo_ML_podcasts/2529

arXiv.org

The Molecular Structure of Thought: Mapping the Topology of Long...

Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and...

👍5🤔1

3.38K views14:45