СМЕНА ⍉ КАДРА

Окошко с мыслями модели — это не запись её мыслей

У некоторых языковых моделей перед ответом появляется блок текста: модель как будто рассуждает вслух, проверяет себя, делает промежуточные выводы. Такой блок называют цепочкой рассуждений или reasoning trace.

В 2025 году вышло несколько исследований, которые проверяли: связан ли этот текст с тем, как модель реально приходит к ответу?

Общий вывод — связан слабо

Как модели учат «думать»

🤫

Когда модель обучают рассуждать, ей показывают тысячи примеров с пошаговыми решениями: не просто «задача → ответ», а «задача → шаг 1 → шаг 2 → шаг 3 → ответ». Эти цепочки и называют трассами.

Логика: покажи модели много правильных рассуждений — научится рассуждать. Исследователи решили проверить, так ли это работает на самом деле.

Что происходит, если сломать рассуждения

🔽

Команда из UC Berkeley взяла правильные трассы и намеренно их портила двумя способами.

Первый: меняли содержание шагов — вставляли неверные промежуточные ответы, убирали ключевые слова. Структура оставалась целой, но внутри каждого шага была бессмыслица. Точность модели почти не изменилась — упала всего на 3,2%.

Второй: меняли структуру — перемешивали шаги местами или удаляли их. Точность заметно снижалась.

Вывод: модели почти всё равно, что написано внутри шагов. Ей важно, что шаги есть, их нужное количество и они стоят в правильном порядке. Она усваивает форму рассуждения, а не его смысл.

Группа из Аризонского университета пришла к похожему результату на задачах планирования: модель, обученную на формально некорректных трассах, всё равно выдавала правильные ответы. Промежуточный текст может быть бессмысленным, а ответ — верным.

Anthropic проверили другое 👀

Модели давали вопрос вместе с подсказкой о правильном ответе и смотрели: упоминает ли модель в своих рассуждениях, что воспользовалась этой подсказкой?

Подсказка явно работала — ответы под неё менялись. Но в рассуждениях о ней почти не говорилось:

⬥ Claude 3.7 Sonnet упоминал подсказку в 25% случаев
⬥ DeepSeek R1 — в 39%

В остальных случаях модель строила развёрнутое рассуждение и не отражала в нём то, что реально определило её выбор.

Ещё одна деталь: чем длиннее было рассуждение, тем реже в нём всплывала настоящая причина.

Что это значит на практике

🐱

Цепочка рассуждений — это не запись внутреннего процесса модели. Это текст, который помогает ей дойти до ответа. Иногда он совпадает с реальным процессом, иногда нет.

Если ответ кажется неверным — проверять нужно сам ответ, а не рассуждения перед ним. Аккуратная цепочка шагов ничего не гарантирует.

Please open Telegram to view this post

VIEW IN TELEGRAM

3❤5👍2🔥1

1.3K views12:30