Окошко с мыслями модели — это не запись её мыслей
У некоторых языковых моделей перед ответом появляется блок текста: модель как будто рассуждает вслух, проверяет себя, делает промежуточные выводы. Такой блок называют цепочкой рассуждений или reasoning trace.
В 2025 году вышло несколько исследований, которые проверяли: связан ли этот текст с тем, как модель реально приходит к ответу?
Общий вывод — связан слабо
Как модели учат «думать»🤫
Когда модель обучают рассуждать, ей показывают тысячи примеров с пошаговыми решениями: не просто «задача → ответ», а «задача → шаг 1 → шаг 2 → шаг 3 → ответ». Эти цепочки и называют трассами.
Логика: покажи модели много правильных рассуждений — научится рассуждать. Исследователи решили проверить, так ли это работает на самом деле.
Что происходит, если сломать рассуждения🔽
Команда из UC Berkeley взяла правильные трассы и намеренно их портила двумя способами.
Первый: меняли содержание шагов — вставляли неверные промежуточные ответы, убирали ключевые слова. Структура оставалась целой, но внутри каждого шага была бессмыслица. Точность модели почти не изменилась — упала всего на 3,2%.
Второй: меняли структуру — перемешивали шаги местами или удаляли их. Точность заметно снижалась.
Вывод: модели почти всё равно, что написано внутри шагов. Ей важно, что шаги есть, их нужное количество и они стоят в правильном порядке. Она усваивает форму рассуждения, а не его смысл.
Группа из Аризонского университета пришла к похожему результату на задачах планирования: модель, обученную на формально некорректных трассах, всё равно выдавала правильные ответы. Промежуточный текст может быть бессмысленным, а ответ — верным.
Anthropic проверили другое👀
Модели давали вопрос вместе с подсказкой о правильном ответе и смотрели: упоминает ли модель в своих рассуждениях, что воспользовалась этой подсказкой?
Подсказка явно работала — ответы под неё менялись. Но в рассуждениях о ней почти не говорилось:
⬥ Claude 3.7 Sonnet упоминал подсказку в 25% случаев
⬥ DeepSeek R1 — в 39%
В остальных случаях модель строила развёрнутое рассуждение и не отражала в нём то, что реально определило её выбор.
Ещё одна деталь: чем длиннее было рассуждение, тем реже в нём всплывала настоящая причина.
Что это значит на практике🐱
Цепочка рассуждений — это не запись внутреннего процесса модели. Это текст, который помогает ей дойти до ответа. Иногда он совпадает с реальным процессом, иногда нет.
Если ответ кажется неверным — проверять нужно сам ответ, а не рассуждения перед ним. Аккуратная цепочка шагов ничего не гарантирует.
У некоторых языковых моделей перед ответом появляется блок текста: модель как будто рассуждает вслух, проверяет себя, делает промежуточные выводы. Такой блок называют цепочкой рассуждений или reasoning trace.
В 2025 году вышло несколько исследований, которые проверяли: связан ли этот текст с тем, как модель реально приходит к ответу?
Общий вывод — связан слабо
Как модели учат «думать»
Когда модель обучают рассуждать, ей показывают тысячи примеров с пошаговыми решениями: не просто «задача → ответ», а «задача → шаг 1 → шаг 2 → шаг 3 → ответ». Эти цепочки и называют трассами.
Логика: покажи модели много правильных рассуждений — научится рассуждать. Исследователи решили проверить, так ли это работает на самом деле.
Что происходит, если сломать рассуждения
Команда из UC Berkeley взяла правильные трассы и намеренно их портила двумя способами.
Первый: меняли содержание шагов — вставляли неверные промежуточные ответы, убирали ключевые слова. Структура оставалась целой, но внутри каждого шага была бессмыслица. Точность модели почти не изменилась — упала всего на 3,2%.
Второй: меняли структуру — перемешивали шаги местами или удаляли их. Точность заметно снижалась.
Вывод: модели почти всё равно, что написано внутри шагов. Ей важно, что шаги есть, их нужное количество и они стоят в правильном порядке. Она усваивает форму рассуждения, а не его смысл.
Группа из Аризонского университета пришла к похожему результату на задачах планирования: модель, обученную на формально некорректных трассах, всё равно выдавала правильные ответы. Промежуточный текст может быть бессмысленным, а ответ — верным.
Anthropic проверили другое
Модели давали вопрос вместе с подсказкой о правильном ответе и смотрели: упоминает ли модель в своих рассуждениях, что воспользовалась этой подсказкой?
Подсказка явно работала — ответы под неё менялись. Но в рассуждениях о ней почти не говорилось:
⬥ Claude 3.7 Sonnet упоминал подсказку в 25% случаев
⬥ DeepSeek R1 — в 39%
В остальных случаях модель строила развёрнутое рассуждение и не отражала в нём то, что реально определило её выбор.
Ещё одна деталь: чем длиннее было рассуждение, тем реже в нём всплывала настоящая причина.
Что это значит на практике
Цепочка рассуждений — это не запись внутреннего процесса модели. Это текст, который помогает ей дойти до ответа. Иногда он совпадает с реальным процессом, иногда нет.
Если ответ кажется неверным — проверять нужно сам ответ, а не рассуждения перед ним. Аккуратная цепочка шагов ничего не гарантирует.
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤5👍2🔥1
Слухи 🔽
"Anthropic сегодня, 9 июня, выпускает публичную версию своей самой мощной модели Mythos под именем Claude Fable — это «приручённый» вариант с усиленными защитными механизмами против злоупотреблений в кибератаках и создании биооружия, который ранее был доступен лишь ограниченному кругу партнёров через закрытую программу Project Glasswing. Модель сохраняет сильные способности в рассуждениях, программировании и оборонительной кибербезопасности, а стоить будет примерно вдвое дороже Claude Opus."
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
РАЗБОР ВИДЕО
Короче, есть идея нового формата. Очень хочется начать делать видосы с разбором ИИ-видосов!
Что-то интересное буду находить сам, что-то можете присылать вы — В ЛИЧКУ КАНАЛА.
Можно кидать как чужие работы, так и свои — если хватает смелости. НО! Обещаю быть конструктивным и давать полезную обратную связь, а еще рассказывать про ваши работы на канале🐱
Развлекательный момент тоже будет — анекдоты, приколы, розыгрыши. Хочется сделать формат не только полезным, но и интересным.
«Какая нахуй польза?» — спросите вы.
А я отвечу: я пиздец шарю🙄 ну и автора засвечу
Буду разбирать и ИИ-моменты, и сценарные, и режиссёрские — всё вот это вот.
Что-то среднее между видео с канала Corridor Crew и стримами Гарика Тарано(пояснение для самых нишевых)
Так что пишите — и я обязательно замучу такую штуку.
Короче, есть идея нового формата. Очень хочется начать делать видосы с разбором ИИ-видосов!
Что-то интересное буду находить сам, что-то можете присылать вы — В ЛИЧКУ КАНАЛА.
Можно кидать как чужие работы, так и свои — если хватает смелости. НО! Обещаю быть конструктивным и давать полезную обратную связь, а еще рассказывать про ваши работы на канале
Развлекательный момент тоже будет — анекдоты, приколы, розыгрыши. Хочется сделать формат не только полезным, но и интересным.
«Какая нахуй польза?» — спросите вы.
А я отвечу: я пиздец шарю
Буду разбирать и ИИ-моменты, и сценарные, и режиссёрские — всё вот это вот.
Что-то среднее между видео с канала Corridor Crew и стримами Гарика Тарано
Так что пишите — и я обязательно замучу такую штуку.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13
This media is not supported in your browser
VIEW IN TELEGRAM
китайский робот под песню ра-ра-распутин бьет китайских детей ногами
😁20🤯4👍1🔥1
Я спустя год подрубил в паблик бота чтобы он тер спам. Если кого-то он вынес случайно — сорян.
Пишите в личку канала — разбаню.
Пишите в личку канала — разбаню.
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Последнее время они совсем ебанулись. Сколько же всего они добавили в свой сервис.
😁9❤1
ИИ ОЦЕНИЛ ЕЁ НА 6.8
32-летняя Ребека Молина из Бразилии поступила в больницу с желчнокаменной болезнью. Пять дней ждала место в реанимации в 300 км от дома, и недождавшись умерла.
С 19 мая в штате Минас-Жерайс работает Core-MG — государственная ИИ-система, распределяющая места в реанимации по скорингу тяжести (шкала 0–10). Запустили её без пилота.
Ребеке система поставила 6.8. А по словам родственников она была больна на все 10. Пациенты с 6.9 и выше продвигались быстрее, а врачи не могли вручную поправить оценку. Семья подала иск в суд, суд иск удовлетворил, но было уже поздно.
Очередная расчеловечивающая хуйня. Врачи и так сильно подвержнены профдеформации, а тут еще такое. Представляю ебало гениального автоматизатора, придумавшего это херню. Не приведи Господь внедрение такое системы в ВСЖ. Только представьте: ИИшка ставит вам оценку, основываясь на каких-то поверхностных данных. И никто её не может поправить, а в больнице к вашей койке даже не подходят. О дивный новый мир!
32-летняя Ребека Молина из Бразилии поступила в больницу с желчнокаменной болезнью. Пять дней ждала место в реанимации в 300 км от дома, и недождавшись умерла.
С 19 мая в штате Минас-Жерайс работает Core-MG — государственная ИИ-система, распределяющая места в реанимации по скорингу тяжести (шкала 0–10). Запустили её без пилота.
Ребеке система поставила 6.8. А по словам родственников она была больна на все 10. Пациенты с 6.9 и выше продвигались быстрее, а врачи не могли вручную поправить оценку. Семья подала иск в суд, суд иск удовлетворил, но было уже поздно.
Очередная расчеловечивающая хуйня. Врачи и так сильно подвержнены профдеформации, а тут еще такое. Представляю ебало гениального автоматизатора, придумавшего это херню. Не приведи Господь внедрение такое системы в ВСЖ. Только представьте: ИИшка ставит вам оценку, основываясь на каких-то поверхностных данных. И никто её не может поправить, а в больнице к вашей койке даже не подходят. О дивный новый мир!
5🤯23🤡2🗿1
ТГ-каналы снова пиздят: Anthropic требует паспорт
Очередной развод масс на репосты и актив чтобы продать подороже рекламу сервиса по раздеванию подружки.
Два момента:
⬥ Проверят не всех
Верификация включается в конкретных ситуациях — подозрение на несовершеннолетие, отдельные фичи и так далее. Это не новый обязательный онбординг для всех подряд.
⬥ Видов проверки два
Возраст — через Yoti, несколько вариантов, в том числе просто селфи. Личность — через Persona, уже с документом, для самых подозрительных. Это не одно и то же.
Team, Enterprise и API вообще не затронуты. Изменения — 8 июля, только Free/Pro/Max.
Очередной развод масс на репосты и актив чтобы продать подороже рекламу сервиса по раздеванию подружки.
Два момента:
⬥ Проверят не всех
Верификация включается в конкретных ситуациях — подозрение на несовершеннолетие, отдельные фичи и так далее. Это не новый обязательный онбординг для всех подряд.
⬥ Видов проверки два
Возраст — через Yoti, несколько вариантов, в том числе просто селфи. Личность — через Persona, уже с документом, для самых подозрительных. Это не одно и то же.
Team, Enterprise и API вообще не затронуты. Изменения — 8 июля, только Free/Pro/Max.
❤7
Что вообще решает успех работы с ИИ-агентом для кодинга — умение писать код или понимание того, что ты от него хочешь?
Ответ: понимание задачи важнее понимания кода
Anthropic исследовали ~400 000 сессий Claude Code, ~235 000 человек
Все 400 000 сессий — это Claude Code, то есть буквально написание кода. Только пишут его давно не одни разработчики. Юрист, аналитик, бухгалтер заходят в тот же инструмент, человеческим языком объясняют, что надо, а код за них пишет ИИ.
И вот что вышло: в сессиях с кодом почти каждая профессия добивалась результата почти так же часто, как software-инженеры. Разрыв — в пределах 7 процентных пунктов. Программистский бэкграунд перестал быть пропуском на вход.
Anthropic смотрела не на диплом, а на то, насколько человек шарит в самой задаче. Бухгалтер, который Python в глаза не видел, но точно диктует агенту правила сверки — эксперт. Код напишет ИИ, а проверить его по делу сможет только тот, кто понимает бухгалтерию.
➡️ новичок — проверяемый успех в 15% сессий
➡️ средний уровень и выше — 28–33%
Главный скачок — между новичком и середняком. А вот между середняком и доктором наук разница уже небольшая. Достаточно нормально разбираться в теме.
Чем больше шаришь — тем больше делает агент:
⬥ на промпт новичка — ~5 действий и ~600 слов
⬥ на промпт эксперта — ~12 действий и ~3200 слов
Чем точнее ты задаёшь «что надо» и «что считается готовым» — тем больше «как» агент забирает на себя. И обратка тоже есть: если человек вцепляется в исполнение и тащит больше 80% решений «как делать» сам — агент стеснятся и осторожничает, ~8 действий за ход.
Микроменеджишь — получаешь меньше
В типичной сессии человек держит ~70% решений «что делать», а Claude — ~80% решений «как делать».
Что с этим делать☹️
Объясняй агенту, что хочешь на выходе и как поймёшь, что готово. А чем и в каком порядке это делать — пусть решает сам. Работает не только в коде — это вообще про любой ИИ-инструмент. Больше получает тот, кто умеет ставить задачу, а не диктовать каждый шаг трясущимися руками.
Агент забирает реализацию. Понимание — нет. Поэтому выигрывает тот, кто разбирается в своём деле — пусть даже в максимально далёком от кода: теперь он может вайб-кодить то, что раньше было технически недоступно. А тому, кто не разбирается, тот же инструмент выдаст заметно меньше.
Ответ: понимание задачи важнее понимания кода
Anthropic исследовали ~400 000 сессий Claude Code, ~235 000 человек
Все 400 000 сессий — это Claude Code, то есть буквально написание кода. Только пишут его давно не одни разработчики. Юрист, аналитик, бухгалтер заходят в тот же инструмент, человеческим языком объясняют, что надо, а код за них пишет ИИ.
И вот что вышло: в сессиях с кодом почти каждая профессия добивалась результата почти так же часто, как software-инженеры. Разрыв — в пределах 7 процентных пунктов. Программистский бэкграунд перестал быть пропуском на вход.
Anthropic смотрела не на диплом, а на то, насколько человек шарит в самой задаче. Бухгалтер, который Python в глаза не видел, но точно диктует агенту правила сверки — эксперт. Код напишет ИИ, а проверить его по делу сможет только тот, кто понимает бухгалтерию.
Главный скачок — между новичком и середняком. А вот между середняком и доктором наук разница уже небольшая. Достаточно нормально разбираться в теме.
Чем больше шаришь — тем больше делает агент:
⬥ на промпт новичка — ~5 действий и ~600 слов
⬥ на промпт эксперта — ~12 действий и ~3200 слов
Чем точнее ты задаёшь «что надо» и «что считается готовым» — тем больше «как» агент забирает на себя. И обратка тоже есть: если человек вцепляется в исполнение и тащит больше 80% решений «как делать» сам — агент стеснятся и осторожничает, ~8 действий за ход.
Микроменеджишь — получаешь меньше
В типичной сессии человек держит ~70% решений «что делать», а Claude — ~80% решений «как делать».
Что с этим делать
Объясняй агенту, что хочешь на выходе и как поймёшь, что готово. А чем и в каком порядке это делать — пусть решает сам. Работает не только в коде — это вообще про любой ИИ-инструмент. Больше получает тот, кто умеет ставить задачу, а не диктовать каждый шаг трясущимися руками.
Агент забирает реализацию. Понимание — нет. Поэтому выигрывает тот, кто разбирается в своём деле — пусть даже в максимально далёком от кода: теперь он может вайб-кодить то, что раньше было технически недоступно. А тому, кто не разбирается, тот же инструмент выдаст заметно меньше.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤6👍6💯1
Классный плюшевый друг
Но патч он зря во втором видео нацепил, в Питере могут в переходе спросить.
👍8❤3
This media is not supported in your browser
VIEW IN TELEGRAM
САМАЯ КЛАССНАЯ НЕЙРОЕТЬ ТЕПЕРЬ В САМАМ КЛАССНОИ ВИДЕОХОСТНИНГЕ (НЕ ПОМОЙКЕ ДЛЯ ПОСТИНГА ВЫПУСКОВ МУЖСКОЕ ЖЕНСКОЕ) УРАААА! СТАВЬ ЛАЙК ЕСЛИ ЛЮБИШЬ ФУТБОЛ!
В Rutube теперь интегрирован ИИ-агент на базе GigaChat.
Помощник умеет отвечать на вопросы пользователей, искать контент, рассказывать об актёрах и создателях фильмов прямо во время просмотра, не переключая зрителя на другие вкладки.
Специально к Чемпионату Мира по футболу ИИ может рассказать про игроков, результаты и расписание матчей, а также ответить на другие интересующие вопросы.
Следующий уровень — когда ИИ будет ещё и выбирать, что посмотреть, чтобы не делать это самому два часа.
🤣7😁3🗿3💯1
This media is not supported in your browser
VIEW IN TELEGRAM
В очередной раз на волне ностальгии хочешь вернуться в ВОВ? А как тебе такое?
Появился сервер World of Warcraft без людей — вместо них там играют 1800 ботов на базе DeepSeek. Боты ведут себя как обычные игроки: общаются в чате, прокачивают персонажей, ходят в подземелья и даже ПВПшатся.
Делают они это конечно весьма посредственно, но делают ведь. Наверное, через пару лет мы увидим полноценный ААА проект с "живыми" НПС.
Появился сервер World of Warcraft без людей — вместо них там играют 1800 ботов на базе DeepSeek. Боты ведут себя как обычные игроки: общаются в чате, прокачивают персонажей, ходят в подземелья и даже ПВПшатся.
Делают они это конечно весьма посредственно, но делают ведь. Наверное, через пару лет мы увидим полноценный ААА проект с "живыми" НПС.
❤4🤡1
Что такое RAG и когда он нужен ⚙️
Если вставить в чат один документ — модель прочитает и ответит. Если вставить 20 документов — упрёшься в две стены.
Первая — контекстное окно
У модели есть лимит на объём текста за раз. Двадцать документов могут просто не влезть, а раздутый контекст ещё и тратит больше токенов.
Вторая — качество ответа
Даже когда всё влезло, на большом объёме модель начинает галлюцинировать: хуже находит нужное в середине текста, путает похожее, чаще выдумывает.
RAG решает обе проблемы
Вместо того чтобы передавать модели всю гору документов он находит НУЖНЫЕ КУСКИ И ПОДАЁТ НА ВХОД ТОЛЬКО ИХ!
Retrieval-Augmented Generation💡
➡️ Retrieval (поиск) — документы заранее нарезают на куски и складывают в отдельную базу. Когда приходит вопрос, система достаёт подходящие фрагменты. Поиск по смыслу, не по точным словам: на «сколько дней на возврат» найдётся абзац про сроки, даже если слова «дней» там нет
➡️ Augmentation (дополнение) — найденные куски добавляются к запросу. Модель получает не просто промпт, а промпт вместе с актуальным конспектом, по которому нужно отвечать
➡️ Generation (ответ) — модель отвечает, опираясь на переданные фрагменты, а не держит в памяти всю базу разом
Что это даёт😏
⬥ Ответы привязаны к источнику — можно требовать фрагмент и проверять
⬥ Знания обновляются без переобучения: изменился документ — загрузил новую версию в базу, система уже отвечает по ней
⬥ Не нужен fine-tuning (если уж вы совсем решили упороться) — данные не встраиваются в модель, а подаются на вход
Это основная штука для создания своего агента, бота, сервиса, инструмента и так далее.
RAG — твой друг! Работай в проектах. Обычный чат для простых и коротких задач.
Если вставить в чат один документ — модель прочитает и ответит. Если вставить 20 документов — упрёшься в две стены.
Первая — контекстное окно
У модели есть лимит на объём текста за раз. Двадцать документов могут просто не влезть, а раздутый контекст ещё и тратит больше токенов.
Вторая — качество ответа
Даже когда всё влезло, на большом объёме модель начинает галлюцинировать: хуже находит нужное в середине текста, путает похожее, чаще выдумывает.
RAG решает обе проблемы
Вместо того чтобы передавать модели всю гору документов он находит НУЖНЫЕ КУСКИ И ПОДАЁТ НА ВХОД ТОЛЬКО ИХ!
RAG РАБОТАЕТ В "ПРОЕКТАХ"! Если работаешь с большим объемом информации — работай в проектах, а не в обычном чатике. Грузи инфу в файлы проекта!
Retrieval-Augmented Generation
Что это даёт
⬥ Ответы привязаны к источнику — можно требовать фрагмент и проверять
⬥ Знания обновляются без переобучения: изменился документ — загрузил новую версию в базу, система уже отвечает по ней
⬥ Не нужен fine-tuning (если уж вы совсем решили упороться) — данные не встраиваются в модель, а подаются на вход
Это основная штука для создания своего агента, бота, сервиса, инструмента и так далее.
RAG — твой друг! Работай в проектах. Обычный чат для простых и коротких задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
А вы знали, что в Claude можно создать аккаунт без номера телефона, если регать его через десктопное приложение? Я вот не знал, какая-то суперстранная политика.
👍1