СМЕНА ⍉ КАДРА
7.93K subscribers
944 photos
835 videos
3 files
164 links
🎬 Авторский канал — IG/YT: onemoreframe42

По всем вопросам пишите в личку канала (внизу иконка чата)
Download Telegram
Окошко с мыслями модели — это не запись её мыслей

У некоторых языковых моделей перед ответом появляется блок текста: модель как будто рассуждает вслух, проверяет себя, делает промежуточные выводы. Такой блок называют цепочкой рассуждений или reasoning trace.

В 2025 году вышло несколько исследований, которые проверяли: связан ли этот текст с тем, как модель реально приходит к ответу?

Общий вывод — связан слабо

Как модели учат «думать» 🤫

Когда модель обучают рассуждать, ей показывают тысячи примеров с пошаговыми решениями: не просто «задача → ответ», а «задача → шаг 1 → шаг 2 → шаг 3 → ответ». Эти цепочки и называют трассами.

Логика: покажи модели много правильных рассуждений — научится рассуждать. Исследователи решили проверить, так ли это работает на самом деле.

Что происходит, если сломать рассуждения 🔽

Команда из UC Berkeley взяла правильные трассы и намеренно их портила двумя способами.

Первый: меняли содержание шагов — вставляли неверные промежуточные ответы, убирали ключевые слова. Структура оставалась целой, но внутри каждого шага была бессмыслица. Точность модели почти не изменилась — упала всего на 3,2%.

Второй: меняли структуру — перемешивали шаги местами или удаляли их. Точность заметно снижалась.

Вывод: модели почти всё равно, что написано внутри шагов. Ей важно, что шаги есть, их нужное количество и они стоят в правильном порядке. Она усваивает форму рассуждения, а не его смысл.

Группа из Аризонского университета пришла к похожему результату на задачах планирования: модель, обученную на формально некорректных трассах, всё равно выдавала правильные ответы. Промежуточный текст может быть бессмысленным, а ответ — верным.

Anthropic проверили другое 👀

Модели давали вопрос вместе с подсказкой о правильном ответе и смотрели: упоминает ли модель в своих рассуждениях, что воспользовалась этой подсказкой?

Подсказка явно работала — ответы под неё менялись. Но в рассуждениях о ней почти не говорилось:

⬥ Claude 3.7 Sonnet упоминал подсказку в 25% случаев
⬥ DeepSeek R1 — в 39%

В остальных случаях модель строила развёрнутое рассуждение и не отражала в нём то, что реально определило её выбор.

Ещё одна деталь: чем длиннее было рассуждение, тем реже в нём всплывала настоящая причина.

Что это значит на практике 🐱

Цепочка рассуждений — это не запись внутреннего процесса модели. Это текст, который помогает ей дойти до ответа. Иногда он совпадает с реальным процессом, иногда нет.

Если ответ кажется неверным — проверять нужно сам ответ, а не рассуждения перед ним. Аккуратная цепочка шагов ничего не гарантирует.
Please open Telegram to view this post
VIEW IN TELEGRAM
35👍2🔥1
Слухи 🔽

"Anthropic сегодня, 9 июня, выпускает публичную версию своей самой мощной модели Mythos под именем Claude Fable — это «приручённый» вариант с усиленными защитными механизмами против злоупотреблений в кибератаках и создании биооружия, который ранее был доступен лишь ограниченному кругу партнёров через закрытую программу Project Glasswing. Модель сохраняет сильные способности в рассуждениях, программировании и оборонительной кибербезопасности, а стоить будет примерно вдвое дороже Claude Opus."
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Ждем новую волну проверок самой умной модели в соцсетях
1🤣9👍2😁2💯1
This media is not supported in your browser
VIEW IN TELEGRAM
РАЗБОР ВИДЕО

Короче, есть идея нового формата. Очень хочется начать делать видосы с разбором ИИ-видосов!

Что-то интересное буду находить сам, что-то можете присылать вы — В ЛИЧКУ КАНАЛА.

Можно кидать как чужие работы, так и свои — если хватает смелости. НО! Обещаю быть конструктивным и давать полезную обратную связь, а еще рассказывать про ваши работы на канале 🐱

Развлекательный момент тоже будет — анекдоты, приколы, розыгрыши. Хочется сделать формат не только полезным, но и интересным.

«Какая нахуй польза?» — спросите вы.
А я отвечу: я пиздец шарю 🙄 ну и автора засвечу

Буду разбирать и ИИ-моменты, и сценарные, и режиссёрские — всё вот это вот.

Что-то среднее между видео с канала Corridor Crew и стримами Гарика Тарано (пояснение для самых нишевых)

Так что пишите — и я обязательно замучу такую штуку.
Please open Telegram to view this post
VIEW IN TELEGRAM
13
This media is not supported in your browser
VIEW IN TELEGRAM
китайский робот под песню ра-ра-распутин бьет китайских детей ногами
😁20🤯4👍1🔥1
КАКАЯ ЖЕ УМНАЯ ЭТА МИТОС И ФЭЙБЛ В КЛОДЕ!!! КАК ЖЕ ОНА ВСЕМ УГРОЖАЕТ! В ПЕРВУЮ ОЧЕРЕДЬ МНЕ! ПОТОМУ ЧТО НЕ МОЖЕТ СОБРАТЬ РАБОЧУЮ ВЕРСИЮ ПЛАГИНА УЖЕ 4 РАЗА ПОДРЯД!
😁11
Я спустя год подрубил в паблик бота чтобы он тер спам. Если кого-то он вынес случайно — сорян.

Пишите в личку канала — разбаню.
2
This media is not supported in your browser
VIEW IN TELEGRAM
Последнее время они совсем ебанулись. Сколько же всего они добавили в свой сервис.
😁91
ИИ ОЦЕНИЛ ЕЁ НА 6.8

32-летняя Ребека Молина из Бразилии поступила в больницу с желчнокаменной болезнью. Пять дней ждала место в реанимации в 300 км от дома, и недождавшись умерла.

С 19 мая в штате Минас-Жерайс работает Core-MG — государственная ИИ-система, распределяющая места в реанимации по скорингу тяжести (шкала 0–10). Запустили её без пилота.

Ребеке система поставила 6.8. А по словам родственников она была больна на все 10. Пациенты с 6.9 и выше продвигались быстрее, а врачи не могли вручную поправить оценку. Семья подала иск в суд, суд иск удовлетворил, но было уже поздно.

Очередная расчеловечивающая хуйня. Врачи и так сильно подвержнены профдеформации, а тут еще такое. Представляю ебало гениального автоматизатора, придумавшего это херню. Не приведи Господь внедрение такое системы в ВСЖ. Только представьте: ИИшка ставит вам оценку, основываясь на каких-то поверхностных данных. И никто её не может поправить, а в больнице к вашей койке даже не подходят. О дивный новый мир!
5🤯23🤡2🗿1
ТГ-каналы снова пиздят: Anthropic требует паспорт

Очередной развод масс на репосты и актив чтобы продать подороже рекламу сервиса по раздеванию подружки.

Два момента:

Проверят не всех
Верификация включается в конкретных ситуациях — подозрение на несовершеннолетие, отдельные фичи и так далее. Это не новый обязательный онбординг для всех подряд.

Видов проверки два
Возраст — через Yoti, несколько вариантов, в том числе просто селфи. Личность — через Persona, уже с документом, для самых подозрительных. Это не одно и то же.

Team, Enterprise и API вообще не затронуты. Изменения — 8 июля, только Free/Pro/Max.
7
Что вообще решает успех работы с ИИ-агентом для кодинга — умение писать код или понимание того, что ты от него хочешь?

Ответ: понимание задачи важнее понимания кода

Anthropic исследовали ~400 000 сессий Claude Code, ~235 000 человек

Все 400 000 сессий — это Claude Code, то есть буквально написание кода. Только пишут его давно не одни разработчики. Юрист, аналитик, бухгалтер заходят в тот же инструмент, человеческим языком объясняют, что надо, а код за них пишет ИИ.

И вот что вышло: в сессиях с кодом почти каждая профессия добивалась результата почти так же часто, как software-инженеры. Разрыв — в пределах 7 процентных пунктов. Программистский бэкграунд перестал быть пропуском на вход.

Anthropic смотрела не на диплом, а на то, насколько человек шарит в самой задаче. Бухгалтер, который Python в глаза не видел, но точно диктует агенту правила сверки — эксперт. Код напишет ИИ, а проверить его по делу сможет только тот, кто понимает бухгалтерию.

➡️ новичок — проверяемый успех в 15% сессий
➡️ средний уровень и выше — 28–33%

Главный скачок — между новичком и середняком. А вот между середняком и доктором наук разница уже небольшая. Достаточно нормально разбираться в теме.

Чем больше шаришь — тем больше делает агент:
⬥ на промпт новичка — ~5 действий и ~600 слов
⬥ на промпт эксперта — ~12 действий и ~3200 слов

Чем точнее ты задаёшь «что надо» и «что считается готовым» — тем больше «как» агент забирает на себя. И обратка тоже есть: если человек вцепляется в исполнение и тащит больше 80% решений «как делать» сам — агент стеснятся и осторожничает, ~8 действий за ход.

Микроменеджишь — получаешь меньше

В типичной сессии человек держит ~70% решений «что делать», а Claude — ~80% решений «как делать».

Что с этим делать ☹️

Объясняй агенту, что хочешь на выходе и как поймёшь, что готово. А чем и в каком порядке это делать — пусть решает сам. Работает не только в коде — это вообще про любой ИИ-инструмент. Больше получает тот, кто умеет ставить задачу, а не диктовать каждый шаг трясущимися руками.

Агент забирает реализацию. Понимание — нет. Поэтому выигрывает тот, кто разбирается в своём деле — пусть даже в максимально далёком от кода: теперь он может вайб-кодить то, что раньше было технически недоступно. А тому, кто не разбирается, тот же инструмент выдаст заметно меньше.
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍6💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Мстители в стиле 80-х
🔥287😁4
Классный плюшевый друг

Но патч он зря во втором видео нацепил, в Питере могут в переходе спросить.
👍83
This media is not supported in your browser
VIEW IN TELEGRAM
САМАЯ КЛАССНАЯ НЕЙРОЕТЬ ТЕПЕРЬ В САМАМ КЛАССНОИ ВИДЕОХОСТНИНГЕ (НЕ ПОМОЙКЕ ДЛЯ ПОСТИНГА ВЫПУСКОВ МУЖСКОЕ ЖЕНСКОЕ) УРАААА! СТАВЬ ЛАЙК ЕСЛИ ЛЮБИШЬ ФУТБОЛ!

В Rutube теперь интегрирован ИИ-агент на базе GigaChat.

Помощник умеет отвечать на вопросы пользователей, искать контент, рассказывать об актёрах и создателях фильмов прямо во время просмотра, не переключая зрителя на другие вкладки.
Специально к Чемпионату Мира по футболу ИИ может рассказать про игроков, результаты и расписание матчей, а также ответить на другие интересующие вопросы.

Следующий уровень — когда ИИ будет ещё и выбирать, что посмотреть, чтобы не делать это самому два часа.
🤣7😁3🗿3💯1
This media is not supported in your browser
VIEW IN TELEGRAM
В очередной раз на волне ностальгии хочешь вернуться в ВОВ? А как тебе такое?

Появился сервер World of Warcraft без людей — вместо них там играют 1800 ботов на базе DeepSeek. Боты ведут себя как обычные игроки: общаются в чате, прокачивают персонажей, ходят в подземелья и даже ПВПшатся.

Делают они это конечно весьма посредственно, но делают ведь. Наверное, через пару лет мы увидим полноценный ААА проект с "живыми" НПС.
4🤡1
Что такое RAG и когда он нужен ⚙️

Если вставить в чат один документ — модель прочитает и ответит. Если вставить 20 документов — упрёшься в две стены.

Первая — контекстное окно
У модели есть лимит на объём текста за раз. Двадцать документов могут просто не влезть, а раздутый контекст ещё и тратит больше токенов.

Вторая — качество ответа
Даже когда всё влезло, на большом объёме модель начинает галлюцинировать: хуже находит нужное в середине текста, путает похожее, чаще выдумывает.

RAG решает обе проблемы
Вместо того чтобы передавать модели всю гору документов он находит НУЖНЫЕ КУСКИ И ПОДАЁТ НА ВХОД ТОЛЬКО ИХ!

RAG РАБОТАЕТ В "ПРОЕКТАХ"! Если работаешь с большим объемом информации — работай в проектах, а не в обычном чатике. Грузи инфу в файлы проекта!


Retrieval-Augmented Generation 💡

➡️ Retrieval (поиск) — документы заранее нарезают на куски и складывают в отдельную базу. Когда приходит вопрос, система достаёт подходящие фрагменты. Поиск по смыслу, не по точным словам: на «сколько дней на возврат» найдётся абзац про сроки, даже если слова «дней» там нет

➡️ Augmentation (дополнение) — найденные куски добавляются к запросу. Модель получает не просто промпт, а промпт вместе с актуальным конспектом, по которому нужно отвечать

➡️ Generation (ответ) — модель отвечает, опираясь на переданные фрагменты, а не держит в памяти всю базу разом

Что это даёт 😏

⬥ Ответы привязаны к источнику — можно требовать фрагмент и проверять
⬥ Знания обновляются без переобучения: изменился документ — загрузил новую версию в базу, система уже отвечает по ней
⬥ Не нужен fine-tuning (если уж вы совсем решили упороться) — данные не встраиваются в модель, а подаются на вход

Это основная штука для создания своего агента, бота, сервиса, инструмента и так далее.

RAG — твой друг! Работай в проектах. Обычный чат для простых и коротких задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
А вы знали, что в Claude можно создать аккаунт без номера телефона, если регать его через десктопное приложение? Я вот не знал, какая-то суперстранная политика.
👍1
- СУКА, ДА ТЫ ОПЯТЬ НЕ ТАК ПОНЯЛ! Я ЖЕ СКАЗАЛ ВЕСЬ ЗАБОР, ГАДИНА! ПЕРЕДЕЛЫВАЙ! КРАСЬ ВЕСЬ ЗАБОР!
- You've reached your usage limit. Your limit will reset in 4 hours and 37 minutes.
3😁49🔥96💯1
Слухи: скоро GPT 5.6 и Sonnet 5
👍71
Промпт-инжиниринг — искусство
😁253