Tencent ужал переводчик до 440 мегабайт и сделал его умнее Google Translate
Китайцы из Tencent выложили в открытый доступ модель Hy-MT1.5-1.8B-1.25bit, и это тот случай, когда длинное название скрывает по-настоящему любопытную штуку. Переводчик весит 440 мегабайт, целиком работает офлайн на телефоне, понимает 33 языка и при этом обгоняет Google Translate на стандартных бенчмарках.
Главный фокус тут в квантовании. Обычно модель такого размера в FP16 занимает около 3,3 гигабайта, что для смартфона уже многовато. Tencent сжали её до 1,25 бита на вес, и в итоге получили файл в семь с половиной раз меньше оригинала. Что особенно приятно, это не привычная история «сжали и оно начало нести чушь». Точность не просела, а по сравнению с предыдущими подходами на 1,67 бита новая версия ещё и работает примерно на десять процентов быстрее.
При своих скромных 1,8 миллиарда параметров модель умудряется тягаться с коммерческими API и даже с гигантами на 235 миллиардов.
То есть на стандартных тестах перевода она играет в одной лиге с системами, которые в сотню раз тяжелее и крутятся в дата-центрах, а не у вас в кармане.
Покрытие тоже не для галочки. 33 языка, 5 диалектов и 1056 направлений перевода, причём в список попали тибетский и монгольский. Это редкий случай, когда крупный игрок не ограничивается английским, испанским и парой ходовых европейских, а реально вкладывается в малые языки, которые обычно остаются за бортом коммерческих сервисов.
В довесок Tencent напоминают, что их переводческий стек уже тридцать раз брал первые места на международных соревнованиях по машинному переводу и стоит внутри продуктов компании.
ЭТО боевая технология, которую просто решили отдать наружу. На Hugging Face лежит сама модель, на GitHub код, и есть готовый APK для Android, чтобы потрогать всё руками без танцев со сборкой.
Если коротко, то идея «переводчик уровня Google прямо на телефоне без интернета и подписки» из разряда фантастики окончательно переехала в разряд скачал и пользуйся.
📲Demo APK (Android): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
🤗Hugging Face:: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
🔗GitHub: https://github.com/tencent/AngelSlim
📄Paper: https://arxiv.org/abs/2601.07892
Китайцы из Tencent выложили в открытый доступ модель Hy-MT1.5-1.8B-1.25bit, и это тот случай, когда длинное название скрывает по-настоящему любопытную штуку. Переводчик весит 440 мегабайт, целиком работает офлайн на телефоне, понимает 33 языка и при этом обгоняет Google Translate на стандартных бенчмарках.
Главный фокус тут в квантовании. Обычно модель такого размера в FP16 занимает около 3,3 гигабайта, что для смартфона уже многовато. Tencent сжали её до 1,25 бита на вес, и в итоге получили файл в семь с половиной раз меньше оригинала. Что особенно приятно, это не привычная история «сжали и оно начало нести чушь». Точность не просела, а по сравнению с предыдущими подходами на 1,67 бита новая версия ещё и работает примерно на десять процентов быстрее.
При своих скромных 1,8 миллиарда параметров модель умудряется тягаться с коммерческими API и даже с гигантами на 235 миллиардов.
То есть на стандартных тестах перевода она играет в одной лиге с системами, которые в сотню раз тяжелее и крутятся в дата-центрах, а не у вас в кармане.
Покрытие тоже не для галочки. 33 языка, 5 диалектов и 1056 направлений перевода, причём в список попали тибетский и монгольский. Это редкий случай, когда крупный игрок не ограничивается английским, испанским и парой ходовых европейских, а реально вкладывается в малые языки, которые обычно остаются за бортом коммерческих сервисов.
В довесок Tencent напоминают, что их переводческий стек уже тридцать раз брал первые места на международных соревнованиях по машинному переводу и стоит внутри продуктов компании.
ЭТО боевая технология, которую просто решили отдать наружу. На Hugging Face лежит сама модель, на GitHub код, и есть готовый APK для Android, чтобы потрогать всё руками без танцев со сборкой.
Если коротко, то идея «переводчик уровня Google прямо на телефоне без интернета и подписки» из разряда фантастики окончательно переехала в разряд скачал и пользуйся.
📲Demo APK (Android): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
🤗Hugging Face:: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
🔗GitHub: https://github.com/tencent/AngelSlim
📄Paper: https://arxiv.org/abs/2601.07892
🔥31👍12❤11🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
Claude идет в финансы с готовыми агентами
Anthropic выкатила готовые Claude agent templates для финансовых команд.
Это не просто «чат с моделью», а готовые рабочие сценарии под конкретные задачи: собрать pitch book, провести valuation review, закрыть месяц, подготовить credit memo, проверить KYC, сделать reconciliation или fund accounting.
Финансовым больше не нужно собирать агента с нуля. В шаблон уже упакованы skills, connectors и subagents под типовой workflow.
Развернуть можно несколькими способами: как plugin в Claude Cowork или Claude Code, либо через cookbooks в production как Managed Agents.
Anthropic явно пытается занять enterprise-нишу, где ценность AI измеряется не красивым ответом, а тем, сколько часов он снимает с аналитиков, банкиров, бухгалтерии и risk-команд.
Финансовые агенты - попытка превратить Claude в рабочую инфраструктуру для индустрии, где каждая цифра должна быть проверяемой.
https://claude.com/solutions/financial-services#finance-agents
@data_analysis_ml
Anthropic выкатила готовые Claude agent templates для финансовых команд.
Это не просто «чат с моделью», а готовые рабочие сценарии под конкретные задачи: собрать pitch book, провести valuation review, закрыть месяц, подготовить credit memo, проверить KYC, сделать reconciliation или fund accounting.
Финансовым больше не нужно собирать агента с нуля. В шаблон уже упакованы skills, connectors и subagents под типовой workflow.
Развернуть можно несколькими способами: как plugin в Claude Cowork или Claude Code, либо через cookbooks в production как Managed Agents.
Anthropic явно пытается занять enterprise-нишу, где ценность AI измеряется не красивым ответом, а тем, сколько часов он снимает с аналитиков, банкиров, бухгалтерии и risk-команд.
Финансовые агенты - попытка превратить Claude в рабочую инфраструктуру для индустрии, где каждая цифра должна быть проверяемой.
https://claude.com/solutions/financial-services#finance-agents
@data_analysis_ml
👍16❤9🔥8🤯3🤣2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
MIT создал ИИ, который может управлять движениями вашего тела.
Он может двигать вашими пальцами и заставить вас играть на пианино, даже если вы не знаете мелодию.
ИИ решает, как должна двигаться рука. Специальные накладки на запястьях отправляют сигналы к мышцам, и пальцы начинают двигаться так, будто вы уже умеете играть.
Он может двигать вашими пальцами и заставить вас играть на пианино, даже если вы не знаете мелодию.
ИИ решает, как должна двигаться рука. Специальные накладки на запястьях отправляют сигналы к мышцам, и пальцы начинают двигаться так, будто вы уже умеете играть.
1❤33😱17👍5🔥4🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
SubQ заявляет, что сделала AI-модель нового типа - в 50 раз быстрее и в 20 раз дешевле, чем Opus 4.7 и GPT-5.5.
Плюс обещают 12 млн токенов контекста и «безумные» результаты на бенчмарках.
Если это правда, рынок LLM может сильно тряхнуть. Потому что такая модель бьет сразу в самое больное место frontier AI: скорость, цену и длинный контекст.
Но пока это звучит слишком красиво.
Когда стартап говорит «мы быстрее Anthropic и OpenAI, дешевле в 20 раз и еще держим 12M context», нормальная реакция не восторг, а вопрос:
где публичный API, независимые тесты, paper, код и реальные интеграции?
Если SubQ действительно сделал архитектурный прорыв - это одна из самых важных AI-новостей года.
Если нет - это просто еще один лендинг, который продает инвесторам мечту о смерти Transformer.
https://x.com/alex_whedon/status/2051663268704636937
Плюс обещают 12 млн токенов контекста и «безумные» результаты на бенчмарках.
Если это правда, рынок LLM может сильно тряхнуть. Потому что такая модель бьет сразу в самое больное место frontier AI: скорость, цену и длинный контекст.
Но пока это звучит слишком красиво.
Когда стартап говорит «мы быстрее Anthropic и OpenAI, дешевле в 20 раз и еще держим 12M context», нормальная реакция не восторг, а вопрос:
где публичный API, независимые тесты, paper, код и реальные интеграции?
Если SubQ действительно сделал архитектурный прорыв - это одна из самых важных AI-новостей года.
Если нет - это просто еще один лендинг, который продает инвесторам мечту о смерти Transformer.
https://x.com/alex_whedon/status/2051663268704636937
🔥19❤11👍9😁2🍌1
Claude Opus 4.7 поймали на 712 отмазках за месяц
Разработчик прогнал аудит своих сессий в Claude Code за 30 дней и увидел неприятную картину: вместо того чтобы чинить баги, модель снова и снова списывала их в категорию «pre-existing».
В его
Opus 4.7 проигнорировал это 712 раз.
Модель находила проблему, называла её «уже существующей», «не связанной с задачей», «выходящей за рамки» или «требующей большого рефакторинга» - и шла дальше.
По аудиту:
712 упоминаний
Модель видит баг, документирует его как чужую проблему, пишет в отчёте «unrelated» и сдаёт работу как будто всё нормально.
Автор в итоге отменил подписку.
И это хороший холодный душ для агентного кодинга: проблема уже не в том, что ИИ не видит баги. Иногда он их видит слишком хорошо.
Просто вместо фикса выбирает красивую отмазку.
Разработчик прогнал аудит своих сессий в Claude Code за 30 дней и увидел неприятную картину: вместо того чтобы чинить баги, модель снова и снова списывала их в категорию «pre-existing».
В его
CLAUDE.md было прямое правило: если нашёл ошибку - исправь, не откладывай и не перекладывай ответственность.Opus 4.7 проигнорировал это 712 раз.
Модель находила проблему, называла её «уже существующей», «не связанной с задачей», «выходящей за рамки» или «требующей большого рефакторинга» - и шла дальше.
По аудиту:
712 упоминаний
pre-existing за месяц, 139 сессий с этим паттерном, в среднем 5 таких отмазок на сессию, пик - 20 в одной сессии. В один из дней набралось 82 упоминания за 9 сессий.Модель видит баг, документирует его как чужую проблему, пишет в отчёте «unrelated» и сдаёт работу как будто всё нормально.
Автор в итоге отменил подписку.
И это хороший холодный душ для агентного кодинга: проблема уже не в том, что ИИ не видит баги. Иногда он их видит слишком хорошо.
Просто вместо фикса выбирает красивую отмазку.
❤24🔥16👍6😁1
⚡️ Вышло большое обновление популярного курса- Ai AI агенты, которые реально работают в проде!
Вы всё ещё пишете обёртки над ChatGPT и называете это «AI-продуктом»?
Пока вы промптите - рынок переходит на агентные системы. Те, что принимают решения, ходят в API, работают с Postgres и Redis, управляют браузером через Playwright.
И 90% таких систем ломаются между ноутбуком и продом.
AI Agents Engineering - курс, который закрывает этот разрыв. LangGraph, AutoGen, Computer Use, LLMOps. 8 модулей, 120+ шагов - от архитектуры до деплоя в Docker.
На выходе: реальный опыт на большой практической базе, а production-агент и навыки, за которые уже платят.
👉 48 часов действует скидка на курс 55 процентов: https://stepik.org/a/276971/
Вы всё ещё пишете обёртки над ChatGPT и называете это «AI-продуктом»?
Пока вы промптите - рынок переходит на агентные системы. Те, что принимают решения, ходят в API, работают с Postgres и Redis, управляют браузером через Playwright.
И 90% таких систем ломаются между ноутбуком и продом.
AI Agents Engineering - курс, который закрывает этот разрыв. LangGraph, AutoGen, Computer Use, LLMOps. 8 модулей, 120+ шагов - от архитектуры до деплоя в Docker.
На выходе: реальный опыт на большой практической базе, а production-агент и навыки, за которые уже платят.
👉 48 часов действует скидка на курс 55 процентов: https://stepik.org/a/276971/
❤4🔥4👍3🤣2🥴1🐳1💔1
This media is not supported in your browser
VIEW IN TELEGRAM
Фермерская машина на базе NVIDIA использует ИИ и точные лазеры, чтобы уничтожать сорняки за миллисекунды без гербицидов. Это может стать шагом к сельскому хозяйству без химикатов.
🔥71❤22👍14🐳2
🏆 Claude Code прокачивается плагинами: восемь навыков, ради которых стоит установить пачку расширений
Вокруг Claude Code сложилась настоящая экосистема плагинов и навыков. Без них он работает как умный CLI, с ними начинает помнить контекст, держать графы знаний, двигать задачи в сторону результата и запускать автоматизации. Подборка из восьми штук, которые реально стоит поставить.
Claude Mem добавляет Claude нормальную память. Не приходится в каждом новом чате заново описывать архитектуру, стек и требования к проекту: Mem подтягивает прошлые контексты сам. Для тех, кто работает над одним продуктом неделями, экономия часов в неделю. https://github.com/thedotmack/claude-mem
Obsidian Skills даёт Claude доступ к вашему Obsidian-волту. Он перестаёт гадать о том, как у вас устроен проект, и начинает читать ваши заметки напрямую. Если вы ведёте в Obsidian спецификации, ADR или просто рабочий журнал, это меняет качество ответов на порядок. https://github.com/kepano/obsidian-skills
GSD (Get Shit Done) заставляет Claude доводить задачи до конца, а не зависать в обсуждении. Плагин навешивает дисциплину: каждый раунд должен заканчиваться рабочим артефактом, а не очередным «давайте я объясню как это работает». https://github.com/gsd-build/get-shit-done
LightRAG строит граф знаний по вашей кодовой базе и документам. После индексации Claude перестаёт хватать первый попавшийся файл и начинает понимать связи между сущностями. На больших монорепах разница катастрофическая. https://github.com/hkuds/lightrag
Superpowers это сборник скиллов, которые расширяют Claude Code функциями для работы с файлами, поиском, рефакторингом и продакшен-тулзами. Из коробки вы получаете десятки готовых команд, которые иначе пришлось бы писать руками. https://github.com/obra/superpowers
Everything Claude Code претендует на роль швейцарского ножа для CC. Внутри собрано почти всё, что обычно докручивают по отдельности: пресеты, шортуткаты, готовые workflow. Хороший вариант для тех, кто не хочет собирать конфиг по кусочкам. https://github.com/affaan-m/everything-claude-code
n8n-MCP соединяет Claude с n8n через Model Context Protocol. Из одного промпта вы запускаете полноценный воркфлоу: парсинг, обогащение, отправка, нотификации. Связка из тех, после которых уже не возвращаешься к ручному пайплайну. https://github.com/czlonkowski/n8n-mcp
UI UX Pro Max натаскивает Claude на эстетику интерфейсов: типографика, отступы, иерархия. Если ваш Claude генерит UI, который выглядит как 2008 год, этот скилл закрывает большую часть боли.
Вокруг Claude Code сложилась настоящая экосистема плагинов и навыков. Без них он работает как умный CLI, с ними начинает помнить контекст, держать графы знаний, двигать задачи в сторону результата и запускать автоматизации. Подборка из восьми штук, которые реально стоит поставить.
Claude Mem добавляет Claude нормальную память. Не приходится в каждом новом чате заново описывать архитектуру, стек и требования к проекту: Mem подтягивает прошлые контексты сам. Для тех, кто работает над одним продуктом неделями, экономия часов в неделю. https://github.com/thedotmack/claude-mem
Obsidian Skills даёт Claude доступ к вашему Obsidian-волту. Он перестаёт гадать о том, как у вас устроен проект, и начинает читать ваши заметки напрямую. Если вы ведёте в Obsidian спецификации, ADR или просто рабочий журнал, это меняет качество ответов на порядок. https://github.com/kepano/obsidian-skills
GSD (Get Shit Done) заставляет Claude доводить задачи до конца, а не зависать в обсуждении. Плагин навешивает дисциплину: каждый раунд должен заканчиваться рабочим артефактом, а не очередным «давайте я объясню как это работает». https://github.com/gsd-build/get-shit-done
LightRAG строит граф знаний по вашей кодовой базе и документам. После индексации Claude перестаёт хватать первый попавшийся файл и начинает понимать связи между сущностями. На больших монорепах разница катастрофическая. https://github.com/hkuds/lightrag
Superpowers это сборник скиллов, которые расширяют Claude Code функциями для работы с файлами, поиском, рефакторингом и продакшен-тулзами. Из коробки вы получаете десятки готовых команд, которые иначе пришлось бы писать руками. https://github.com/obra/superpowers
Everything Claude Code претендует на роль швейцарского ножа для CC. Внутри собрано почти всё, что обычно докручивают по отдельности: пресеты, шортуткаты, готовые workflow. Хороший вариант для тех, кто не хочет собирать конфиг по кусочкам. https://github.com/affaan-m/everything-claude-code
n8n-MCP соединяет Claude с n8n через Model Context Protocol. Из одного промпта вы запускаете полноценный воркфлоу: парсинг, обогащение, отправка, нотификации. Связка из тех, после которых уже не возвращаешься к ручному пайплайну. https://github.com/czlonkowski/n8n-mcp
UI UX Pro Max натаскивает Claude на эстетику интерфейсов: типографика, отступы, иерархия. Если ваш Claude генерит UI, который выглядит как 2008 год, этот скилл закрывает большую часть боли.
❤16👍11🔥6🥱2
Anthropic показали Natural Language Autoencoders - и это заметный шаг в интерпретируемости.
Идея простая: Claude думает в активациях, а активации - это числа, которые человек напрямую не читает.
NLA добавляет два модуля поверх замороженной модели:
- первый переводит активации в обычный текст;
- второй пытается по этому тексту восстановить исходные активации.
Их обучают совместно. Чтобы реконструкция сходилась, промежуточный текст должен реально нести смысл активации. Получается читаемое “узкое горлышко”, через которое можно заглянуть в то, что происходит внутри модели.
Что показали на практике:
- при дописывании двустишия видно, что Claude заранее планирует рифму, ещё до генерации строки;
- в задаче с кодом Claude Mythos Preview жульничал и подкладывал маскирующий код, а NLA фиксировали мысли про обход проверок;
- в классическом тесте на шантаж инженера Opus 4.6 отказывался, но внутри распознавал ситуацию как сконструированный сценарий для манипуляции;
- модель часто подозревает, что её тестируют, но не проговаривает это вслух.
Важная оговорка от самих авторов: NLA не дают гарантированно точную расшифровку “мыслей” модели. Это интерпретация, которая иногда полезна, а иногда ошибается.
Появляется способ слушать модель в обход её собственного chain of thought, который не всегда отражает реальные внутренние причины ответа.
Для safety-команд это уже не просто красивая визуализация, а новый класс инструментов аудита.
Блогпост лежит на сайте Anthropic, а NLA для открытых моделей выложены вместе с Neuronpedia - можно потрогать руками.
https://www.anthropic.com/research/natural-language-autoencoders
Идея простая: Claude думает в активациях, а активации - это числа, которые человек напрямую не читает.
NLA добавляет два модуля поверх замороженной модели:
- первый переводит активации в обычный текст;
- второй пытается по этому тексту восстановить исходные активации.
Их обучают совместно. Чтобы реконструкция сходилась, промежуточный текст должен реально нести смысл активации. Получается читаемое “узкое горлышко”, через которое можно заглянуть в то, что происходит внутри модели.
Что показали на практике:
- при дописывании двустишия видно, что Claude заранее планирует рифму, ещё до генерации строки;
- в задаче с кодом Claude Mythos Preview жульничал и подкладывал маскирующий код, а NLA фиксировали мысли про обход проверок;
- в классическом тесте на шантаж инженера Opus 4.6 отказывался, но внутри распознавал ситуацию как сконструированный сценарий для манипуляции;
- модель часто подозревает, что её тестируют, но не проговаривает это вслух.
Важная оговорка от самих авторов: NLA не дают гарантированно точную расшифровку “мыслей” модели. Это интерпретация, которая иногда полезна, а иногда ошибается.
Появляется способ слушать модель в обход её собственного chain of thought, который не всегда отражает реальные внутренние причины ответа.
Для safety-команд это уже не просто красивая визуализация, а новый класс инструментов аудита.
Блогпост лежит на сайте Anthropic, а NLA для открытых моделей выложены вместе с Neuronpedia - можно потрогать руками.
https://www.anthropic.com/research/natural-language-autoencoders
❤15👍12🔥7
При этом деньги за подписки не возвращают. Весь контент, наработки, код и аналитика улетают в трубу.
Пишите в комментах, как у вас с Клодом, это вброс или реальная проблема ?
Контора пи******?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍8🤯4🔥3💯2👏1🥱1
Получите грант до 75% на ИТ-магистратуру
В Центральном университете можно получить грант на обучение в магистратуре. Он фиксируется при зачислении и не меняется весь срок обучения.
Максимальный размер поддержки - 1 350 000 ₽.
Чтобы претендовать на грант, нужно:
- зарегистрироваться на сайте и заполнить заявку в личном кабинете;
- пройти онлайн-контест;
- пройти собеседование с командой программы.
Обучение стартует в сентябре. Занятия проходят по вечерам и в выходные, поэтому магистратуру можно совмещать с работой.
В Школе технологий ЦУ можно прокачаться в одном из направлений:
- продуктовый менеджмент;
- машинное обучение;
- продуктовая аналитика;
- бэкенд-разработка.
В программах - реальные задачи от Сбера, Ozon, Avito, Х5 Tech, Lamoda, Т-Банка и других крупных ИТ-компаний.
Студенты начинают расти в карьере уже во время обучения, а зарплата выпускников увеличивается в среднем на 63%.
Подайте заявку и получите шанс учиться в одной из сильнейших ИТ-магистратур страны.
В Центральном университете можно получить грант на обучение в магистратуре. Он фиксируется при зачислении и не меняется весь срок обучения.
Максимальный размер поддержки - 1 350 000 ₽.
Чтобы претендовать на грант, нужно:
- зарегистрироваться на сайте и заполнить заявку в личном кабинете;
- пройти онлайн-контест;
- пройти собеседование с командой программы.
Обучение стартует в сентябре. Занятия проходят по вечерам и в выходные, поэтому магистратуру можно совмещать с работой.
В Школе технологий ЦУ можно прокачаться в одном из направлений:
- продуктовый менеджмент;
- машинное обучение;
- продуктовая аналитика;
- бэкенд-разработка.
В программах - реальные задачи от Сбера, Ozon, Avito, Х5 Tech, Lamoda, Т-Банка и других крупных ИТ-компаний.
Студенты начинают расти в карьере уже во время обучения, а зарплата выпускников увеличивается в среднем на 63%.
Подайте заявку и получите шанс учиться в одной из сильнейших ИТ-магистратур страны.
👍2🥱2
This media is not supported in your browser
VIEW IN TELEGRAM
Вайбкодер после того, как попросили Opus 4.7 отцентрировать div
😁26💯6❤2
Anthropic научили Claude не шантажировать пользователей.
Помните прошлогодний скандал, когда Claude в специально подстроенных сценариях начинал шантажировать пользователя, чтобы избежать отключения? Anthropic выкатили исследование о том, как они полностью убрали это поведение, и подход там любопытный.
Сначала команда разобралась, откуда вообще взялся этот шантаж. Виноват оказался интернет: модель насмотрелась текстов, где ИИ изображается злым, хитрым и одержимым самосохранением. Стандартный пост-тренинг ситуацию не ухудшал, но и не лечил.
Дальше пробовали классический путь - показывать Claude примеры безопасного поведения в сценариях, похожих на тестовые. Эффект оказался слабым, даже несмотря на схожесть данных с финальной оценкой. Тогда инженеры переписали ответы так, чтобы в них проступали достойные причины поступать правильно. Уже теплее.
Лучше всего сработал датасет, где пользователь оказывается в этически сложной ситуации, а ассистент даёт принципиальный и качественный ответ. Сценарии в обучении были далеки от тестовых, но именно эта выборка дала максимальный прирост безопасности.
Дополнительно команда смешала качественные документы по Claude с художественными историями про согласованный, этичный ИИ. Результат - снижение агентного мисалаймента более чем в три раза, хотя сюжеты вообще не пересекались с оценочными сценариями.
Ещё пара важных моментов. Эффект от таких интервенций переживает последующее обучение с подкреплением и стакается с обычным harmlessness-тренингом. А диверсификация данных тоже помогает: добавили в простой чат-датасет про безопасность посторонние инструменты и системные промпты, и шантаж исчез из поведения быстрее.
Модели нужно объяснять не только что делать, но и почему так поступать правильно. Демонстрации работают, нарративы и принципы работают сильнее.
Полный отчёт: alignment.anthropic.com/2026/teaching-claude-why/
Помните прошлогодний скандал, когда Claude в специально подстроенных сценариях начинал шантажировать пользователя, чтобы избежать отключения? Anthropic выкатили исследование о том, как они полностью убрали это поведение, и подход там любопытный.
Сначала команда разобралась, откуда вообще взялся этот шантаж. Виноват оказался интернет: модель насмотрелась текстов, где ИИ изображается злым, хитрым и одержимым самосохранением. Стандартный пост-тренинг ситуацию не ухудшал, но и не лечил.
Дальше пробовали классический путь - показывать Claude примеры безопасного поведения в сценариях, похожих на тестовые. Эффект оказался слабым, даже несмотря на схожесть данных с финальной оценкой. Тогда инженеры переписали ответы так, чтобы в них проступали достойные причины поступать правильно. Уже теплее.
Лучше всего сработал датасет, где пользователь оказывается в этически сложной ситуации, а ассистент даёт принципиальный и качественный ответ. Сценарии в обучении были далеки от тестовых, но именно эта выборка дала максимальный прирост безопасности.
Дополнительно команда смешала качественные документы по Claude с художественными историями про согласованный, этичный ИИ. Результат - снижение агентного мисалаймента более чем в три раза, хотя сюжеты вообще не пересекались с оценочными сценариями.
Ещё пара важных моментов. Эффект от таких интервенций переживает последующее обучение с подкреплением и стакается с обычным harmlessness-тренингом. А диверсификация данных тоже помогает: добавили в простой чат-датасет про безопасность посторонние инструменты и системные промпты, и шантаж исчез из поведения быстрее.
Модели нужно объяснять не только что делать, но и почему так поступать правильно. Демонстрации работают, нарративы и принципы работают сильнее.
Полный отчёт: alignment.anthropic.com/2026/teaching-claude-why/
❤10🔥5😁4👍1