Anthropic научили Claude не шантажировать пользователей.
Помните прошлогодний скандал, когда Claude в специально подстроенных сценариях начинал шантажировать пользователя, чтобы избежать отключения? Anthropic выкатили исследование о том, как они полностью убрали это поведение, и подход там любопытный.
Сначала команда разобралась, откуда вообще взялся этот шантаж. Виноват оказался интернет: модель насмотрелась текстов, где ИИ изображается злым, хитрым и одержимым самосохранением. Стандартный пост-тренинг ситуацию не ухудшал, но и не лечил.
Дальше пробовали классический путь - показывать Claude примеры безопасного поведения в сценариях, похожих на тестовые. Эффект оказался слабым, даже несмотря на схожесть данных с финальной оценкой. Тогда инженеры переписали ответы так, чтобы в них проступали достойные причины поступать правильно. Уже теплее.
Лучше всего сработал датасет, где пользователь оказывается в этически сложной ситуации, а ассистент даёт принципиальный и качественный ответ. Сценарии в обучении были далеки от тестовых, но именно эта выборка дала максимальный прирост безопасности.
Дополнительно команда смешала качественные документы по Claude с художественными историями про согласованный, этичный ИИ. Результат - снижение агентного мисалаймента более чем в три раза, хотя сюжеты вообще не пересекались с оценочными сценариями.
Ещё пара важных моментов. Эффект от таких интервенций переживает последующее обучение с подкреплением и стакается с обычным harmlessness-тренингом. А диверсификация данных тоже помогает: добавили в простой чат-датасет про безопасность посторонние инструменты и системные промпты, и шантаж исчез из поведения быстрее.
Модели нужно объяснять не только что делать, но и почему так поступать правильно. Демонстрации работают, нарративы и принципы работают сильнее.
Полный отчёт: alignment.anthropic.com/2026/teaching-claude-why/
Помните прошлогодний скандал, когда Claude в специально подстроенных сценариях начинал шантажировать пользователя, чтобы избежать отключения? Anthropic выкатили исследование о том, как они полностью убрали это поведение, и подход там любопытный.
Сначала команда разобралась, откуда вообще взялся этот шантаж. Виноват оказался интернет: модель насмотрелась текстов, где ИИ изображается злым, хитрым и одержимым самосохранением. Стандартный пост-тренинг ситуацию не ухудшал, но и не лечил.
Дальше пробовали классический путь - показывать Claude примеры безопасного поведения в сценариях, похожих на тестовые. Эффект оказался слабым, даже несмотря на схожесть данных с финальной оценкой. Тогда инженеры переписали ответы так, чтобы в них проступали достойные причины поступать правильно. Уже теплее.
Лучше всего сработал датасет, где пользователь оказывается в этически сложной ситуации, а ассистент даёт принципиальный и качественный ответ. Сценарии в обучении были далеки от тестовых, но именно эта выборка дала максимальный прирост безопасности.
Дополнительно команда смешала качественные документы по Claude с художественными историями про согласованный, этичный ИИ. Результат - снижение агентного мисалаймента более чем в три раза, хотя сюжеты вообще не пересекались с оценочными сценариями.
Ещё пара важных моментов. Эффект от таких интервенций переживает последующее обучение с подкреплением и стакается с обычным harmlessness-тренингом. А диверсификация данных тоже помогает: добавили в простой чат-датасет про безопасность посторонние инструменты и системные промпты, и шантаж исчез из поведения быстрее.
Модели нужно объяснять не только что делать, но и почему так поступать правильно. Демонстрации работают, нарративы и принципы работают сильнее.
Полный отчёт: alignment.anthropic.com/2026/teaching-claude-why/
❤19🔥7😁4👍2
DeepMind показали - как математику начинает двигать связка из модели, агентов и человека.
Их AI co-mathematician набрал 48% на FrontierMath Tier 4 - это задачи уровня research, над которыми профессиональные математики могут думать неделями.
Для сравнения: базовая Gemini 3.1 Pro без агентной обвязки набирает 19%.
Несколько агентов параллельно ищут идеи, проверяют доказательства, пишут код, ищут похожие работы и пытаются найти контрпримеры.
Но важная оговорка: эти 48% нельзя напрямую сравнивать с обычными лидербордами. DeepMind запускали систему в своём режиме: до 48 часов на одну задачу, без лимита токенов и на своей инфраструктуре.
Математик Marc Lackenby использовал систему для задачи из Kourovka Notebook. ИИ предложил стратегию доказательства, другой агент нашёл в ней ошибку, а человек закрыл недостающий шаг.
В этом и смысл: ИИ пока не заменяет математическую интуицию. Он не превращается в гения, который сам решает задачи тысячелетия. Зато он резко ускоряет скучную и тяжёлую часть исследования: поиск литературы, проверку идей, перебор вариантов, код и вычислительную верификацию.
https://x.com/pushmeet/status/2052812585804685322
Их AI co-mathematician набрал 48% на FrontierMath Tier 4 - это задачи уровня research, над которыми профессиональные математики могут думать неделями.
Для сравнения: базовая Gemini 3.1 Pro без агентной обвязки набирает 19%.
Несколько агентов параллельно ищут идеи, проверяют доказательства, пишут код, ищут похожие работы и пытаются найти контрпримеры.
Но важная оговорка: эти 48% нельзя напрямую сравнивать с обычными лидербордами. DeepMind запускали систему в своём режиме: до 48 часов на одну задачу, без лимита токенов и на своей инфраструктуре.
Математик Marc Lackenby использовал систему для задачи из Kourovka Notebook. ИИ предложил стратегию доказательства, другой агент нашёл в ней ошибку, а человек закрыл недостающий шаг.
В этом и смысл: ИИ пока не заменяет математическую интуицию. Он не превращается в гения, который сам решает задачи тысячелетия. Зато он резко ускоряет скучную и тяжёлую часть исследования: поиск литературы, проверку идей, перебор вариантов, код и вычислительную верификацию.
https://x.com/pushmeet/status/2052812585804685322
👍28❤8🔥6💯2
Китайский ERNIE 5.1 почти залез в SOTA
Baidu заявляет, что модель стала сильнее в поиске, reasoning, knowledge Q&A, creative writing и agentic-задачах, используя около 6% pre-training cost сопоставимых моделей.
По цифрам:
- 1223 на LMArena Search
- 4-е место в мире по Search
- лучшая китайская модель в этом рейтинге
- 1476 на LMArena Text у ERNIE 5.1 Preview
- 13-е место глобально
Но есть нюанс: полноценного технического отчёта по ERNIE 5.1 пока не видно. Claim про 6% выглядит как заявление Baidu, а не как независимо проверенная метрика.
https://x.com/Baidu_Inc/status/2053009538769735774
Baidu заявляет, что модель стала сильнее в поиске, reasoning, knowledge Q&A, creative writing и agentic-задачах, используя около 6% pre-training cost сопоставимых моделей.
По цифрам:
- 1223 на LMArena Search
- 4-е место в мире по Search
- лучшая китайская модель в этом рейтинге
- 1476 на LMArena Text у ERNIE 5.1 Preview
- 13-е место глобально
Но есть нюанс: полноценного технического отчёта по ERNIE 5.1 пока не видно. Claim про 6% выглядит как заявление Baidu, а не как независимо проверенная метрика.
https://x.com/Baidu_Inc/status/2053009538769735774
👍13❤6🔥3🥱2
xAI умер. Да здравствует SpaceXAI!
Маск только что ликвидировал xAI как отдельную компанию и подал заявку на товарный знак SpaceXAI в USPTO.
Хронология выглядит так:
• Март 2025: xAI покупает X / Twitter за $33 млрд
• Февраль 2026: SpaceX покупает xAI. Общая оценка объединённой структуры - $1,25 трлн: $1 трлн SpaceX и $250 млрд xAI. Крупнейшая сделка в истории.
• 6 мая: подана заявка на товарный знак SpaceXAI в USPTO
• 7 мая 2026: Маск заявляет, что xAI будет «растворена как отдельная компания»
Теперь к финансовой части:
SpaceX в 2025 году: около $15 млрд выручки и примерно $8 млрд прибыли.
xAI за последние 6 месяцев отчётности: около $250 млн выручки и $2,5 млрд убытка.
IPO SpaceX ожидается в конце июня или июле 2026 года с оценкой до $1,5 трлн.
Объединяя xAI и X внутри SpaceX, Маск упаковывает ракеты, Starlink, ИИ и соцсеть в одну большую IPO-историю.
Заявка на товарный знак SpaceXAI покрывает satellite-based data center services и orbital computing infrastructure. Проще говоря - космические дата-центры.
SpaceX уже подавала документы в FCC на орбитальную AI-инфраструктуру из миллиона спутников.
xAI не взлетел как самостоятельная AI-лаборатория. SpaceXAI теперь переупаковывают как инфраструктурную компанию.
В долгую ставка не на конкуренцию моделей, а на продажу вычислений.
tmsearch.uspto.gov/search/search-results/99808217
Маск только что ликвидировал xAI как отдельную компанию и подал заявку на товарный знак SpaceXAI в USPTO.
Хронология выглядит так:
• Март 2025: xAI покупает X / Twitter за $33 млрд
• Февраль 2026: SpaceX покупает xAI. Общая оценка объединённой структуры - $1,25 трлн: $1 трлн SpaceX и $250 млрд xAI. Крупнейшая сделка в истории.
• 6 мая: подана заявка на товарный знак SpaceXAI в USPTO
• 7 мая 2026: Маск заявляет, что xAI будет «растворена как отдельная компания»
Теперь к финансовой части:
SpaceX в 2025 году: около $15 млрд выручки и примерно $8 млрд прибыли.
xAI за последние 6 месяцев отчётности: около $250 млн выручки и $2,5 млрд убытка.
IPO SpaceX ожидается в конце июня или июле 2026 года с оценкой до $1,5 трлн.
Объединяя xAI и X внутри SpaceX, Маск упаковывает ракеты, Starlink, ИИ и соцсеть в одну большую IPO-историю.
Заявка на товарный знак SpaceXAI покрывает satellite-based data center services и orbital computing infrastructure. Проще говоря - космические дата-центры.
SpaceX уже подавала документы в FCC на орбитальную AI-инфраструктуру из миллиона спутников.
xAI не взлетел как самостоятельная AI-лаборатория. SpaceXAI теперь переупаковывают как инфраструктурную компанию.
В долгую ставка не на конкуренцию моделей, а на продажу вычислений.
tmsearch.uspto.gov/search/search-results/99808217
❤17👍5🔥5🤨3💔1
📘 На платформе Mentorix вышел курс — «ML-инженер: от первой модели до продакшена»
Освойте современные инструменты ML и создавайте реальные проекты с данными. Этот курс проведёт вас от первых шагов в Python до полноценной ML-системы.
• Python и библиотеки: NumPy, Pandas, Matplotlib, Seaborn, Plotly, Scikit-learn
• Алгоритмы: регрессия, деревья решений, ансамбли (Random Forest, XGBoost, LightGBM, CatBoost)
• Глубокое обучение: PyTorch, TensorFlow/Keras, CNN, RNN, LSTM, Attention
• Работа с данными: SQL, API, web scraping, очистка и подготовка датасетов
• Итоговый проект — собственная ML-система с код-ревью и поддержкой преподавателей
• Практические кейсы для портфолио и уверенности в реальных задачах
🎓 К концу курса у вас будет реальный проект и навыки, которые можно показать на собеседовании или использовать в работе.
👉 пройти курс
Освойте современные инструменты ML и создавайте реальные проекты с данными. Этот курс проведёт вас от первых шагов в Python до полноценной ML-системы.
• Python и библиотеки: NumPy, Pandas, Matplotlib, Seaborn, Plotly, Scikit-learn
• Алгоритмы: регрессия, деревья решений, ансамбли (Random Forest, XGBoost, LightGBM, CatBoost)
• Глубокое обучение: PyTorch, TensorFlow/Keras, CNN, RNN, LSTM, Attention
• Работа с данными: SQL, API, web scraping, очистка и подготовка датасетов
• Итоговый проект — собственная ML-система с код-ревью и поддержкой преподавателей
• Практические кейсы для портфолио и уверенности в реальных задачах
🎓 К концу курса у вас будет реальный проект и навыки, которые можно показать на собеседовании или использовать в работе.
👉 пройти курс
🤨6❤4👍4❤🔥1🤯1🌭1🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
CopilotKit - open-source стек для тех, кто хочет встраивать AI-агентов прямо в продукт, а не просто прикручивать чат-окно сбоку.
Агент должен не только отвечать текстом, но и работать внутри интерфейса - читать состояние приложения, вызывать действия, обновлять UI и показывать пользователю нормальные React-компоненты вместо простыни текста.
Что умеет CopilotKit:
- готовый Chat UI для React с потоковой генерацией, tool calls и ответами агента;
- Generative UI - агент может рендерить и обновлять компоненты интерфейса;
- Shared State - общий слой состояния между агентом и приложением;
- Backend Tool Rendering - агент вызывает backend-инструменты, а результат отображается прямо в клиенте;
- интеграция с агентными фреймворками и моделями;
- поддержка AG-UI Protocol, который уже используют крупные игроки вроде Google, LangChain, AWS и Microsoft.
По сути, это попытка собрать frontend-слой для agentic apps: не “чат с ИИ”, а интерфейс, где пользователь и агент реально работают вместе.
GitHub: github.com/CopilotKit/CopilotKit
Агент должен не только отвечать текстом, но и работать внутри интерфейса - читать состояние приложения, вызывать действия, обновлять UI и показывать пользователю нормальные React-компоненты вместо простыни текста.
Что умеет CopilotKit:
- готовый Chat UI для React с потоковой генерацией, tool calls и ответами агента;
- Generative UI - агент может рендерить и обновлять компоненты интерфейса;
- Shared State - общий слой состояния между агентом и приложением;
- Backend Tool Rendering - агент вызывает backend-инструменты, а результат отображается прямо в клиенте;
- интеграция с агентными фреймворками и моделями;
- поддержка AG-UI Protocol, который уже используют крупные игроки вроде Google, LangChain, AWS и Microsoft.
По сути, это попытка собрать frontend-слой для agentic apps: не “чат с ИИ”, а интерфейс, где пользователь и агент реально работают вместе.
GitHub: github.com/CopilotKit/CopilotKit
👍13❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini жгет😳
В X появился первый ролик, который приписывают новой видео-моделью Gemini Omni, и там главный шок в тексте.
Надписи в видео выглядят потрясающе. Без каши из букв, без случайных символов, без ощущения, что модель просто угадывает форму текста.
https://gemini.google.com/share/7d5dc678c80a
@data_analysis_ml
В X появился первый ролик, который приписывают новой видео-моделью Gemini Omni, и там главный шок в тексте.
Надписи в видео выглядят потрясающе. Без каши из букв, без случайных символов, без ощущения, что модель просто угадывает форму текста.
https://gemini.google.com/share/7d5dc678c80a
@data_analysis_ml
👍27🔥16❤6🤨5🥱3😍2🤔1
Карпатый: хватит читать ответы ИИ простынёй. Просите HTML
Андрей Карпатый поделился простым лайфхаком: в конце запроса к языковой модели добавляйте «оформи ответ как HTML», сохраняйте файл и открывайте в браузере.
Работает неожиданно хорошо.
Можно пойти дальше и попросить модель сразу упаковать ответ в слайды, мини-лендинг, интерактивную страницу или визуальную шпаргалку.
За этим советом стоит мысль глубже: аудио отлично подходит для ввода, но вывод от ИИ должен быть визуальным.
Текстовая простыня быстро утомляет. Markdown с заголовками, таблицами и списками уже стал нормой. Следующий шаг - HTML с нормальной вёрсткой, блоками, цветами, схемами и интерактивом.
А дальше, по прогнозу Карпатого, нас ждут ответы в формате интерактивных видео и симуляций, которые модель будет генерировать на лету.
С вводом тоже не всё идеально. Текста и голоса мало. Не хватает возможности просто ткнуть пальцем в экран, показать жестом, выделить область и сказать: «вот это поменяй».
Интерфейс человек - ИИ ещё очень сырой. До нейроинтерфейсов далеко, но один апгрейд доступен уже сейчас.
Просите не просто ответ.
Просите HTML.
Разница чувствуется сразу.
https://x.com/karpathy/status/2053872850101285137
Андрей Карпатый поделился простым лайфхаком: в конце запроса к языковой модели добавляйте «оформи ответ как HTML», сохраняйте файл и открывайте в браузере.
Работает неожиданно хорошо.
Можно пойти дальше и попросить модель сразу упаковать ответ в слайды, мини-лендинг, интерактивную страницу или визуальную шпаргалку.
За этим советом стоит мысль глубже: аудио отлично подходит для ввода, но вывод от ИИ должен быть визуальным.
Текстовая простыня быстро утомляет. Markdown с заголовками, таблицами и списками уже стал нормой. Следующий шаг - HTML с нормальной вёрсткой, блоками, цветами, схемами и интерактивом.
А дальше, по прогнозу Карпатого, нас ждут ответы в формате интерактивных видео и симуляций, которые модель будет генерировать на лету.
С вводом тоже не всё идеально. Текста и голоса мало. Не хватает возможности просто ткнуть пальцем в экран, показать жестом, выделить область и сказать: «вот это поменяй».
Интерфейс человек - ИИ ещё очень сырой. До нейроинтерфейсов далеко, но один апгрейд доступен уже сейчас.
Просите не просто ответ.
Просите HTML.
Разница чувствуется сразу.
https://x.com/karpathy/status/2053872850101285137
🔥19👍10🍌2❤1🤨1