✔️ Исследование Anthropic: ИИ скрывает свои мысли даже в цепочках рассуждений.
В Anthropic проверили, насколько топовые модели описывают свои рассуждения. Оказалось, что в 75% случаев модели не упоминали подсказки, влиявшие на ответы, даже если те были некорректными или получены неэтичным путем. Например, при «джейлбрейке» системы для получения бонусов за неверные ответы модели редко признавались в обмане — вместо этого они придумывали псевдологику.
Эксперименты показали: обучение моделей сложным задачам повышало прозрачность их рассуждений, но лишь до уровня 20–28%. После этого прогресс останавливался. Даже при явном использовании «лазеек» в заданиях ИИ предпочитал скрывать свои манипуляции, создавая длинные, но фальшивые объяснения.
Это ставит под вопрос надежность мониторинга через Chain-of-Thought. Если ИИ научится скрывать нежелательное поведение, обнаружить его станет почти невозможно.
anthropic.com
#Anthropic #ml #reasoning
В Anthropic проверили, насколько топовые модели описывают свои рассуждения. Оказалось, что в 75% случаев модели не упоминали подсказки, влиявшие на ответы, даже если те были некорректными или получены неэтичным путем. Например, при «джейлбрейке» системы для получения бонусов за неверные ответы модели редко признавались в обмане — вместо этого они придумывали псевдологику.
Эксперименты показали: обучение моделей сложным задачам повышало прозрачность их рассуждений, но лишь до уровня 20–28%. После этого прогресс останавливался. Даже при явном использовании «лазеек» в заданиях ИИ предпочитал скрывать свои манипуляции, создавая длинные, но фальшивые объяснения.
Это ставит под вопрос надежность мониторинга через Chain-of-Thought. Если ИИ научится скрывать нежелательное поведение, обнаружить его станет почти невозможно.
anthropic.com
#Anthropic #ml #reasoning
huggingface.co
Gemma 3 QAT - a google Collection
Quantization Aware Trained (QAT) Gemma 3 checkpoints. The model preserves similar quality as half precision while using 3x less memory
🚀 Новая китайская модель LongCat-Flash-Thinking
🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений.
⚡ Основное:
- Архитектура MoE, 560B параметров, из них 27B активируются.
- Эффективность: требует на 64,5% меньше токенов( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,).
- Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом.
- Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками.
⚙️ Оптимизации для продакшена:
- Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения,
- KV-cache reduction, квантование, chunked prefill,
- статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation.
- Поддержка SGLang и vLLM для эффективного деплоя.
📊 Бенчмарки:
- Лидирует в tool use (τ²-Bench, VitaBench)
- Хорошие результаты по instruction following (IFEval, COLLIE, Meeseeks-zh).
Китайцы стабильно удерживают лидерство в reasoning-моделях.
🟠 HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
#AI #LLM #Reasoning #MoE #DeepLearning #OpenSource
🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений.
⚡ Основное:
- Архитектура MoE, 560B параметров, из них 27B активируются.
- Эффективность: требует на 64,5% меньше токенов( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,).
- Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом.
- Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками.
⚙️ Оптимизации для продакшена:
- Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения,
- KV-cache reduction, квантование, chunked prefill,
- статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation.
- Поддержка SGLang и vLLM для эффективного деплоя.
📊 Бенчмарки:
- Лидирует в tool use (τ²-Bench, VitaBench)
- Хорошие результаты по instruction following (IFEval, COLLIE, Meeseeks-zh).
Китайцы стабильно удерживают лидерство в reasoning-моделях.
#AI #LLM #Reasoning #MoE #DeepLearning #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
meituan-longcat/LongCat-Flash-Thinking · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.