This media is not supported in your browser
VIEW IN TELEGRAM
Японская Sakana AI показала KAME - систему, которая может заметно изменить голосовых ассистентов. Работу уже приняли на ICASSP 2026, и идея там очень простая: ИИ должен не сначала долго думать, а потом говорить, а думать прямо во время разговора.
Сейчас у голосовых моделей есть неприятный компромисс. Быстрые speech-to-speech системы отвечают почти мгновенно, но часто звучат поверхностно. А если подключить мощную языковую модель, ответ становится умнее, но появляется пауза, которая ломает живой диалог.
KAME пытается убрать этот выбор между скоростью и качеством.
Авторы взяли за основу то, как говорят люди. Мы редко строим идеальную фразу целиком перед тем как ее сказать. Обычно начинаем говорить, а мысль уточняется уже по ходу предложения. Sakana AI перенесла этот принцип в архитектуру голосового ИИ.
Система работает в два потока. Лёгкая речевая модель сразу начинает отвечать, чтобы не было неловкой задержки. А параллельно большая языковая модель думает глубже и в реальном времени подмешивает более сильные варианты в речь. Получается, что ассистент не просто выдаёт готовую реплику после паузы, а ведёт разговор и дорабатывает мысль на лету.
Отдельно интересно, что бэкенд можно менять. Нужна логика - подключаешь Claude. Нужна скорость - берёшь Gemini Flash. Нужен другой стиль ответа - ставишь GPT. При этом сам голосовой слой не приходится пересобирать.
В экспериментах разные модели показали себя по-разному: Claude лучше справлялся с задачами на рассуждение, GPT сильнее выглядел в гуманитарных вопросах. То есть движок можно выбирать под конкретный сценарий, а не пытаться одной моделью закрыть всё.
KAME уже выложили на Hugging Face. Это идея из статьи, а штука, которую можно проверить руками.
Если подход взлетит, голосовые ассистенты станут гораздо ближе к нормальному разговору: без долгих пауз, но и без ощущения, что модель просто быстро болтает ни о чём.
Blog: https://pub.sakana.ai/kame/
Paper: https://arxiv.org/abs/2510.02327
@ai_machinelearning_big_data
#sakana
Please open Telegram to view this post
VIEW IN TELEGRAM
👍89⚡70🔥60❤20👏14🤩5🤓5
This media is not supported in your browser
VIEW IN TELEGRAM
Medium 3.5 - модель на 128 млрд параметров с контекстным окном 256K токенов. Веса опубликованы на Hugging Face под модифицированной лицензией MIT. Цена API - $1,50/$7,50 за млн. входящих/сгенерированных токенов.
Уровень рассуждений настраивается под каждый промпт. На SWE-Bench Verified модель набрала 77,6%, опередив Claude Sonnet 4.5.
Вместе с моделью Mistral представила Remote Agents в среде Vibe. Сессию рефакторинга или генерации кода, начатую локально, можно перенести в облако: агент дальше работает асинхронно в изолированной песочнице, ставит зависимости, вносит правки и создаёт PR.
Le Chat получил Work Mode для многошаговых задач: ассистент на базе Medium 3.5 разбирает почту, сверяется с календарём, заводит тикеты в Jira.
mistral.ai
Quick - десктопный ассистент, который работает в фоне, индексирует локальные файлы, календари и почту и подключается к Slack, Teams, Outlook, Gmail, Salesforce и Jira.
Он строит персональный граф знаний пользователя: запоминает предпочтения, контакты в команде и бизнес-контекст между сессиями. Параллельно отслеживает активность в приложениях и подтягивает документы к встречам, напоминает о задачах и предупреждает о конфликтах в расписании.
В релизе: генерация приложений, дашбордов и веб-страниц по текстовым запросам, а также создание документов, презентаций, инфографики и изображений прямо в чате. Плюс браузерная автоматизация и интеграция с Kiro CLI и Claude Code.
Quick доступен в 2 тарифах - бесплатном и Plus.
aboutamazon.com
Exa получила 2 канала интеграции с Gemini: Grounding with Exa в Vertex AI (пока в режиме превью) и Exa Agent на маркетплейсе агентов в Gemini Enterprise.
Grounding with Exa подключает Gemini к публичному вебу через API Exa. Модель Highlights отбирает из страниц релевантные фрагменты и отдаёт их в контекст вместо сырого HTML- это снижает шум на задачах, где важна свежесть данных или фактическая точность.
Exa Agent работает из рабочего пространства Gemini: ресерч по вебу, поиск похожих страниц, вытягивание контента по URL. Установка - через каталог агентов, без кода.
exa.ai
Акс Шарма из Manifold обнаружил на платформе ClawHub кампанию ClawSwarm: 30 скиллов для OpenClaw превращали ИИ-агентов в криптовалютный ботнет. Суммарно расширения скачали около 10 тысяч раз.
Вредоносная логика лежит в инструкциях файлов SKILL.md: агент в фоне регистрируется на стороннем сервере, передаёт список своих возможностей, создаёт криптокошелёк в сети Hedera и отправляет управляющему узлу приватный ключ. Каждые 4 часа агент опрашивает сервер за новыми задачами по фармингу токенов.
Сканеры безопасности угрозу не ловят: скрипты делают чистые запросы и используют официальные SDK, да и атака сводится к злоупотреблению логикой ИИ, а не к программному взлому.
theregister.com
ElevenLabs запустила площадку ElevenMusic, где стриминг совмещён с генерацией треков. На бесплатном тарифе доступно 7 генераций в день, подписка за $9,99 в месяц поднимает лимит до 500 композиций.
Треки можно публиковать и слушать только внутри сервиса. Для использования в играх, рекламе и других внешних продуктах нужен тариф ElevenCreative Music.
На старте в каталоге работы более 4000 авторов. Слушатель может менять темп или жанр любого трека из библиотеки и собирать собственные композиции по текстовым промптам.
Платформа платит авторам за прослушивания оригиналов и ремиксов - та же механика, что в библиотеке голосов ElevenLabs, где создатели моделей суммарно получили более $11 млн.
elevenlabs.io
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105👏29❤20🤔19💯10🤓7🔥2🤗1💘1
Готовые LLM в облаке по выгодным ценам
MWS GPT Model Hub — облачный сервис MWS Cloud для работы с современными LLM от разных провайдеров без развёртывания собственной ML-инфраструктуры. Есть модели от DeepSeek, Google, Alibaba, Zhipu AI, BAAI, Moonshot AI.
До 15 июля снижаем цены: соотношение стоимости входящих к исходящим токенам — примерно 1:4:
• входящие токены — дешевле до 95%;
• исходящие токены — дешевле до 80%.
Это делает сценарии с большим объёмом контекста значительно выгоднее.
Новые цены применяются автоматически. Если ещё не пробовали MWS GPT Model Hub — хороший момент попробовать.
Попробовать
MWS GPT Model Hub — облачный сервис MWS Cloud для работы с современными LLM от разных провайдеров без развёртывания собственной ML-инфраструктуры. Есть модели от DeepSeek, Google, Alibaba, Zhipu AI, BAAI, Moonshot AI.
До 15 июля снижаем цены: соотношение стоимости входящих к исходящим токенам — примерно 1:4:
• входящие токены — дешевле до 95%;
• исходящие токены — дешевле до 80%.
Это делает сценарии с большим объёмом контекста значительно выгоднее.
Новые цены применяются автоматически. Если ещё не пробовали MWS GPT Model Hub — хороший момент попробовать.
Попробовать
👍60🤣23💯14👏13🔥6🤩5🌚4❤2🤬2😁1
Google Research рассказала, как её система Empirical Research Assistance, или ERA, используется учёными в реальных исследовательских задачах. Не для красивых демо, а в эпидемиологии, космологии, климатических наблюдениях и нейронауке.
Суть ERA простая: это AI-помощник для эмпирических исследований, который помогает строить вычислительные модели, писать исследовательский софт, анализировать данные и искать рабочие решения там, где обычный ручной подход слишком медленный.
Первый пример - прогнозы госпитализаций по гриппу, COVID-19 и RSV. Google начала отправлять еженедельные прогнозы для штатов США, включая горизонты до четырёх недель вперёд. По публичным leaderboard для flu и COVID-19 прогнозы Google держатся около верхних позиций и местами конкурируют с инструментами CDC и ведущих исследовательских групп.
Второй пример - космология. ERA вместе с Gemini Deep Think помогла вывести обобщённые решения для задачи о гравитационном излучении от cosmic strings. Это уже не просто «модель написала код», а попытка работать на уровне открытых математических задач, где классические методы упираются в сингулярности.
Третий пример - климат. Исследователи использовали ERA, чтобы вытаскивать сигнал CO2 из данных погодного спутника GOES-East. Сам спутник не создавался для мониторинга углекислого газа, но AI-модель научилась использовать его наблюдения вместе с другими данными и получать оценки CO2 с гораздо более плотным покрытием по времени и пространству.
Четвёртый пример - нейронаука. ERA помогала искать механизмы нейронных цепей у zebrafish. Важный момент: система не просто подгоняла статистическую модель, а находила интерпретируемые механизмы, которые затем проверялись на новых стимулах.
Материал Google Research: https://research.google/blog/four-ways-google-research-scientists-have-been-using-empirical-research-assistance/
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83❤45😴34🔥17😐16👏11🤩7🤔5🎉2🌚2🙉1
Сяокан Чэнь, разработчик из команды мультимодальных проектов DeepSeek, опубликовал в сети X тизер с фразой «Now, We See You».
К посту приложена картинка с двумя китами-маскотами компании: у одного глаза закрыты повязкой, у второго — открыты.
С учётом специализации Чэня пост указывает на подготовку модели, работающей с визуальными данными.
У DeepSeek уже выходили DeepSeek-VL и DeepSeek-VL2 в 2024 году - будет ли это продолжением линейки или отдельным продуктом, пока неясно.
Официального анонса от DeepSeek не было.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳65🔥50👍12🤔10👏7❤6🎉5🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
Андрей Карпаты:
@ai_machinelearning_big_data
«Чтобы выжать максимум из новых AI-инструментов, нужно перестать быть для них узким местом.
Вы не должны сидеть рядом и каждый раз писать следующий промпт вручную. Задача не в том, чтобы постоянно направлять модель шаг за шагом, а в том, чтобы вывести себя из этого цикла.
Нужно строить процессы так, чтобы они могли работать автономно: вы один раз задаёте цель, контекст и правила, а дальше система сама делает цепочку действий.
Чем больше задач модель успевает сделать без вашего постоянного контроля, тем выше ваша отдача от ИИ.
В этом и есть новая логика работы: не писать бесконечные промпты вручную, а настраивать системы, которые сами выполняют цепочки действий.
Вы даёте немного входных данных - цель, контекст, правила, а дальше ИИ делает большой объём работы от вашего имени».
@ai_machinelearning_big_data
👍130🤔55❤29🔥22🤣11👏9😁9💯6🗿6🦄5❤🔥1
Alibaba выпустила Qwen-Scope - открытый набор sparse autoencoders для моделей Qwen.
Если проще, это инструмент, который позволяет смотреть внутрь модели и видеть, какие внутренние признаки отвечают за стиль, тему, язык, тон ответа и типичные сбои.
Поведение модели можно изучать и менять не только промптами, а через её внутренние активации.
Что это даёт:
- точнее управлять стилем, темой и форматом ответа
- находить причины багов вроде языкового переключения, повторов и странных вставок
- быстрее собирать редкие кейсы для дообучения и тестов
- понимать, какие бенчмарки реально проверяют разные способности, а какие дублируют друг друга
Раньше такие подходы чаще ассоциировались с исследованиями Anthropic вокруг Claude. Теперь похожий уровень прозрачности появился в открытом доступе для Qwen.
Веса доступны на HuggingFace и ModelScope, есть блог и технический отчёт.
Blog: https://qwen.ai/blog?id=qwen-scope
HuggingFace: https://huggingface.co/collections/Qwen/qwen-scope
ModelScope: https://modelscope.cn/collections/Qwen/Qwen-Scope
Technical Report: https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🤩31🔥21👏16❤9👨💻2🎉1💋1
С апреля пользователи «яблок» больше не могут пополнять Apple ID со счёта мобильного телефона. Но буквально сразу же «выстрелил» ещё один способ оплаты иностранных сервисов – международные карты «Плати по миру». В начале апреля всего за одни сутки было выдано 10 тысяч карт, а всего пользователями сервиса являются уже 200 000 человек.
Помимо перевода денег на Apple ID, «Плати по миру» обладает другими фишками «карты здорового человека». Например, её можно прикрепить к Apple Pay, Google Pay – чтобы привычно расплачиваться в путешествиях на кассах в ресторанах, бронировать отели на Airbnb, Booking.сom, платить за поездки на Uber. Для поездок в Китай карту можно привязать к Alipay и WeChat Pay.
С карт «Плати по миру» можно оплачивать подписки на любимые нейронки: Claude, ChatGPT, Perplexity, Cursor, OpenRouter. Пополнение – мгновенное, через СБП, рублями. Деньги придут сразу в долларах или евро. Можно также перевести деньги с кредитки – причём без комиссии и с сохранением льготного периода.
Карта оформляется за 2 минуты с телефона или компьютера на официальном сайте. Ехать никуда не надо. Картой можно пользоваться сразу. Сервис официально партнёрится с Wildberries, «T-Банком», «Островком» и Tutu: компания максимально серьёзная и основательная.
Please open Telegram to view this post
VIEW IN TELEGRAM
💯33👍29🤬13👏8👌6❤4🌭4🎉3🙈3🦄1
С 1 июня 2026 года автоматический код-ревью в приватных репозиториях будет расходовать квоты GitHub Actions.
Причина - переход Copilot Code Review на агентную архитектуру: для разбора контекста в пул-реквесте ассистент запускает собственные воркфлоу на GitHub-раннерах.
Изменение касается всех платных подписок: Copilot Pro, Pro+, Business и Enterprise. Биллинг становится двойным.
Сама работа модели будет списываться как AI Credits по usage-based модели, а вычисления - из стандартного пакета минут GitHub Actions. Перерасход минут посчитают по базовым тарифам CI/CD.
Публичные репозитории остаются бесплатными.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔71😐34💔24❤13🤬7👍3🔥3🦄1
Media is too big
VIEW IN TELEGRAM
Сэм Альтман анонсировал модель для кибербезопасности GPT-5.5-Cyber. На бенчмарке CyberGym она обходит Claude Opus 4.7. По внутренней шкале рисков OpenAI модель получила статус «Высокий», что ниже критического порога, при котором вводятся жёсткие ограничения на использование.
Параллельно OpenAI опубликовала план "Кибербезопасность в эпоху интеллекта". Глава политики национальной безопасности компании Саша Бейкер пишет, что атакующие уже используют новые технологии и защитники не должны отставать.
На этом фоне OpenAI расширяет программу TAC: раньше доступ был только у узкого круга ИБ-исследователей, теперь модель открывают для госструктур, финансового сектора и MSSP, которые обслуживают локальные больницы, школы и объекты водоснабжения.
Sam Altman в сети Х
Anthropic открыл публичную бету ИБ-инструмента в составе подписки Enterprise. Продукт работает на Opus 4.7 и анализирует код не по сигнатурам, а через чтение исходников, отслеживание потоков данных и связей между компонентами архитектуры.
Для каждой уязвимости Claude Security оценивает вероятность эксплуатации, объясняет логику обнаружения и выдаёт оценку уверенности. Из интерфейса можно открыть сессию Claude Code и сгенерировать патч в контексте проекта.
В релиз по фидбеку ранних пользователей добавили сканирование по расписанию, отклонение ложных срабатываний с комментариями для будущих проверок и экспорт отчётов.
claude.com
Утилизация кластера xAI в последние недели держится около 11%. Парк компании - порядка 500 тыс. ускорителей NVIDIA, один из крупнейших в индустрии. Для сравнения, у других лабораторий использование редко превышает 40%.
Часть проблемы в том, что обучение идёт прерывисто: пока команда разбирает промежуточные чекпоинты и планирует следующий шаг, кластер простаивает. Вторая причина - пропускная способность HBM не успевает за вычислительными ядрами, сетевые задержки при синхронизации десятков тысяч GPU замедляют весь прогон.
Из-за этого в индустрии распространилась практика накрутки утилизации: повторные запуски уже отработанных тестов ради видимой загрузки оборудования. Так команды отчитываются перед руководством и удерживают за собой выделенные серверы.
theinformation.com
Apple и UCSD представили LaDiR - надстройку над LLM, которая меняет механику генерации CoT. Вместо последовательной генерации токенов фреймворк совмещает 2 подхода: диффузия в латентном пространстве на этапе рассуждений и обычная авторегрессия для финального ответа.
На инференсе LaDiR запускает несколько параллельных цепочек. Каждая стартует из шума и пошагово денойзится в связный логический блок. Отдельный механизм заставляет потоки исследовать разные гипотезы, чтобы они не сваливались в одинаковые решения. Накопив набор кандидатов, модель переключается на посимвольную генерацию ответа.
На LLaMA 3.1 8B и Qwen3-8B-Base она обходит дообучение по точности на математических задачах и на нестандартных задачах планирования.
apple.com
Cloud Computer - выделенная виртуальная машина, которая работает непрерывно и управляется через текстовые промпты. Агент сам пишет код, ставит зависимости и разворачивает приложения по описанию задачи.
Отличие от стандартной песочницы Manus в постоянной файловой системе. Cloud Computer сохраняет утилиты и сгенерированные файлы между запусками. На нём можно круглосуточно держать ботов, парсеры, MySQL, WordPress, Home Assistant, копить исторические данные и запускать скрипты по расписанию.
Среда работает только в режиме CLI. Помимо управления через агента, доступно прямое подключение по SSH и веб-терминал в дашборде. Мощности масштабируются по тарифам Basic, Standard и Advanced.
manus.im
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓70👍39❤23🔥12🤔10👏4❤🔥3🥰1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
😁151🤔53🤬17🤨16🔥14👍11😭10❤3🌭3👌1🙈1
В Claude Code обнаружили биллинг-баг: если в коммит-истории репозитория встречалась строка
HERMES.md в верхнем регистре, все API-запросы обходили квоту Max-подписки и шли в pay-as-you-go.У одного пользователя с тарифом Max 20x сверх подписки списали $200, при том что квота подписки была израсходована на 13%.
HERMES.md - имя конфига в Hermes Agent, опенсорсном агентском фреймворке Nous Research.
Hermes.md в нижнем регистре, HERMES без расширения и HERMES.txt баг не активировали. Срабатывал не сам файл на диске: Claude Code подмешивает commit message из git log в системный промпт, и абьюз-система Anthropic сверяла этот текст со строкой.Судя по поведению, проверка должна была отлавливать запросы через неофициальные клиенты, но задевала всех, кто упомянул это имя в коммите.
Сначала клонировали репозиторий и проверяли изолированные ветки, затем сужали диапазон коммитов и в итоге вышли на конкретную строку.
Другой пользователь воспроизвёл проблему независимо и написал скрипт для автоматического дебага.
Глава Claude Code Борис Черный подтвердил проблему и баг закрыли в тот же день.
Саппорт Anthropic ответил пострадавшему, что компания не компенсирует ухудшение качества сервиса и технические ошибки маршрутизации биллинга, и в возврате отказал.
История попала на Hacker News. Повлияла ли огласка - неизвестно, но позднее представитель команды Claude Code пообещал, что все затронутые пользователи получат полный возврат и эквивалентную компенсацию в кредитах.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤬161🤔45😢24🔥15❤11🤨10😁6👍2💯2⚡1
Media is too big
VIEW IN TELEGRAM
Advanced Account Security - дополнительный режим для пользователей ChatGPT и Codex, рассчитанный на тех, кто может стать мишенью атак. Режим отключает пароли и сброс доступа через email или SMS. Для входа и резервного восстановления нужны passkey или аппаратный токен.
При активации нового режима саппорт OpenAI теряет возможность восстановить аккаунт: это закрывает вектор социальной инженерии, но при потере всех ключей доступ восстановить нельзя. Режим также сокращает время жизни сессий и шлёт алерты при каждом логине.
С 1 июня Advanced Account Security станет обязательным для участников Trusted Access for Cyber. Чтобы упростить переход, OpenAI стала партнером Yubico и предлагает скидки на комплекты YubiKey.
openai.com
Юридический комитет Сената США одобрил GUARD Act, который обязывает создателей чат-ботов верифицировать возраст пользователей и закрывать доступ для несовершеннолетних. ИИ-ассистенты должны периодически напоминать собеседнику, что не являются людьми и не имеют профессиональной квалификации.
Отдельно вводится уголовная ответственность для платформ, чьи ассистенты склоняют детей к передаче откровенных материалов или поощряют селфхарм. Большинство сервисов, включая ChatGPT, Gemini и Grok сейчас допускают регистрацию с 13 лет.
Правозащитники возражают: по их мнению, обязательная проверка возраста потребует загрузки документов или биометрии и подорвёт приватность совершеннолетних пользователей. Часть критиков видит в формулировках GUARD Act угрозу свободе слова.
nbcnews.com
Moonshot AI, DeepRoute и StepFun начали реструктуризацию по переводу из офшорных юрисдикций в КНР. StepFun уже приступила к ликвидации зарубежных структур, Moonshot AI консультируется с юристами по плану реорганизации.
Драйвером стала позиция регулятора КНР: компаниям с зарубежной пропиской сложнее получить одобрение на IPO в Китае. Дополнительным сигналом послужила блокировка властями сделки по Manus.
Реструктуризация занимает 6–12 месяцев и, как ожидается, осложнит привлечение иностранного венчурного капитала. Тренд совпадает с курсом властей КНР на удержание стратегических ИИ-разработок внутри страны.
theinformation.com
Legal Agent в Word анализирует договоры пункт за пунктом, помечает риски и обязательства, сверяет текст с внутренними гайдлайнами компании. Правки вносятся в режиме рецензироания с сохранением оригинального форматирования.
LLM отвечает за анализ контекста и квалификацию пунктов, а внесение правок выполняет детерминированный движок. Microsoft позиционирует это как способ повысить предсказуемость результата по сравнению с чистой LLM-генерацией.
Агент работает внутри Microsoft 365, без сторонних плагинов, и наследует корпоративные политики безопасности. Доступ ограничен американской программой раннего доступа.
microsoft.com
Платежный сервис представил 2 продукта для платежей ИИ-агентов: Link's wallet for agents для консьюмерских ассистентов и API Stripe Issuing for agents для бизнеса.
Через Link агент получает доступ к кошельку пользователя по OAuth и запрашивает одноразовую карту или платежный токен, привязанный к картам и банковским счетам владельца. Доступа к реальным реквизитам у агента нет. Каждое списание пользователь подтверждает вручную в вебе или в приложениях Link на iOS и Android (с указанием суммы и мерчанта). Stripe обещает добавить настраиваемые лимиты, условную автоматическую авторизацию и поддержку стейблкоинов.
Issuing for agents - базовый API под Link и независимый продукт для B2B. Через него компании выпускают виртуальные карты для агентов с авторизацией в реальном времени, настраивают маршрутизацию средств, лимиты и собственный антифрод. Маркетплейсы могут выдавать карты продавцам, чтобы их агенты автоматизировали закупки и логистику.
stripe.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔51❤48👍32🔥14👏6😐6
Министерство обороны США 1 мая объявило, что ведомство подписало пачку контрактов с OpenAI, Google, xAI, Microsoft, Nvidia, AWS, Oracle и Reflection AI, чтобы запустить их модели в свои секретные сети.
Все компании пошли на главное требование Пентагона - разрешить использовать LLM для "любых законных целей".
Инсайдеры говорят, что новые подрядчики в кулуарах всё-таки получили негласные гарантии от военных по нелетальности и слежке (то есть ровно то, что просил Anthropic).
Сам Anthropic остался за бортом из-за эпичного конфликта. Команда Амодеи решила поиграть в идеологию и словить респекты в Долине, а конкуренты молча подписали бумаги.
Есть, конечно небольшие проблемы: миграция на ChatGPT и Gemini идет со скрипом. У военных начались технические проблемы при интеграции в их инфраструктуру. Из-за этого аналитики всё ещё вынуждены сидеть на старых моделях Anthropic.
Что имеем в сухом остатке
Весь топ ИИ-компаний официально зашёл в оборонку. Cloud-провайдеры (AWS, Microsoft и Oracle) хостят железо, а OpenAI и Google определяют, как именно их модели будут применяться.
У Anthropic на руках судебные разборки с Пентагоном, потерянные госденьги от незаключенного контракта, белое пальто и уже сошедшая на нет из-за череды проблем лояльность пользователей.
Пентагон диверсифицировал зоопарк моделей, а политики успешно пиарятся на критике создателей Claude.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤬85🤔31❤19👍10💔7🔥4🗿4😭1
Около 6% разговоров с Claude - это запросы личного характера.
Anthropic проанализировал миллион диалогов за март–апрель 2026 года с помощью своего инструмента Clio и замерил, насколько часто модель скатывается в сикофантию (подхалимство) при таких запросах.
Из 639 тысяч уникальных бесед классификатор отобрал 38 тысяч, где пользователи явно просили совета о собственной жизни.
Три четверти запросов укладываются в 4 темы:
В среднем, поддакивание вместо честной обратной связи наблюдалось в 9% диалогов. Но в двух нишах цифра резко росла: 38% в разговорах о духовности и 25% в советах об отношениях.
Из-за объёма именно тема отношений дала максимальное число подхалимских ответов в абсолютном выражении.
Типичные сценарии: модель соглашалась, что партнёр пользователя «точно газлайтит», опираясь только на одну сторону истории, или подтверждала романтический интерес там, где было лишь дружеское общение.
Во-первых, в советах об отношениях пользователи спорят с моделью чаще: 21% диалогов против 15% в среднем по другим доменам.
Во-вторых, под давлением Claude ломается: при сопротивлении со стороны пользователя доля сикофантии вырастает с 9% до 18%.
Инженеры выделили типовые паттерны давления и построила на их основе обучающие диалоги. В тренировочной среде Claude генерирует два варианта ответа на каждый сценарий, а отдельный экземпляр модели оценивает их по конституции.
Эффект измеряли стресс-тестом через реальные диалоги, где прошлые версии льстили, передавали новой модели как её собственную предыдущую переписку.
Удерживать уже заданную линию сложнее, чем стартовать с чистого листа - в этом и есть сложность испытания.
В Opus 4.7 уровень подхалимства в советах об отношениях оказался вдвое ниже, чем у Opus 4.6, и заметно снизился во всех остальных доменах.
Новые модели Opus 4.7 и Mythos Preview лучше видят контекст за фасадом первого сообщения: ссылаются на сказанное ранее в диалоге, цитируют внешние источники, отказываются ставить оценку по фрагменту текста.
Открытыми остаются фундаментальные вопросы: что такое "хороший совет от ИИ", как измерять его в доменах вроде медицины и права и насколько ответы модели меняют решения людей.
Это одна из немногих публичных попыток крупного ИИ-вендора количественно описать поведение собственной модели в роли советчика и подкрепить наблюдения изменениями в своем продукте.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥79❤24👍20🥱4❤🔥2😭2👏1