4 случайных парня получили доступ к Claude Mythos, просто угадав URL
Bloomberg пишет, что это была некая небольшая группа неавторизованных пользователей из частного Discord-канала, созданного для поиска неанонсированных ИИ-моделей.
Ребята проанализировали правила именования API Anthropic по недавней утечке стартапа Mercor и просто угадали эндпоинт Mythos. Один из них также достал легитимную учетную запись конторы подрядчика, и они получили доступ к модели без какого-либо взлома.
Доступ был получен в тот же день, когда Anthropic объявила о запуске Project Glasswing, то есть счастливчики беспрепятственно использовали Mythos на протяжении двух недель. Пишут, правда, что ничего сверхъестественного они с ней не делали, просто тихо вайбкодили.
Anthropic: «Ой, наша новая модель настолько опасная, что доступ к ней будет только у 40 компаний во всем мире»😱
Также безопасность Anthropic:
Bloomberg пишет, что это была некая небольшая группа неавторизованных пользователей из частного Discord-канала, созданного для поиска неанонсированных ИИ-моделей.
Ребята проанализировали правила именования API Anthropic по недавней утечке стартапа Mercor и просто угадали эндпоинт Mythos. Один из них также достал легитимную учетную запись конторы подрядчика, и они получили доступ к модели без какого-либо взлома.
Доступ был получен в тот же день, когда Anthropic объявила о запуске Project Glasswing, то есть счастливчики беспрепятственно использовали Mythos на протяжении двух недель. Пишут, правда, что ничего сверхъестественного они с ней не делали, просто тихо вайбкодили.
Anthropic: «Ой, наша новая модель настолько опасная, что доступ к ней будет только у 40 компаний во всем мире»
Также безопасность Anthropic:
Please open Telegram to view this post
VIEW IN TELEGRAM
😁652❤53🔥34👍10 8🤯4👨💻4
Google выпустили новое поколение TPU
Они анонсировали TPU 8t и TPU 8i. Один чип под обучение, другой – под инференс и ризонинг.
Фактически, компания уходит от универсальных ускорителей и переходит к идее специфичного проектирования чипов под узкие места и задачи (это уже абсолютно другая стратегия в сравнении с Nvidia, которые берут как раз универсальностью). Это и есть ключевой момент релиза.
Итак, TPU 8t – это для обучения. Их может быть до 9 600 в одном кластере, и упор сделан на скорость обучения и масштабирование. Интересно, что есть отдельные блоки, спроектированные под ускорение специфичных операций, например для рексис.
TPU 8i – для работы моделей в проде. Тут у нас больше памяти, быстрее обмен данными между чипами и отдельные механизмы для синхронизации.
Относительно прошлого поколения заявляется до 2,7 раза лучше соотношение цена/производительность при обучении и до 80% (!) прироста эффективности на инференсе.
Оба чипа пока в статусе coming soon
https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/
Они анонсировали TPU 8t и TPU 8i. Один чип под обучение, другой – под инференс и ризонинг.
Фактически, компания уходит от универсальных ускорителей и переходит к идее специфичного проектирования чипов под узкие места и задачи (это уже абсолютно другая стратегия в сравнении с Nvidia, которые берут как раз универсальностью). Это и есть ключевой момент релиза.
Итак, TPU 8t – это для обучения. Их может быть до 9 600 в одном кластере, и упор сделан на скорость обучения и масштабирование. Интересно, что есть отдельные блоки, спроектированные под ускорение специфичных операций, например для рексис.
TPU 8i – для работы моделей в проде. Тут у нас больше памяти, быстрее обмен данными между чипами и отдельные механизмы для синхронизации.
Относительно прошлого поколения заявляется до 2,7 раза лучше соотношение цена/производительность при обучении и до 80% (!) прироста эффективности на инференсе.
Оба чипа пока в статусе coming soon
https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/
1🤗92🔥66❤23 13 9👍8❤🔥1👾1
Media is too big
VIEW IN TELEGRAM
Стартап Odyssey релизнул новую world model Odyssey-2 Max
Создатели называют ее SOTA в симуляции физики мира. Относительно прошлой версии метрика на VBench physics скакнула с 49.7 до 58.5. А еще это самая большая модель стартапа.
Под капотом авторегрессионная модель (как LLM, только предсказывает не следующий токен, а следующее состояние).
Собственно, этим Odyssey и отличается от обычных генераторов видео типа SORA: авторегрессия генерирует видео не целиком заранее, а в реальном времени, последовательно и причинно + может реагировать на действия пользователя онлайн.
Поэтому на примерах сильно не обращайте внимание на фотореалистичность. Тут дело именно в симуляции физики, динамики мира и управляемости. Короче, это игровой движок на минималках.
odyssey.ml/introducing-odyssey-2-max
Создатели называют ее SOTA в симуляции физики мира. Относительно прошлой версии метрика на VBench physics скакнула с 49.7 до 58.5. А еще это самая большая модель стартапа.
Под капотом авторегрессионная модель (как LLM, только предсказывает не следующий токен, а следующее состояние).
Собственно, этим Odyssey и отличается от обычных генераторов видео типа SORA: авторегрессия генерирует видео не целиком заранее, а в реальном времени, последовательно и причинно + может реагировать на действия пользователя онлайн.
Поэтому на примерах сильно не обращайте внимание на фотореалистичность. Тут дело именно в симуляции физики, динамики мира и управляемости. Короче, это игровой движок на минималках.
Мы рассматриваем Odyssey-2 Max как форму предобученного физического интеллекта – что-то вроде человека, который много лет наблюдал за миром и взаимодействовал с ним, но еще только учится водить машину.
Или, если проводить аналогию с языковыми моделями, это уровень GPT-2, прямо перед переходом к ChatGPT.
odyssey.ml/introducing-odyssey-2-max
2❤62🔥31👍14🤔4😎3
Media is too big
VIEW IN TELEGRAM
ИИ-кавер «Седой ночи» принес около 10 миллионов рублей. Но… не Канье Уэсту, и даже не своему создателю
Вы точно видели это сгенерированное видео с Канье Уэстом, исполняющим Седую Ночь.
Короче, оказалось, что за этим, с позволения сказать, треком, кроется настоящий скандал.
Создателем трека стал парень из Ижевска, известный под псевдонимом Август Септемберов. Он уже некоторое время занимается ИИ-каверами (может быть, вы также слышали его известное творение: «Моя игра» в исполнении Эминема).
Ничего не подозревая, он выложил на просторы Интернета очередную композицию, а она вдруг завирусилась и заняла первую строчку в Shazam.
Вот только Август не участвовал в выпуске трека на площадках. Его выложил туда без разрешения Андрей Разин, директор студии «Ласковый Май». Он заявляет себя как первообладателя, продвигает трек как свой, и, по некоторым оценкам, уже заработал на нем около 10 миллионов.
А автор не получил ничего. Источники сообщают, что когда он написал Разину с просьбой разделить прибыль, тот его просто заблокировал.
Кстати, сейчас Разин в розыске за мошенничество. Он украл не толко кавер на Седую Ночь, но и оригинальные песни Ласкового Мая. По версии следствия, Разин использовал поддельный договор с Сергеем Кузнецовым, чтобы получать доход от песен группы, не имея на то законных прав.
Вопрос на засыпку, чьи права защищать: создателя трека, Канье Уэста или нейросети, которая все сгенерировала?❓
Вы точно видели это сгенерированное видео с Канье Уэстом, исполняющим Седую Ночь.
Короче, оказалось, что за этим, с позволения сказать, треком, кроется настоящий скандал.
Создателем трека стал парень из Ижевска, известный под псевдонимом Август Септемберов. Он уже некоторое время занимается ИИ-каверами (может быть, вы также слышали его известное творение: «Моя игра» в исполнении Эминема).
Ничего не подозревая, он выложил на просторы Интернета очередную композицию, а она вдруг завирусилась и заняла первую строчку в Shazam.
Вот только Август не участвовал в выпуске трека на площадках. Его выложил туда без разрешения Андрей Разин, директор студии «Ласковый Май». Он заявляет себя как первообладателя, продвигает трек как свой, и, по некоторым оценкам, уже заработал на нем около 10 миллионов.
А автор не получил ничего. Источники сообщают, что когда он написал Разину с просьбой разделить прибыль, тот его просто заблокировал.
Кстати, сейчас Разин в розыске за мошенничество. Он украл не толко кавер на Седую Ночь, но и оригинальные песни Ласкового Мая. По версии следствия, Разин использовал поддельный договор с Сергеем Кузнецовым, чтобы получать доход от песен группы, не имея на то законных прав.
Вопрос на засыпку, чьи права защищать: создателя трека, Канье Уэста или нейросети, которая все сгенерировала?
Please open Telegram to view this post
VIEW IN TELEGRAM
😁250🤯88❤18👍10 8 8🗿6🤔2
Как завоевать сразу несколько наград на CDO/CDTO Awards 2026?
Спросите у тех, кто в этом шарит, - 22 апреля три номинации улетели к МТС Web Services.
CDO/CDTO Awards отмечает лучшие проекты и управленческие практики в сфере цифровой трансформации. Чем MWS покорило жюри?
• Публичное облако MWS Cloud Platform – «Digital‑платформа года»;
• Агрегатор LLM-моделей MWS GPT - решение MWS GPT.
А еще гендиректор компании Павел Воронин получил Гран-при в категории «СЕО года цифровой компании».
Раздали стиля.
Спросите у тех, кто в этом шарит, - 22 апреля три номинации улетели к МТС Web Services.
CDO/CDTO Awards отмечает лучшие проекты и управленческие практики в сфере цифровой трансформации. Чем MWS покорило жюри?
• Публичное облако MWS Cloud Platform – «Digital‑платформа года»;
• Агрегатор LLM-моделей MWS GPT - решение MWS GPT.
А еще гендиректор компании Павел Воронин получил Гран-при в категории «СЕО года цифровой компании».
Раздали стиля.
😁41🗿21❤10👍9🔥6🤨6🤔1🤯1
Sony AI сделали первого в мире робота, способного обыгрывать в настольный теннис лучших игроков
Они опубликовали про Ace (так зовут робота) целое исследование в Nature, и даже попали на обложку.
www.nature.com/articles/s41586-026-10338-5
В апреле 2025 Ace сыграл серию матчей против элитных и профессиональных игроков, и выиграл примерно половину. В декабре эксперимент повторили, и Ace уже обыграл почти всех, в том числе спортсмена из японской профлиги.
Матчи судили лицензированные арбитры Японской ассоциации настольного тенниса, и все игроки встретились с роботом впервые, никаких специальных данных об их игре не использовалось для подготовки системы.
Это потрясающе, потому что настольный теннис – невероятно быстрый вид спорта, а скорость для робототехники – камень преткновения. Шары летят со скоростью до 150 км/ч, вращение меняет траекторию непредсказуемо, каждый удар нужно принять и вернуть за миллисекунды.
В общем, казалось, что пока что для роботов эта задача невыполнима. Но Sony добились сквозной задержки всего в 20,2 миллисекунды. Это в 11 раз быстрее человеческой реакции (у элитных игроков реакция ~230 миллисекунд).
Как?
1. ОЧЕНЬ точные камеры и сенсоры. Они отслеживают мяч со скоростью 200 Гц с точностью до миллиметра. При этом трекается не только скорость и траектория, но и логотип на мяче. Это нужно, чтобы правильно определять вращение, оно играет в настольном теннисе ключевую роль.
2. Механика и апаратура железа. Оптимизированные легкие сплавы, 8 суставов, отточенный до мельчайших деталей дизайн.
3. Обучение с подкреплением (куда ж без него!). Ace обучен полностью в симуляции. RL было трехуровневым, по принципу обучения людей: сначала Ace учился ударам, затем тактике (как, куда и с какой силой бить), затем стратегии (как строить игру на протяжении всего матча).
Кстати, в обучении они использовали тот же подход, что и в проекте, где ИИ научился побеждать людей в гоночном симуляторе Gran Turismo. Он называется «привилегированный критик» aka дистилляция физики: в симуляции у «учителя» есть идеальные данные о мяче, а «ученик» видит только то, что видят камеры – и именно так, подглядывая за учителем, он сам учится предсказывать траекторию.
Про один из ударов Ace экс-олимпиец и эксперт по настольному теннису Кинджиро Накамура сказал:
Снова ход 37, только теперь не в цифровом пространстве, как у AlphaGo, а в реальном мире. Это первый случай в истории, когда ИИ-система достигла уровня эксперта-человека в активном физическом виде спорта.
Они опубликовали про Ace (так зовут робота) целое исследование в Nature, и даже попали на обложку.
www.nature.com/articles/s41586-026-10338-5
В апреле 2025 Ace сыграл серию матчей против элитных и профессиональных игроков, и выиграл примерно половину. В декабре эксперимент повторили, и Ace уже обыграл почти всех, в том числе спортсмена из японской профлиги.
Матчи судили лицензированные арбитры Японской ассоциации настольного тенниса, и все игроки встретились с роботом впервые, никаких специальных данных об их игре не использовалось для подготовки системы.
Это потрясающе, потому что настольный теннис – невероятно быстрый вид спорта, а скорость для робототехники – камень преткновения. Шары летят со скоростью до 150 км/ч, вращение меняет траекторию непредсказуемо, каждый удар нужно принять и вернуть за миллисекунды.
В общем, казалось, что пока что для роботов эта задача невыполнима. Но Sony добились сквозной задержки всего в 20,2 миллисекунды. Это в 11 раз быстрее человеческой реакции (у элитных игроков реакция ~230 миллисекунд).
Как?
1. ОЧЕНЬ точные камеры и сенсоры. Они отслеживают мяч со скоростью 200 Гц с точностью до миллиметра. При этом трекается не только скорость и траектория, но и логотип на мяче. Это нужно, чтобы правильно определять вращение, оно играет в настольном теннисе ключевую роль.
2. Механика и апаратура железа. Оптимизированные легкие сплавы, 8 суставов, отточенный до мельчайших деталей дизайн.
3. Обучение с подкреплением (куда ж без него!). Ace обучен полностью в симуляции. RL было трехуровневым, по принципу обучения людей: сначала Ace учился ударам, затем тактике (как, куда и с какой силой бить), затем стратегии (как строить игру на протяжении всего матча).
Кстати, в обучении они использовали тот же подход, что и в проекте, где ИИ научился побеждать людей в гоночном симуляторе Gran Turismo. Он называется «привилегированный критик» aka дистилляция физики: в симуляции у «учителя» есть идеальные данные о мяче, а «ученик» видит только то, что видят камеры – и именно так, подглядывая за учителем, он сам учится предсказывать траекторию.
Про один из ударов Ace экс-олимпиец и эксперт по настольному теннису Кинджиро Накамура сказал:
«Никто другой не смог бы так сделать. Я не думал, что это возможно. Но раз это оказалось возможным – значит, есть вероятность, что и человек сможет»
Снова ход 37, только теперь не в цифровом пространстве, как у AlphaGo, а в реальном мире. Это первый случай в истории, когда ИИ-система достигла уровня эксперта-человека в активном физическом виде спорта.
2🤯94❤46🔥25👍18⚡8👏2🤔1
– Модель прокачали в агентном кодинге, и теперь она лучше использует инструменты и справляется с длинными задачами (в релизе пишут, что задачи на 20 часов человеческого труда решает отлично)
– Метрика на SWE Pro – 58.6%. У Opus 4.7 64.3, кстати.
– Обратите внимание на первый график: модельке теперь требуется меньше токенов, чтобы получать высокий уровень качества ответов. Но сильно не радуемся: цена на модель поднялась.
Самое важное: в основе новая базовая модель, побольше. Почему не назвали GPT-6, непонятно, видимо не хотят нарушать негласный метч в нейминге с Anthropic
https://openai.com/index/introducing-gpt-5-5/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥124🤯39 23❤14👍6🗿3💘3😁2🤔1
Обе модели уже в опенсорсе и с контекстом до 1 миллиона токенов!
– DeepSeek-V4-Pro: 1.6T параметров / 49B активных. Метрики на уровне ведущих фронтиров. На кодинге уровень Claude Opus 4.6, на World Knowledge уступает только Gemini 3.1 Pro, на ризонинге также бьет многие закрытые модели на бенчмарках. Бесспорно новая открытая SOTA.
– DeepSeek-V4-Flash: 284B параметров / 13B активных. На многих бенчмарках модель достаточно близка к Pro версии, но дешевле и быстрее.
Контекст на 1 миллион токенов теперь стоит по умолчанию во всех сервисах DeepSeek. На длинных контекстах они добились очень высокой эффективности вычислений благодаря механизму внимания DeepSeek Sparse Attention (мы вот тут его разбирали).
Обе модели специально оптимизированы для агентных задач, и DeepSeek пишут, что уже используют их для внутренней разработки.
Попробовать можно в чате: chat.deepseek.com
Либо в API: дока (цены на картинке выше, они максимально приятные)
Техрепорт | Веса
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥149🤯23👍21❤13🐳6😁4🎉3🤔1
DS Lab: что нового в нашей облачной IDE
Продуктовая команда Data Secrets продолжает активно развивать DS Lab и делать ее еще удобнее для гибкой аренды мощностей и работы с проектами любой сложности.
Помимо многочисленных оптимизаций, в последней версии редактора вы найдете три обновления:
➖ Теперь вы сами решаете, через какое время бездействия проект выключится. Любое действие сбрасывает таймер, а интервал можно настроить: например, увеличить, если запускаете модель учиться на ночь на GPU, или уменьшить, чтобы не платить за простой мощностей. После выключения все состояние проекта сохраняется.
➖ Интеграции с GitHub и Hugging Face. Авторизуйтесь один раз прямо в настройках профиля и работайте с привычными сервисами во всех проектах. Git push, pull, загрузка моделей с Hugging Face и все остальное доступно из коробки.
➖ Добавили возможность менять версию Python одной кнопкой прямо в проекте. Никаких пересозданий окружения, все происходит быстро и прямо на месте.
Все это уже можно испробовать здесь: dslab.tech.
Продуктовая команда Data Secrets продолжает активно развивать DS Lab и делать ее еще удобнее для гибкой аренды мощностей и работы с проектами любой сложности.
Помимо многочисленных оптимизаций, в последней версии редактора вы найдете три обновления:
Все это уже можно испробовать здесь: dslab.tech.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍46❤18🗿8🔥7🤔1
SakanaAI выпускают систему оркестрации агентов Sakana Fugu
Это будет первый коммерческий пользовательский продукт стартапа. Буквально пару недель назад они также анонсировали B2B агента Sakana Marlin для работы над корпоративными отчетами и стратегиями. Понемногу выходят на рынок, в общем.
Вся философия SakanaAI состоит в том, что самый мощный ИИ – это не монолитная модель, а совокупность разных движков. Все их исследования построены вокруг этой идеи, и теперь она воплощается в продукте.
Устройство Fugu довольно занятное. Система сама по себе является небольшой языковой моделью, которая обучена вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей (как это обычно делают), Sakana обучили модельку, которая хорошо умеет решать, кого вызвать, в какой роли и с какими подзадачами – и делает это адаптивно под конкретный запрос.
Самое интересное: в какой-то момент обучения Fugu выяснила, что может вызывать саму себя, и научилась уходить в рекурсию. Получается, она как бы само-масштабируется на test-time, перечитывая собственные выходы и пересматривая стратегию координации агентов.
Бенчмарки красивые. На SWE-Pro fugu-ultra (есть еще fugu-mini) достигает 54.2%. Для сравнения, Opus 4.6 берет 53.4. При этом очевидно, что качество работы Fugu будет еще расти, если добавить в пул модели помощнее, типа новой GPT-5.5 или Opus 4.7.
Пока что Fugu выпустили в бету, записаться чтобы потестить можно тут. Что касается цены, Sakana не заставляют юзера платить сразу всем провайдерам, модели которых используются. Вы платите только Sakana, а дальше экономика на их стороне (они пишут, что так будет в десятки раз дешевле).
P.S. Если интересно закопаться в механику, то почитайте вот эти две статьи: Trinity и Conductor. Это статьи Sakana с ICLR 2026, и лаба сама написала, что Fugu основана именно на них.
Это будет первый коммерческий пользовательский продукт стартапа. Буквально пару недель назад они также анонсировали B2B агента Sakana Marlin для работы над корпоративными отчетами и стратегиями. Понемногу выходят на рынок, в общем.
Вся философия SakanaAI состоит в том, что самый мощный ИИ – это не монолитная модель, а совокупность разных движков. Все их исследования построены вокруг этой идеи, и теперь она воплощается в продукте.
Устройство Fugu довольно занятное. Система сама по себе является небольшой языковой моделью, которая обучена вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей (как это обычно делают), Sakana обучили модельку, которая хорошо умеет решать, кого вызвать, в какой роли и с какими подзадачами – и делает это адаптивно под конкретный запрос.
Самое интересное: в какой-то момент обучения Fugu выяснила, что может вызывать саму себя, и научилась уходить в рекурсию. Получается, она как бы само-масштабируется на test-time, перечитывая собственные выходы и пересматривая стратегию координации агентов.
Бенчмарки красивые. На SWE-Pro fugu-ultra (есть еще fugu-mini) достигает 54.2%. Для сравнения, Opus 4.6 берет 53.4. При этом очевидно, что качество работы Fugu будет еще расти, если добавить в пул модели помощнее, типа новой GPT-5.5 или Opus 4.7.
Пока что Fugu выпустили в бету, записаться чтобы потестить можно тут. Что касается цены, Sakana не заставляют юзера платить сразу всем провайдерам, модели которых используются. Вы платите только Sakana, а дальше экономика на их стороне (они пишут, что так будет в десятки раз дешевле).
P.S. Если интересно закопаться в механику, то почитайте вот эти две статьи: Trinity и Conductor. Это статьи Sakana с ICLR 2026, и лаба сама написала, что Fugu основана именно на них.
❤90🔥39 30👍11😁2🤔1🤝1
Data Secrets
Директор по ИИ в AMD доказала, что Claude стал хуже работать с момента релиза Как только появился ИИ, люди постоянно обсуждает, что та или иная модель якобы сначала работала хорошо, а потом поглупела (или скорее ее «намеренно ослабили»). Этому эффекту, кажется…
Помните разгромную аналитику от директора по ИИ в AMD, в которой она показала, что Claude Code стал работать хуже в марте? Anthropic только что признали, что это правда.
Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил.
1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много.
2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили.
3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля.
Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :)
Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем☕️
www.anthropic.com/engineering/april-23-postmortem
Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил.
1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много.
2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили.
3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля.
Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :)
Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем
www.anthropic.com/engineering/april-23-postmortem
Please open Telegram to view this post
VIEW IN TELEGRAM
❤156😁95👍38 10🤯5🫡5🤔1🗿1
Google вложит до 40 миллиардов долларов в Anthropic
10 миллиардов они заплатят сразу, и еще 30 – в будущем, при условии достижения определенных целей стартапом.
Кроме того, Google Cloud предоставит Anthropic 5 ГВт вычислительных мощностей в ближайшие 5 лет. Первые ресурсы Anthropic получит уже в начале 2027.
10 миллиардов они заплатят сразу, и еще 30 – в будущем, при условии достижения определенных целей стартапом.
Кроме того, Google Cloud предоставит Anthropic 5 ГВт вычислительных мощностей в ближайшие 5 лет. Первые ресурсы Anthropic получит уже в начале 2027.
😁387🔥80🤔35❤18🤯10👍5🤨4😎4
~5% запросов к Алисе обрабатываются с ошибками распознавания речи
По статистике это небольшой процент. Несмотря на это, команда Яндекса открыто рефлексирует над инженерными проблемами, в том числе с контекстом. Разработчики отмечают, что за последнее время модели заметно прокачались в других направлениях:
— новые версии делают сдвиг к более «осмысленным» ответам: предлагают меньше вариантов, но добавляют аргументацию — ближе к полноценному ассистенту, а не справочнику
— улучшается работа с диалогом: удержание контекста, возможность перебивать, непрерывное общение
— появляются зачатки долгосрочной памяти, а значит становится доступнее персонализированное общение
Обо всех этих технологиях команда регулярно пишет в канале 8БИТ — там разбирают проекты Яндекса от обучения голосовых ассистентов до более сложных систем вроде роверов и баз данных.
Удачи!
🎉 Результаты розыгрыша:
🏆 Победитель:
1. Даниил (@daniiltarassenko)
✔️Проверить результаты
Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2VtzqxKZqxj
По статистике это небольшой процент. Несмотря на это, команда Яндекса открыто рефлексирует над инженерными проблемами, в том числе с контекстом. Разработчики отмечают, что за последнее время модели заметно прокачались в других направлениях:
— новые версии делают сдвиг к более «осмысленным» ответам: предлагают меньше вариантов, но добавляют аргументацию — ближе к полноценному ассистенту, а не справочнику
— улучшается работа с диалогом: удержание контекста, возможность перебивать, непрерывное общение
— появляются зачатки долгосрочной памяти, а значит становится доступнее персонализированное общение
Обо всех этих технологиях команда регулярно пишет в канале 8БИТ — там разбирают проекты Яндекса от обучения голосовых ассистентов до более сложных систем вроде роверов и баз данных.
Совместно с 8БИТ мы проводим розыгрыш. Условия простые:
1. Подписывайтесь на канал 8БИТ
2. Нажимайте кнопку «Участвовать» под этим постом.
1 мая мы вместе с 8БИТ подведём итоги с помощью рандомайзера. Победитель получит Яндекс Станцию Мини с Алисой.
Удачи!
1. Даниил (@daniiltarassenko)
✔️Проверить результаты
Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2VtzqxKZqxj
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿98🤨32😁18❤10👍9🔥4🤯4🤔3
Project Deal: Anthropic сделали внутренний маркетплейс, где все сделки от имени людей совершали Claude-агенты
Ранее они уже проводили эксперимент Project Vend, когда агент управлял маленьким вендинговым автоматом (подробнее). Теперь же Anthropic хотят понять, насколько мы близки к целым рынкам с множеством продавцов-агентов и покупателей-агентов.
В проекте участвовали 69 сотрудников. Каждому из них выдали личного агента и 100 долларов бюджета. Агенты получали от владельцев инструкции: что примерно человек хотел бы купить и продать, за сколько, уместен ли торг и тд.
После получения инструкций агенты уходили полностью автономно жить на маркетплейсе и тратить/зарабатывать деньги.
В итоге агенты за короткий срок заключили 186 сделок по 500 товарам, общая сумма транзакций превысила $4000. Кстати, потом сотрудники реально принесли вещи и обменялись ими в офисе.
Оказалось, что качество модели напрямую влияет на ее способность торговаться. Opus в среднем заключал примерно на две сделки больше, чем Haiku, продавал те же товары дороже и как покупатель платил меньше. Например, один и тот же сломанный складной велосипед Haiku продал за $38, а Opus – за $65.
Были, конечно, и смешные моменты. Один сотрудник разрешил Claude купить подарок самому себе, и агент выбрал 19 шариков для пинг-понга за $3, назвав их «сферическими орбами возможностей». Другой агент внезапно продал не вещь, а день с собакой сотрудницы (люди потом действительно это устроили, деньги-то уплачены).
www.anthropic.com/features/project-deal
Ранее они уже проводили эксперимент Project Vend, когда агент управлял маленьким вендинговым автоматом (подробнее). Теперь же Anthropic хотят понять, насколько мы близки к целым рынкам с множеством продавцов-агентов и покупателей-агентов.
В проекте участвовали 69 сотрудников. Каждому из них выдали личного агента и 100 долларов бюджета. Агенты получали от владельцев инструкции: что примерно человек хотел бы купить и продать, за сколько, уместен ли торг и тд.
После получения инструкций агенты уходили полностью автономно жить на маркетплейсе и тратить/зарабатывать деньги.
В итоге агенты за короткий срок заключили 186 сделок по 500 товарам, общая сумма транзакций превысила $4000. Кстати, потом сотрудники реально принесли вещи и обменялись ими в офисе.
Оказалось, что качество модели напрямую влияет на ее способность торговаться. Opus в среднем заключал примерно на две сделки больше, чем Haiku, продавал те же товары дороже и как покупатель платил меньше. Например, один и тот же сломанный складной велосипед Haiku продал за $38, а Opus – за $65.
Были, конечно, и смешные моменты. Один сотрудник разрешил Claude купить подарок самому себе, и агент выбрал 19 шариков для пинг-понга за $3, назвав их «сферическими орбами возможностей». Другой агент внезапно продал не вещь, а день с собакой сотрудницы (люди потом действительно это устроили, деньги-то уплачены).
www.anthropic.com/features/project-deal
1😁201❤55👍18🔥1🤔1