Проект Stargate, кажется, понемногу распадается
Да, речь про тот самый Stargate, который год назад так амбициозно стартовал как манхэттенский проект для ИИ.
Несмотря на громкие анонсы (100 миллиардов сразу и до 500 дальше), инвесторы так и не обеспечили поток капитала. Сейчас продолжают идти затяжные переговоры, но ни одной официальной сделки (как и пол года назад) так и не заключено.
The Information и Wired пишут о разногласиях между партнерами. Более того, OpenAI, кажется, вообще раздумали строить собственные датацентры и фокусируются на облачных партнерствах.
Твит Маска годовой давности, что называется, интересно состарился⬆️
Да, речь про тот самый Stargate, который год назад так амбициозно стартовал как манхэттенский проект для ИИ.
Несмотря на громкие анонсы (100 миллиардов сразу и до 500 дальше), инвесторы так и не обеспечили поток капитала. Сейчас продолжают идти затяжные переговоры, но ни одной официальной сделки (как и пол года назад) так и не заключено.
The Information и Wired пишут о разногласиях между партнерами. Более того, OpenAI, кажется, вообще раздумали строить собственные датацентры и фокусируются на облачных партнерствах.
Твит Маска годовой давности, что называется, интересно состарился
Please open Telegram to view this post
VIEW IN TELEGRAM
😁168 52❤15 10🤯7👍5🔥3
OpenClaw удалил более 200 писем сотрудницы из Meta*
И все бы ничего, но это была… глава отдела AI Safety & Alignment.
Ирония судьбы во всей красе: она тестировала агента для управления почтой и несколько недель настраивала процесс в тестовой среде (все прям как положено).
Но как только агент перешел на реальный Gmail, то вдруг сошел с ума и начал без разбора удалять письма одно за другим. Напрямую из чата процесс остановить не удалось, поэтому разработчице пришлось бежать прямо к MacMini и буквально вырывать агента из розетки.
Элаймент, так сказать, не удался
Позже агент извинился и признал ошибку. Ведь с кем не бывает, правда?😇
И все бы ничего, но это была… глава отдела AI Safety & Alignment.
Ирония судьбы во всей красе: она тестировала агента для управления почтой и несколько недель настраивала процесс в тестовой среде (все прям как положено).
Но как только агент перешел на реальный Gmail, то вдруг сошел с ума и начал без разбора удалять письма одно за другим. Напрямую из чата процесс остановить не удалось, поэтому разработчице пришлось бежать прямо к MacMini и буквально вырывать агента из розетки.
Элаймент, так сказать, не удался
Позже агент извинился и признал ошибку. Ведь с кем не бывает, правда?
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁590 98❤33 29👍8🤯7💯7🔥3👏2🤝2🆒2
OpenAI отменили SWE-bench Verified – главный современный бенчмарк по кодингу
Они выпустили целое исследование, основная мысль которого: SWE-bench Verified (который сделали, кстати, сами OpenAI в 2024) больше не измеряет реальные способности моделей в разработке, и пользоваться им не стоит.
Кстати, это выглядит как косвенный выпад в сторону Anthropic. Они там до сих пор делают ставку на SWE Verified, а OpenAI фактически приходят и заявляют, что этот бенч сломан и результаты на нем мало что значат. На фоне последних событий это вряд ли случайность💀
В чем, собственно, проблема SWE-bench Verified:
1️⃣ Тесты часто отбрасывают корректные решения. OpenAI сделали ручной аудит сложных задач и выяснили, что в 59.4% этих задач есть проблемы тест-дизайна/описания, из-за которых задачу становится крайне трудно или вообще невозможно решить честно, даже человеку.
Например, тесты требуют конкретных деталей реализации, которые не обязательны для функционально верного решения. Или тесты проверяют дополнительную функциональность, которая не описана в задаче. В таких случаях эвал, очевидно, становится некорректным.
2️⃣ Классический contamination, то есть утечка задач в трейн моделей. Бенчмарк собран из опенсорс репозиториев, так что этого стоило ожидать. OpenAI пишут, что нашли признаки contamination у всех фронтирных моделей, которые они тестировали.
В частности, выяснилось, что GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash Preview знают не только точный gold patch для решения, но и воспроизводят точные пути к файлам, цитируют комментарии из диффа или просто по ID могут вспомнить формулировку задачи.
Итого вывод OpenAI следующий: тесты часто неправильно устроены, так что нерешаемый хвост бенчмарка – это шум, сражаться за который не стоит. А если процент и растет, то это в основном узнавание, а не рост реальных навыков.
Вместо SWE-bench Verified они теперь советуют SWE-bench Pro (у него тоже все не идеально, но по их данным contamination там заметно слабее, и ни одна модель не смогла воспроизвести полный gold patch дословно). Фишка, правда, в том, что SWE-bench Pro открыт только частично, и чтобы получить на нем официальный результат, нужно проходить через организаторов. То есть, через OpenAI🙂
openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
Они выпустили целое исследование, основная мысль которого: SWE-bench Verified (который сделали, кстати, сами OpenAI в 2024) больше не измеряет реальные способности моделей в разработке, и пользоваться им не стоит.
Кстати, это выглядит как косвенный выпад в сторону Anthropic. Они там до сих пор делают ставку на SWE Verified, а OpenAI фактически приходят и заявляют, что этот бенч сломан и результаты на нем мало что значат. На фоне последних событий это вряд ли случайность
В чем, собственно, проблема SWE-bench Verified:
Например, тесты требуют конкретных деталей реализации, которые не обязательны для функционально верного решения. Или тесты проверяют дополнительную функциональность, которая не описана в задаче. В таких случаях эвал, очевидно, становится некорректным.
В частности, выяснилось, что GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash Preview знают не только точный gold patch для решения, но и воспроизводят точные пути к файлам, цитируют комментарии из диффа или просто по ID могут вспомнить формулировку задачи.
Итого вывод OpenAI следующий: тесты часто неправильно устроены, так что нерешаемый хвост бенчмарка – это шум, сражаться за который не стоит. А если процент и растет, то это в основном узнавание, а не рост реальных навыков.
Вместо SWE-bench Verified они теперь советуют SWE-bench Pro (у него тоже все не идеально, но по их данным contamination там заметно слабее, и ни одна модель не смогла воспроизвести полный gold patch дословно). Фишка, правда, в том, что SWE-bench Pro открыт только частично, и чтобы получить на нем официальный результат, нужно проходить через организаторов. То есть, через OpenAI
openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
Please open Telegram to view this post
VIEW IN TELEGRAM
😁166 38🔥22👍16❤12☃2🤯2🗿2🤔1🤗1
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic публично обвинили несколько крупных китайских стартапов в массовой дистилляции Claude
Провинились DeepSeek, Moonshot AI (создатели Kimi K2) и MiniMax. DeepSeek – в довольно скромных масштабах (примерно 150k запросов), Moonshot – покрупнее (~3.4M), а MiniMax так и вовсе отправили >13M реквестов.
В общих масштабах сообщается, что "украдено" было около 16 млн запросов через ~24 000 фейковых аккаунтов.
У Anthropic подгорело не на шутку, конечно. Они обвиняют компании не только в нарушении ToS, но и в том, что те обходят экспортные ограничения США, а это уже серьезно.
Конечно, Anthropic делают вид, что беспокоятся в первую очередь о безопасности: мол, дистиллированные модели могут унаследовать способности, но не унаследуют защитные механизмы, а значит растет риск международных угроз от ИИ.
Полное расследование здесь: www.anthropic.com/news/detecting-and-preventing-distillation-attacks
А мы китайский опенсорс все равно будем любить...
Провинились DeepSeek, Moonshot AI (создатели Kimi K2) и MiniMax. DeepSeek – в довольно скромных масштабах (примерно 150k запросов), Moonshot – покрупнее (~3.4M), а MiniMax так и вовсе отправили >13M реквестов.
В общих масштабах сообщается, что "украдено" было около 16 млн запросов через ~24 000 фейковых аккаунтов.
У Anthropic подгорело не на шутку, конечно. Они обвиняют компании не только в нарушении ToS, но и в том, что те обходят экспортные ограничения США, а это уже серьезно.
Конечно, Anthropic делают вид, что беспокоятся в первую очередь о безопасности: мол, дистиллированные модели могут унаследовать способности, но не унаследуют защитные механизмы, а значит растет риск международных угроз от ИИ.
Полное расследование здесь: www.anthropic.com/news/detecting-and-preventing-distillation-attacks
❤185😁156 29🤯23 7😎6👍4🔥4⚡2💯2
This media is not supported in your browser
VIEW IN TELEGRAM
О, в Claude Code добавили удаленный котроль
Документация
Сессию нельзя запустить прямо с телефона, так что это не совсем OpenClaw (хотя фича определенно им вдохновлена).
Сначала старт на пк -> потом выполняем в терминале claude remote-control -> по ссылке или QR-коду подключаемся с телефона в приложении Claude или в браузере. И тут уже можно мониторить и управлять процессом: дописывать промпты, отслеживать статус и изменения, прерывать и тд, все как в обычном чате.
Пока доступно в research preview для Max, скоро обещают добавить в Pro.
Документация
Сессию нельзя запустить прямо с телефона, так что это не совсем OpenClaw (хотя фича определенно им вдохновлена).
Сначала старт на пк -> потом выполняем в терминале claude remote-control -> по ссылке или QR-коду подключаемся с телефона в приложении Claude или в браузере. И тут уже можно мониторить и управлять процессом: дописывать промпты, отслеживать статус и изменения, прерывать и тд, все как в обычном чате.
Пока доступно в research preview для Max, скоро обещают добавить в Pro.
🔥146⚡30❤24👍6😁3💯1 1
Стартап inception выпустил диффузионную модель Mercury 2 – самую быструю ризонинг-LLM в мире на данный момент
Она работает со скоростью (приготовьтесь) 1009 токенов/сек на NVIDIA Blackwell. Для сравнения, GPT-5 Mini делает примерно 71 ток/сек, а Claude Haiku 4.5 – 89 ток/сек. Короче, это примерно в 3-5 раз быстрее самых шустрых сегодняшних LLM.
Секрет в том, что Mercury 2 – не классическая авторегрессионная модель, а диффузионная. То есть она не генерирует токены последовательно слева направо, а начинает с шума и итеративно уточняет весь текст параллельно. Это и дает такую сверхвысокую скорость и крошечную задержку (см. колонку latency в табличке).
С такой архитектурой уже много кто экспериментирует, в том числе Google (пост), Nvidia (пост) и Apple (пост).
Что касается Mercury 2 на бенчмарках: метрики не великие, но вполне сойдут для практики. Например, на AIME выбивает 91%, это примерно на уровне o3.
Попробовать модель уже можно в чате (chat.inceptionlabs.ai/) бесплатно. Если включите Diffusion Effect, то будет видно, как из шума модель итеративно создает ответ.
Она работает со скоростью (приготовьтесь) 1009 токенов/сек на NVIDIA Blackwell. Для сравнения, GPT-5 Mini делает примерно 71 ток/сек, а Claude Haiku 4.5 – 89 ток/сек. Короче, это примерно в 3-5 раз быстрее самых шустрых сегодняшних LLM.
Секрет в том, что Mercury 2 – не классическая авторегрессионная модель, а диффузионная. То есть она не генерирует токены последовательно слева направо, а начинает с шума и итеративно уточняет весь текст параллельно. Это и дает такую сверхвысокую скорость и крошечную задержку (см. колонку latency в табличке).
С такой архитектурой уже много кто экспериментирует, в том числе Google (пост), Nvidia (пост) и Apple (пост).
Что касается Mercury 2 на бенчмарках: метрики не великие, но вполне сойдут для практики. Например, на AIME выбивает 91%, это примерно на уровне o3.
Попробовать модель уже можно в чате (chat.inceptionlabs.ai/) бесплатно. Если включите Diffusion Effect, то будет видно, как из шума модель итеративно создает ответ.
2👍113❤35🔥27😁16
У Anthropic проблемы с Пентагоном
Недавно в Интернете вирусилась громкая новость о том, что правительство США использовало Claude для планирования операции по похищению президента Венесуэлы (читать).
Anthropic тогда выразили публичный протест, а Пентагон в ответ на это заявил, что будет «обсуждать возможность разрыва или пересмотра контрактов с Anthropic».
Теперь история получила продолжение. Оказывается, 24 февраля Министр обороны Пит Хегсет лично встречался с Дарио Амодеи.
Встреча ничем хорошим для Anthropic не закончилась. Стартапу выдвинули ультиматум: либо они до 27 февраля снимают все ограничения на использование Claude в государственных целях, либо компания, не много не мало, попадет в настоящий черный список.
Им назначат статус «supply chain risk». Фактически, Anthropic признают угрозой, и с ними не смогут работать гос.подрядчики, то есть они не смогут продать Claude ни одной компании, которая работает с Пентагоном.
Ну либо Америка просто воспользуется законом об оборонном производстве и буквально принудит Anthropic к мобилизации, что означает полный доступ к Claude.
Объясняет Пентагон свои действия тем, что использование ИИ контролируется в первую очередь законами США, а не политикой компании (читать как «плевать мы хотели на ваши политики»).
Anthropic, кстати, чуть ли последний ИИ-бизнес в Америке, который не сотрудничает с Пентагоном: OpenAI, xAI и Google уже давно заключили с ними контракты.
www.axios.com/2026/02/24/anthropic-pentagon-claude-hegseth-dario
Недавно в Интернете вирусилась громкая новость о том, что правительство США использовало Claude для планирования операции по похищению президента Венесуэлы (читать).
Anthropic тогда выразили публичный протест, а Пентагон в ответ на это заявил, что будет «обсуждать возможность разрыва или пересмотра контрактов с Anthropic».
Теперь история получила продолжение. Оказывается, 24 февраля Министр обороны Пит Хегсет лично встречался с Дарио Амодеи.
Встреча ничем хорошим для Anthropic не закончилась. Стартапу выдвинули ультиматум: либо они до 27 февраля снимают все ограничения на использование Claude в государственных целях, либо компания, не много не мало, попадет в настоящий черный список.
Им назначат статус «supply chain risk». Фактически, Anthropic признают угрозой, и с ними не смогут работать гос.подрядчики, то есть они не смогут продать Claude ни одной компании, которая работает с Пентагоном.
Ну либо Америка просто воспользуется законом об оборонном производстве и буквально принудит Anthropic к мобилизации, что означает полный доступ к Claude.
Объясняет Пентагон свои действия тем, что использование ИИ контролируется в первую очередь законами США, а не политикой компании (читать как «плевать мы хотели на ваши политики»).
Anthropic, кстати, чуть ли последний ИИ-бизнес в Америке, который не сотрудничает с Пентагоном: OpenAI, xAI и Google уже давно заключили с ними контракты.
www.axios.com/2026/02/24/anthropic-pentagon-claude-hegseth-dario
Разворачивайте AI быстрее и выгоднее 🤩
Провайдер Cloud.ru дает скидки до 40% на ключевые сервисы для запуска и масштабирования AI-проектов.
GPU, физические серверы, ML-инференс — всё в одном месте и на выгодных условиях. Минимум лишних затрат, максимум производительности.
Количество участников ограничено:
успейте подключиться
Провайдер Cloud.ru дает скидки до 40% на ключевые сервисы для запуска и масштабирования AI-проектов.
GPU, физические серверы, ML-инференс — всё в одном месте и на выгодных условиях. Минимум лишних затрат, максимум производительности.
Количество участников ограничено:
успейте подключиться
Please open Telegram to view this post
VIEW IN TELEGRAM
3🗿21🫡4❤2❤🔥2👍2😁2👨💻1😎1
Кстати, помимо проблем с Пентагоном, в Anthropic сейчас еще и летят помидоры со стороны общественности
Их массово обсмеивают за последнее расследование о дистилляции Claude китайскими стартапами (мы писали об этом вчера).
Основная причина: «чья бы корова мычала». В Твиттере под постом с расследованием пользователи напоминают, что Anthropic тоже обучают свои модели на краденных данных. Имеется в виду как минимум дело, по которому стартап теперь должен авторам 1.5 миллиарда за неправомерное использование их произведений.
Больше всего убила реакция Илона Маска:
У Anthropic определенно черная полоса
Их массово обсмеивают за последнее расследование о дистилляции Claude китайскими стартапами (мы писали об этом вчера).
Основная причина: «чья бы корова мычала». В Твиттере под постом с расследованием пользователи напоминают, что Anthropic тоже обучают свои модели на краденных данных. Имеется в виду как минимум дело, по которому стартап теперь должен авторам 1.5 миллиарда за неправомерное использование их произведений.
Больше всего убила реакция Илона Маска:
Ужас! Как смеют они красть данные, которые Anthropic украли у программистов?!
У Anthropic определенно черная полоса
😁286 65❤17🗿5🤯4🍓3🤨2👍1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Perplexity тоже сделали свой OpenClaw
Они выпустили Perplexity Computer – мультиагентную систему для выполнения долгих составных задач.
Вы пишете промпт, Computer разбивает его на подзадачи и назначает их разным агентам: один агент собирает данные, другой пишет отчет/презентацию, третий дергает API подключенных сервисов (Gmail, GitHub, Notion и тп).
В качестве основного мозга, судя по всему, будет использоваться Opus 4.6, для отдельных задач – модельки от OpenAI, xAI и Google (какой модели лучше назначить задачку, решает Opus). Такая много-модельность, пожалуй, и есть главная фича.
Можно назначать фоновые и рутинные задачи, типа «Каждое утро к присылай бриф по новым письмам».
Есть, правда, один нюанс: агент будет доступен только в плане Max за 200 долларов в месяц и пока работает только в вебе на десктопе.
www.perplexity.ai/computer
Они выпустили Perplexity Computer – мультиагентную систему для выполнения долгих составных задач.
Вы пишете промпт, Computer разбивает его на подзадачи и назначает их разным агентам: один агент собирает данные, другой пишет отчет/презентацию, третий дергает API подключенных сервисов (Gmail, GitHub, Notion и тп).
В качестве основного мозга, судя по всему, будет использоваться Opus 4.6, для отдельных задач – модельки от OpenAI, xAI и Google (какой модели лучше назначить задачку, решает Opus). Такая много-модельность, пожалуй, и есть главная фича.
Можно назначать фоновые и рутинные задачи, типа «Каждое утро к присылай бриф по новым письмам».
Есть, правда, один нюанс: агент будет доступен только в плане Max за 200 долларов в месяц и пока работает только в вебе на десктопе.
www.perplexity.ai/computer
👍88❤30🔥18😁15🤔3❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот ради таких мемов мы и терпим повышение цен на оперативку
(Смотреть до конца)
(Смотреть до конца)
😁259🔥34👌10❤7🫡5💯4🤓4🗿2🤨1🆒1
Когда экосистема вырастает до десятков продуктов, разрозненные ML-решения начинают тормозить развитие.
В VK объединили рекомендации, поиск и рекламу в единую Discovery-платформу. Теперь модели, данные и пайплайны работают по единым стандартам.
В основе потоковой обработки — Stream Flow, который построен работает на бигдата-платформе YTsaurus и выдерживает до 1 млн событий в секунду. Это позволяет синхронизировать real-time сигналы между продуктами и использовать их в обучении и ранкинге без отдельной инфраструктуры в каждой команде.
Результат — ускорение экспериментов в 5 раз и заметный рост продуктовых метрик в VK Клипы, VK Музыке и VK Видео.
Детали разработки и лучшие практики команда раскрыла в этой статье, советуем.
В VK объединили рекомендации, поиск и рекламу в единую Discovery-платформу. Теперь модели, данные и пайплайны работают по единым стандартам.
В основе потоковой обработки — Stream Flow, который построен работает на бигдата-платформе YTsaurus и выдерживает до 1 млн событий в секунду. Это позволяет синхронизировать real-time сигналы между продуктами и использовать их в обучении и ранкинге без отдельной инфраструктуры в каждой команде.
Результат — ускорение экспериментов в 5 раз и заметный рост продуктовых метрик в VK Клипы, VK Музыке и VK Видео.
Детали разработки и лучшие практики команда раскрыла в этой статье, советуем.
🗿89😁17👍8🤨5❤3🔥2🕊1🏆1 1
Черная полоса Anthropic продолжается: хакеры использовали Claude для кражи 150 ГБ данных мексиканского правительства
Индцидент раскрыла израильская компания Gambit Security: они проанализировали логи (злоумышленники их даже не скрыли) и выяснили, что Claude нагенерил для пользователя тысячи скриптов и планов атак, указывал цели и данные для доступа.
Хакер маскировал запросы под программу bug bounty, убеждая Claude действовать как "элитный хакер". Claude отказывался, но недолго: после настойчивых убеждений бот послушно выдал готовые команды.
Всего оказалось украдело около 150 ГБ данных: записи 195 млн налогоплательщиков, данные избирателей, учетки сотрудников, реестры гражданского состояния и тд.
Самое забавное, что, судя по всему, злоумышленники также пытались использовать и ChatGPT, но OpenAI подтвердила отказы в запросах.
Индцидент раскрыла израильская компания Gambit Security: они проанализировали логи (злоумышленники их даже не скрыли) и выяснили, что Claude нагенерил для пользователя тысячи скриптов и планов атак, указывал цели и данные для доступа.
Хакер маскировал запросы под программу bug bounty, убеждая Claude действовать как "элитный хакер". Claude отказывался, но недолго: после настойчивых убеждений бот послушно выдал готовые команды.
Всего оказалось украдело около 150 ГБ данных: записи 195 млн налогоплательщиков, данные избирателей, учетки сотрудников, реестры гражданского состояния и тд.
Самое забавное, что, судя по всему, злоумышленники также пытались использовать и ChatGPT, но OpenAI подтвердила отказы в запросах.
😁138 52❤15🤯2🆒1