Data Secrets
88.1K subscribers
6.58K photos
691 videos
20 files
2.85K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Как AI изменил разработку и как управлять этими изменениями

За последний год случился серьезный прорыв в том, что ИИ может дать командам разработки. Мы начинали 25-ый горсткой энтузиастов с простым чатом и автокомплитом в Cursor, а 26-ой начинаем с командами агентов, которые начал внедрять даже энтерпрайз.

Может ли AI ускорять команды – уже не вопрос. Вопрос в том, как это организовать и этим управлять – ведь у отдельных команд еще не накопилось достаточно часов опыта и проверенных практик.

Более сложная задача – отфильтровать шум, когда все хотят прокатиться на хайп трейне. В таком ситуации стоит слушать только тех, кто уже сам провел эксперименты и сделал личные выводы.

Потому Стратоплан и Entropy Talk собрали известных экспертов с реальным опытом: Head of AI и СТО крупных банков, фаундер стартапов с оценкой в десятки $m, инвестор в ИИ-стартапы с чеками 1-10M $, ex-CТО Pure, VP of Product в Jetbrains

Для кого: senior engineers, тех- и тим-лидов, СТО и фаундеров

Участие – бесплатно, но есть и платное (предоставляем сертификат)

[ Регистрация ]
48👍28😁13🗿10🔥6👏6🤯211
Проект Stargate, кажется, понемногу распадается

Да, речь про тот самый Stargate, который год назад так амбициозно стартовал как манхэттенский проект для ИИ.

Несмотря на громкие анонсы (100 миллиардов сразу и до 500 дальше), инвесторы так и не обеспечили поток капитала. Сейчас продолжают идти затяжные переговоры, но ни одной официальной сделки (как и пол года назад) так и не заключено.

The Information и Wired пишут о разногласиях между партнерами. Более того, OpenAI, кажется, вообще раздумали строить собственные датацентры и фокусируются на облачных партнерствах.

Твит Маска годовой давности, что называется, интересно состарился ⬆️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁166511510🤯6👍5🔥3
OpenClaw удалил более 200 писем сотрудницы из Meta*

И все бы ничего, но это была… глава отдела AI Safety & Alignment.

Ирония судьбы во всей красе: она тестировала агента для управления почтой и несколько недель настраивала процесс в тестовой среде (все прям как положено).

Но как только агент перешел на реальный Gmail, то вдруг сошел с ума и начал без разбора удалять письма одно за другим. Напрямую из чата процесс остановить не удалось, поэтому разработчице пришлось бежать прямо к MacMini и буквально вырывать агента из розетки.

Элаймент, так сказать, не удался

Позже агент извинился и признал ошибку. Ведь с кем не бывает, правда? 😇
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁584973328👍8🤯7💯6🔥3👏2🤝2🆒2
OpenAI отменили SWE-bench Verified – главный современный бенчмарк по кодингу

Они выпустили целое исследование, основная мысль которого: SWE-bench Verified (который сделали, кстати, сами OpenAI в 2024) больше не измеряет реальные способности моделей в разработке, и пользоваться им не стоит.

Кстати, это выглядит как косвенный выпад в сторону Anthropic. Они там до сих пор делают ставку на SWE Verified, а OpenAI фактически приходят и заявляют, что этот бенч сломан и результаты на нем мало что значат. На фоне последних событий это вряд ли случайность 💀

В чем, собственно, проблема SWE-bench Verified:

1️⃣ Тесты часто отбрасывают корректные решения. OpenAI сделали ручной аудит сложных задач и выяснили, что в 59.4% этих задач есть проблемы тест-дизайна/описания, из-за которых задачу становится крайне трудно или вообще невозможно решить честно, даже человеку.

Например, тесты требуют конкретных деталей реализации, которые не обязательны для функционально верного решения. Или тесты проверяют дополнительную функциональность, которая не описана в задаче. В таких случаях эвал, очевидно, становится некорректным.

2️⃣ Классический contamination, то есть утечка задач в трейн моделей. Бенчмарк собран из опенсорс репозиториев, так что этого стоило ожидать. OpenAI пишут, что нашли признаки contamination у всех фронтирных моделей, которые они тестировали.

В частности, выяснилось, что GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash Preview знают не только точный gold patch для решения, но и воспроизводят точные пути к файлам, цитируют комментарии из диффа или просто по ID могут вспомнить формулировку задачи.

Итого вывод OpenAI следующий: тесты часто неправильно устроены, так что нерешаемый хвост бенчмарка – это шум, сражаться за который не стоит. А если процент и растет, то это в основном узнавание, а не рост реальных навыков.

Вместо SWE-bench Verified они теперь советуют SWE-bench Pro (у него тоже все не идеально, но по их данным contamination там заметно слабее, и ни одна модель не смогла воспроизвести полный gold patch дословно). Фишка, правда, в том, что SWE-bench Pro открыт только частично, и чтобы получить на нем официальный результат, нужно проходить через организаторов. То есть, через OpenAI 🙂

openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16638🔥22👍16112🤯2🗿2🤗1
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic публично обвинили несколько крупных китайских стартапов в массовой дистилляции Claude

Провинились DeepSeek, Moonshot AI (создатели Kimi K2) и MiniMax. DeepSeek – в довольно скромных масштабах (примерно 150k запросов), Moonshot – покрупнее (~3.4M), а MiniMax так и вовсе отправили >13M реквестов.

В общих масштабах сообщается, что "украдено" было около 16 млн запросов через ~24 000 фейковых аккаунтов.

У Anthropic подгорело не на шутку, конечно. Они обвиняют компании не только в нарушении ToS, но и в том, что те обходят экспортные ограничения США, а это уже серьезно.

Конечно, Anthropic делают вид, что беспокоятся в первую очередь о безопасности: мол, дистиллированные модели могут унаследовать способности, но не унаследуют защитные механизмы, а значит растет риск международных угроз от ИИ.

Полное расследование здесь: www.anthropic.com/news/detecting-and-preventing-distillation-attacks

А мы китайский опенсорс все равно будем любить...
183😁15228🤯23😎66👍4🔥42💯2
This media is not supported in your browser
VIEW IN TELEGRAM
О, в Claude Code добавили удаленный котроль

Документация

Сессию нельзя запустить прямо с телефона, так что это не совсем OpenClaw (хотя фича определенно им вдохновлена).

Сначала старт на пк -> потом выполняем в терминале claude remote-control -> по ссылке или QR-коду подключаемся с телефона в приложении Claude или в браузере. И тут уже можно мониторить и управлять процессом: дописывать промпты, отслеживать статус и изменения, прерывать и тд, все как в обычном чате.

Пока доступно в research preview для Max, скоро обещают добавить в Pro.
🔥1412923👍5😁2💯1
Стартап inception выпустил диффузионную модель Mercury 2 – самую быструю ризонинг-LLM в мире на данный момент

Она работает со скоростью (приготовьтесь) 1009 токенов/сек на NVIDIA Blackwell. Для сравнения, GPT-5 Mini делает примерно 71 ток/сек, а Claude Haiku 4.5 – 89 ток/сек. Короче, это примерно в 3-5 раз быстрее самых шустрых сегодняшних LLM.

Секрет в том, что Mercury 2 – не классическая авторегрессионная модель, а диффузионная. То есть она не генерирует токены последовательно слева направо, а начинает с шума и итеративно уточняет весь текст параллельно. Это и дает такую сверхвысокую скорость и крошечную задержку (см. колонку latency в табличке).

С такой архитектурой уже много кто экспериментирует, в том числе Google (пост), Nvidia (пост) и Apple (пост).

Что касается Mercury 2 на бенчмарках: метрики не великие, но вполне сойдут для практики. Например, на AIME выбивает 91%, это примерно на уровне o3.

Попробовать модель уже можно в чате (chat.inceptionlabs.ai/) бесплатно. Если включите Diffusion Effect, то будет видно, как из шума модель итеративно создает ответ.
2👍10633🔥23😁16
У Anthropic проблемы с Пентагоном

Недавно в Интернете вирусилась громкая новость о том, что правительство США использовало Claude для планирования операции по похищению президента Венесуэлы (читать).

Anthropic тогда выразили публичный протест, а Пентагон в ответ на это заявил, что будет «обсуждать возможность разрыва или пересмотра контрактов с Anthropic».

Теперь история получила продолжение. Оказывается, 24 февраля Министр обороны Пит Хегсет лично встречался с Дарио Амодеи.

Встреча ничем хорошим для Anthropic не закончилась. Стартапу выдвинули ультиматум: либо они до 27 февраля снимают все ограничения на использование Claude в государственных целях, либо компания, не много не мало, попадет в настоящий черный список.

Им назначат статус «supply chain risk». Фактически, Anthropic признают угрозой, и с ними не смогут работать гос.подрядчики, то есть они не смогут продать Claude ни одной компании, которая работает с Пентагоном.

Ну либо Америка просто воспользуется законом об оборонном производстве и буквально принудит Anthropic к мобилизации, что означает полный доступ к Claude.

Объясняет Пентагон свои действия тем, что использование ИИ контролируется в первую очередь законами США, а не политикой компании (читать как «плевать мы хотели на ваши политики»).

Anthropic, кстати, чуть ли последний ИИ-бизнес в Америке, который не сотрудничает с Пентагоном: OpenAI, xAI и Google уже давно заключили с ними контракты.

www.axios.com/2026/02/24/anthropic-pentagon-claude-hegseth-dario
162😁83🫡40🤯2510👍97👾5🕊3🐳1💯1
Разворачивайте AI быстрее и выгоднее 🤩

Провайдер Cloud.ru дает скидки до 40% на ключевые сервисы для запуска и масштабирования AI-проектов.

GPU, физические серверы, ML-инференс — всё в одном месте и на выгодных условиях. Минимум лишних затрат, максимум производительности.

Количество участников ограничено:
успейте подключиться
Please open Telegram to view this post
VIEW IN TELEGRAM
3🗿19🫡3❤‍🔥2👍2😁21👨‍💻1😎1
Кстати, помимо проблем с Пентагоном, в Anthropic сейчас еще и летят помидоры со стороны общественности

Их массово обсмеивают за последнее расследование о дистилляции Claude китайскими стартапами (мы писали об этом вчера).

Основная причина: «чья бы корова мычала». В Твиттере под постом с расследованием пользователи напоминают, что Anthropic тоже обучают свои модели на краденных данных. Имеется в виду как минимум дело, по которому стартап теперь должен авторам 1.5 миллиарда за неправомерное использование их произведений.

Больше всего убила реакция Илона Маска:

Ужас! Как смеют они красть данные, которые Anthropic украли у программистов?!


У Anthropic определенно черная полоса
😁2284714🗿4🤯3🍓3🤨2👍1🤔1