Data Secrets
88K subscribers
6.58K photos
691 videos
20 files
2.85K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Большой обзор того, как сегодня обучают фронтирные LLMы

djdumpling.github.io/2026/01/31/frontier_training.html

Вышел свежий материал от инженера из Prime Intellect (писали о них много раз). Автор берет несколько открытых или условно открытых проектов – вроде SmolLM3, Intellect 3, Kimi K2, DeepSeek‑R1, gpt‑oss‑120b и Hermes 4 – и на их примере проходит по всему жизненному циклу моделей.

Текст абсолютно не похож на блоги компаний и тех.репорты, а скорее представляет из себя очень плотную дистилляцию реальной практики.

Внутри есть как и база в оригинальной ультра-практической обработке:
– Сбор и очистка данных
– Как именно выглядит претрен, mid‑training и post‑training
– Как выбирают архитектуру, гиперпараметры и токенизаторы

... так и то, о чем на самом деле мало где пишут:
– Схемы безопасности, и где они ломаются
– Где компании экономят компьют, а где, наоборот, жгут его ради качественных сдвигов
– Как заводится RL и как добиться стабильности обучения в целом

Если вы в теме – это мастрид.

* Ссылку на отчет увидели у коллеги с канала @lovedeathtransformers
76🔥26👍15😁1🤯1👌1🗿1
Google выпустили Gemini 3.1 Pro

Обновленную модельку очень прилично качнули на кодинге, ризонинге и агентных задачках. Сравните:

– 77.1% на ARC-AGI-2 вместо 31.1 у Gemini 3
– 80.6% на SWE Verified против 76.2
– на BrowseComp (агентный поиск) выбили аж 85.9 вместо ранних 59.2 (ждем мега мощный Deep Research на базе этой модели)

Теперь Gemini снова полноценный игрок на кодинг-арене, это радует.

Пока моделька доступна в превью через Gemini API, Gemini app и в AI Studio (бесплатно тоже). Пробуем-пробуем-пробуем 🔥

blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
Please open Telegram to view this post
VIEW IN TELEGRAM
2130👍31🤯27🔥115👏3🦄3❤‍🔥1
Каждый день в 2026 такой типа
😁419💯9727🔥101
Есть здесь те, кто поступает в этом году в ШАД?

С каждым годом конкуренция туда все выше, и это значит, что готовиться нужно усерднее.

В этом году счет идет уже на месяцы, экзамены стартуют совсем скоро. Если хотите повысить свои шансы – этот пост для вас.

23 февраля у Shad Helper стартует интенсивный курс подготовки. Они готовят студентов к ШАДу и ML-магистратурам уже 6 лет, а ведут у них преподаватели из МГУ, МФТИ и ВШЭ.

Курс отлично вам подойдет, если вы учились на тех.специальности и изучали вышмат раньше, а сейчас нужно освежить и углубить знания. Также курс подойдет тем, кто уже пробовал поступать в ШАД, но не прошел.

Будет очень много практики и пробников. Курс заканчивается прямо перед экзаменами в ШАД 2026, чтобы вы подошли к ним в лучшей форме.

Смотрите программу и регистрируйтесь на курс вот здесь. Для наших подписчиков действует скидка 30% на первоначальный взнос: промокод DS30.

А 24 февраля у ребят будет бесплатный вебинар. Обязательно сходите:

На нем объяснят, какие подводные камни есть при подготовке и ответят на любые вопросы по поступлению в ШАД.
Также на встрече будут
выпускники интенсивного курса прошлых лет, которые поделятся опытом поступления.

Реклама. ООО "Школа Высшей Математики", ИНН 9728100991, erid 2VtzqwdxNi8
Please open Telegram to view this post
VIEW IN TELEGRAM
🤨6415👍10🤯10🗿8❤‍🔥4😁4🔥3
СММ-щик официального аккаунта ChatGPT в твиттере определенно заслуживает уважения
2😁4353917🔥87🫡6👍3💘1
В Microsoft придумали технологию хранения данных в стекле

Она основана на лазерной записи информации в виде трехмерных пикселей – вокселей – внутри прозрачного стекла. Идея не то чтобы совсем новая, но Microsoft первыми предложили полноценную end-to-end систему записи, хранения и считывания.

Для записи используется фемтосекундный лазер. Он испускает коротенькие импульсы и меняет структуру стекла, причем так, что среда в целом не страдает, а изменения видны только через оптику.

Прочитать данные можно с помощью микроскопа. Правда, на практике возникает нюанс: шумные световые сигналы. Так что для минимизации ошибок авторы предлагают использовать сверточные нейросетки.

В чем фишка такого хранения?

Во-первых, стекло может выдерживать экстремальные условия. Тесты показали, что таким образом данные можно хранить до 10 тысяч лет (!!!), тогда как обычные носители обычно выдерживают без обслуживания максимум 40-50 лет.

Во-вторых, плотность записи довольно презентабельная: ~4.8 ТБ на диск ~12 см². Не рекордные цифры, но вполне сопоставимо с современными средами хранения.

В-третьих, энергоэффективность: хранение, считай, получается бесплатным.

В общем, занятно. Статья в Nature: www.nature.com/articles/s41586-025-10042-w
171🔥71👍42😁6
Wake Up, Anthropic опять встряхнули рынок

1️⃣ Стартап выпустил Claude Code Security. Это агент, который умеет находить в больших кодовых базах сложные контекстные уязвимости. Он сканирует весь репозиторий и все изменения, выводит уязвимости в отдельный дашборд и сразу предлагает патчи для ревью.

От обычных SAST инструментов это отличается тем, что агент ориентируется не на готовые правила и паттерны, а буквально ризонит сквозь репозиторий с многошаговыми самопроверками, как это делал бы живой исследователь.

Anthropic пишут, что с помощью инстурмента им удалось найти более 500 уязвимостей в продовых опенсорс‑проектах, причем часть жила там десятилетиями и прошла через множество ревью.

2️⃣ Существенно прокачали Claude Code Desktop. Добавили Server Previews: агент сам запускает сервер и показывает превью приложения прямо в интерфейсе.

Кроме того, теперь Claude сам ловит и фиксит ошибки в console logs без вмешательства человека, и делает полное ревью перед пушем. И даже после создания PR агент продолжает его мониторить и при необходимости дочищать. Можно настроить auto‑merge (см скрин).

Выглядит прямо как неплохой автопилот, но будьте аккуратны: он может жрать очень много токенов.

* Оба обновления пока в превью. Подать заявку на доступ к CCS можно здесь, остальное доступно в Claude Code Desktop.
Please open Telegram to view this post
VIEW IN TELEGRAM
159👍60🔥37😁5🤨1👨‍💻1
Google тихо порезали доступ к подписке через OpenClaw

Прошло меньше недели со дня, когда OpenAI купили OpenClaw, и конкуренты уже реагируют вот такими жесткими мерами.

Суть в том, что если вы подключали Google Antigravity / Gemini / Ultra к OpenClaw по OAuth, то ваш аккаунт, скорее всего, или уже забанили, или скоро забанят. Причем без предупреждения.

Причина: нарушение ToS посредством использования токенов в стороннем продукте. Хотя, по факту, OpenClaw – просто прокси, то есть прослойка, инициирующая запросы в сам сервис.

Создатель OpenClaw назвал поведение Google «драконовским» и предупредил, что, скорее всего, удалит из сервиса поддержку Antigravity.

Никто не хочет держаться за ручки с Альтманом даже виртуально…
😁213🤯34👍201514🤨9🔥3🫡3👾3
Как AI изменил разработку и как управлять этими изменениями

За последний год случился серьезный прорыв в том, что ИИ может дать командам разработки. Мы начинали 25-ый горсткой энтузиастов с простым чатом и автокомплитом в Cursor, а 26-ой начинаем с командами агентов, которые начал внедрять даже энтерпрайз.

Может ли AI ускорять команды – уже не вопрос. Вопрос в том, как это организовать и этим управлять – ведь у отдельных команд еще не накопилось достаточно часов опыта и проверенных практик.

Более сложная задача – отфильтровать шум, когда все хотят прокатиться на хайп трейне. В таком ситуации стоит слушать только тех, кто уже сам провел эксперименты и сделал личные выводы.

Потому Стратоплан и Entropy Talk собрали известных экспертов с реальным опытом: Head of AI и СТО крупных банков, фаундер стартапов с оценкой в десятки $m, инвестор в ИИ-стартапы с чеками 1-10M $, ex-CТО Pure, VP of Product в Jetbrains

Для кого: senior engineers, тех- и тим-лидов, СТО и фаундеров

Участие – бесплатно, но есть и платное (предоставляем сертификат)

[ Регистрация ]
48👍28😁13🗿10🔥6👏6🤯211
Проект Stargate, кажется, понемногу распадается

Да, речь про тот самый Stargate, который год назад так амбициозно стартовал как манхэттенский проект для ИИ.

Несмотря на громкие анонсы (100 миллиардов сразу и до 500 дальше), инвесторы так и не обеспечили поток капитала. Сейчас продолжают идти затяжные переговоры, но ни одной официальной сделки (как и пол года назад) так и не заключено.

The Information и Wired пишут о разногласиях между партнерами. Более того, OpenAI, кажется, вообще раздумали строить собственные датацентры и фокусируются на облачных партнерствах.

Твит Маска годовой давности, что называется, интересно состарился ⬆️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁165511510🤯6👍5🔥3
OpenClaw удалил более 200 писем сотрудницы из Meta*

И все бы ничего, но это была… глава отдела AI Safety & Alignment.

Ирония судьбы во всей красе: она тестировала агента для управления почтой и несколько недель настраивала процесс в тестовой среде (все прям как положено).

Но как только агент перешел на реальный Gmail, то вдруг сошел с ума и начал без разбора удалять письма одно за другим. Напрямую из чата процесс остановить не удалось, поэтому разработчице пришлось бежать прямо к MacMini и буквально вырывать агента из розетки.

Элаймент, так сказать, не удался

Позже агент извинился и признал ошибку. Ведь с кем не бывает, правда? 😇
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁584973328👍8🤯7💯6🔥3👏2🤝2🆒2
OpenAI отменили SWE-bench Verified – главный современный бенчмарк по кодингу

Они выпустили целое исследование, основная мысль которого: SWE-bench Verified (который сделали, кстати, сами OpenAI в 2024) больше не измеряет реальные способности моделей в разработке, и пользоваться им не стоит.

Кстати, это выглядит как косвенный выпад в сторону Anthropic. Они там до сих пор делают ставку на SWE Verified, а OpenAI фактически приходят и заявляют, что этот бенч сломан и результаты на нем мало что значат. На фоне последних событий это вряд ли случайность 💀

В чем, собственно, проблема SWE-bench Verified:

1️⃣ Тесты часто отбрасывают корректные решения. OpenAI сделали ручной аудит сложных задач и выяснили, что в 59.4% этих задач есть проблемы тест-дизайна/описания, из-за которых задачу становится крайне трудно или вообще невозможно решить честно, даже человеку.

Например, тесты требуют конкретных деталей реализации, которые не обязательны для функционально верного решения. Или тесты проверяют дополнительную функциональность, которая не описана в задаче. В таких случаях эвал, очевидно, становится некорректным.

2️⃣ Классический contamination, то есть утечка задач в трейн моделей. Бенчмарк собран из опенсорс репозиториев, так что этого стоило ожидать. OpenAI пишут, что нашли признаки contamination у всех фронтирных моделей, которые они тестировали.

В частности, выяснилось, что GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash Preview знают не только точный gold patch для решения, но и воспроизводят точные пути к файлам, цитируют комментарии из диффа или просто по ID могут вспомнить формулировку задачи.

Итого вывод OpenAI следующий: тесты часто неправильно устроены, так что нерешаемый хвост бенчмарка – это шум, сражаться за который не стоит. А если процент и растет, то это в основном узнавание, а не рост реальных навыков.

Вместо SWE-bench Verified они теперь советуют SWE-bench Pro (у него тоже все не идеально, но по их данным contamination там заметно слабее, и ни одна модель не смогла воспроизвести полный gold patch дословно). Фишка, правда, в том, что SWE-bench Pro открыт только частично, и чтобы получить на нем официальный результат, нужно проходить через организаторов. То есть, через OpenAI 🙂

openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16638🔥22👍16112🤯2🗿2🤗1
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic публично обвинили несколько крупных китайских стартапов в массовой дистилляции Claude

Провинились DeepSeek, Moonshot AI (создатели Kimi K2) и MiniMax. DeepSeek – в довольно скромных масштабах (примерно 150k запросов), Moonshot – покрупнее (~3.4M), а MiniMax так и вовсе отправили >13M реквестов.

В общих масштабах сообщается, что "украдено" было около 16 млн запросов через ~24 000 фейковых аккаунтов.

У Anthropic подгорело не на шутку, конечно. Они обвиняют компании не только в нарушении ToS, но и в том, что те обходят экспортные ограничения США, а это уже серьезно.

Конечно, Anthropic делают вид, что беспокоятся в первую очередь о безопасности: мол, дистиллированные модели могут унаследовать способности, но не унаследуют защитные механизмы, а значит растет риск международных угроз от ИИ.

Полное расследование здесь: www.anthropic.com/news/detecting-and-preventing-distillation-attacks

А мы китайский опенсорс все равно будем любить...
183😁15228🤯23😎66👍4🔥42💯2
This media is not supported in your browser
VIEW IN TELEGRAM
О, в Claude Code добавили удаленный котроль

Документация

Сессию нельзя запустить прямо с телефона, так что это не совсем OpenClaw (хотя фича определенно им вдохновлена).

Сначала старт на пк -> потом выполняем в терминале claude remote-control -> по ссылке или QR-коду подключаемся с телефона в приложении Claude или в браузере. И тут уже можно мониторить и управлять процессом: дописывать промпты, отслеживать статус и изменения, прерывать и тд, все как в обычном чате.

Пока доступно в research preview для Max, скоро обещают добавить в Pro.
🔥1392923👍5😁2💯1
Стартап inception выпустил диффузионную модель Mercury 2 – самую быструю ризонинг-LLM в мире на данный момент

Она работает со скоростью (приготовьтесь) 1009 токенов/сек на NVIDIA Blackwell. Для сравнения, GPT-5 Mini делает примерно 71 ток/сек, а Claude Haiku 4.5 – 89 ток/сек. Короче, это примерно в 3-5 раз быстрее самых шустрых сегодняшних LLM.

Секрет в том, что Mercury 2 – не классическая авторегрессионная модель, а диффузионная. То есть она не генерирует токены последовательно слева направо, а начинает с шума и итеративно уточняет весь текст параллельно. Это и дает такую сверхвысокую скорость и крошечную задержку (см. колонку latency в табличке).

С такой архитектурой уже много кто экспериментирует, в том числе Google (пост), Nvidia (пост) и Apple (пост).

Что касается Mercury 2 на бенчмарках: метрики не великие, но вполне сойдут для практики. Например, на AIME выбивает 91%, это примерно на уровне o3.

Попробовать модель уже можно в чате (chat.inceptionlabs.ai/) бесплатно. Если включите Diffusion Effect, то будет видно, как из шума модель итеративно создает ответ.
2👍10432🔥21😁16
У Anthropic проблемы с Пентагоном

Недавно в Интернете вирусилась громкая новость о том, что правительство США использовало Claude для планирования операции по похищению президента Венесуэлы (читать).

Anthropic тогда выразили публичный протест, а Пентагон в ответ на это заявил, что будет «обсуждать возможность разрыва или пересмотра контрактов с Anthropic».

Теперь история получила продолжение. Оказывается, 24 февраля Министр обороны Пит Хегсет лично встречался с Дарио Амодеи.

Встреча ничем хорошим для Anthropic не закончилась. Стартапу выдвинули ультиматум: либо они до 27 февраля снимают все ограничения на использование Claude в государственных целях, либо компания, не много не мало, попадет в настоящий черный список.

Им назначат статус «supply chain risk». Фактически, Anthropic признают угрозой, и с ними не смогут работать гос.подрядчики, то есть они не смогут продать Claude ни одной компании, которая работает с Пентагоном.

Ну либо Америка просто воспользуется законом об оборонном производстве и буквально принудит Anthropic к мобилизации, что означает полный доступ к Claude.

Объясняет Пентагон свои действия тем, что использование ИИ контролируется в первую очередь законами США, а не политикой компании (читать как «плевать мы хотели на ваши политики»).

Anthropic, кстати, чуть ли последний ИИ-бизнес в Америке, который не сотрудничает с Пентагоном: OpenAI, xAI и Google уже давно заключили с ними контракты.

www.axios.com/2026/02/24/anthropic-pentagon-claude-hegseth-dario
152😁77🫡38🤯238👍76👾5🕊3🐳1💯1
Разворачивайте AI быстрее и выгоднее 🤩

Провайдер Cloud.ru дает скидки до 40% на ключевые сервисы для запуска и масштабирования AI-проектов.

GPU, физические серверы, ML-инференс — всё в одном месте и на выгодных условиях. Минимум лишних затрат, максимум производительности.

Количество участников ограничено:
успейте подключиться
Please open Telegram to view this post
VIEW IN TELEGRAM
3🗿18🫡3❤‍🔥2👍2😁21👨‍💻1😎1
Кстати, помимо проблем с Пентагоном, в Anthropic сейчас еще и летят помидоры со стороны общественности

Их массово обсмеивают за последнее расследование о дистилляции Claude китайскими стартапами (мы писали об этом вчера).

Основная причина: «чья бы корова мычала». В Твиттере под постом с расследованием пользователи напоминают, что Anthropic тоже обучают свои модели на краденных данных. Имеется в виду как минимум дело, по которому стартап теперь должен авторам 1.5 миллиарда за неправомерное использование их произведений.

Больше всего убила реакция Илона Маска:

Ужас! Как смеют они красть данные, которые Anthropic украли у программистов?!


У Anthropic определенно черная полоса
😁1984412🗿3🤯2👍1🤨1🍓1