Большой обзор того, как сегодня обучают фронтирные LLMы
djdumpling.github.io/2026/01/31/frontier_training.html
Вышел свежий материал от инженера из Prime Intellect (писали о них много раз). Автор берет несколько открытых или условно открытых проектов – вроде SmolLM3, Intellect 3, Kimi K2, DeepSeek‑R1, gpt‑oss‑120b и Hermes 4 – и на их примере проходит по всему жизненному циклу моделей.
Текст абсолютно не похож на блоги компаний и тех.репорты, а скорее представляет из себя очень плотную дистилляцию реальной практики.
Внутри есть как и база в оригинальной ультра-практической обработке:
– Сбор и очистка данных
– Как именно выглядит претрен, mid‑training и post‑training
– Как выбирают архитектуру, гиперпараметры и токенизаторы
... так и то, о чем на самом деле мало где пишут:
– Схемы безопасности, и где они ломаются
– Где компании экономят компьют, а где, наоборот, жгут его ради качественных сдвигов
– Как заводится RL и как добиться стабильности обучения в целом
Если вы в теме – это мастрид.
* Ссылку на отчет увидели у коллеги с канала @lovedeathtransformers
djdumpling.github.io/2026/01/31/frontier_training.html
Вышел свежий материал от инженера из Prime Intellect (писали о них много раз). Автор берет несколько открытых или условно открытых проектов – вроде SmolLM3, Intellect 3, Kimi K2, DeepSeek‑R1, gpt‑oss‑120b и Hermes 4 – и на их примере проходит по всему жизненному циклу моделей.
Текст абсолютно не похож на блоги компаний и тех.репорты, а скорее представляет из себя очень плотную дистилляцию реальной практики.
Внутри есть как и база в оригинальной ультра-практической обработке:
– Сбор и очистка данных
– Как именно выглядит претрен, mid‑training и post‑training
– Как выбирают архитектуру, гиперпараметры и токенизаторы
... так и то, о чем на самом деле мало где пишут:
– Схемы безопасности, и где они ломаются
– Где компании экономят компьют, а где, наоборот, жгут его ради качественных сдвигов
– Как заводится RL и как добиться стабильности обучения в целом
Если вы в теме – это мастрид.
* Ссылку на отчет увидели у коллеги с канала @lovedeathtransformers
❤76🔥26👍15😁1🤯1👌1🗿1
Google выпустили Gemini 3.1 Pro
Обновленную модельку очень прилично качнули на кодинге, ризонинге и агентных задачках. Сравните:
– 77.1% на ARC-AGI-2 вместо 31.1 у Gemini 3
– 80.6% на SWE Verified против 76.2
– на BrowseComp (агентный поиск) выбили аж 85.9 вместо ранних 59.2 (ждем мега мощный Deep Research на базе этой модели)
Теперь Gemini снова полноценный игрок на кодинг-арене, это радует.
Пока моделька доступна в превью через Gemini API, Gemini app и в AI Studio (бесплатно тоже). Пробуем-пробуем-пробуем🔥
blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
Обновленную модельку очень прилично качнули на кодинге, ризонинге и агентных задачках. Сравните:
– 77.1% на ARC-AGI-2 вместо 31.1 у Gemini 3
– 80.6% на SWE Verified против 76.2
– на BrowseComp (агентный поиск) выбили аж 85.9 вместо ранних 59.2 (ждем мега мощный Deep Research на базе этой модели)
Теперь Gemini снова полноценный игрок на кодинг-арене, это радует.
Пока моделька доступна в превью через Gemini API, Gemini app и в AI Studio (бесплатно тоже). Пробуем-пробуем-пробуем
blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤130👍31🤯27🔥11⚡5👏3🦄3❤🔥1
Есть здесь те, кто поступает в этом году в ШАД?
С каждым годом конкуренция туда все выше, и это значит, что готовиться нужно усерднее.
В этом году счет идет уже на месяцы, экзамены стартуют совсем скоро. Если хотите повысить свои шансы – этот пост для вас.
23 февраля у Shad Helper стартует интенсивный курс подготовки. Они готовят студентов к ШАДу и ML-магистратурам уже 6 лет, а ведут у них преподаватели из МГУ, МФТИ и ВШЭ.
Курс отлично вам подойдет, если вы учились на тех.специальности и изучали вышмат раньше, а сейчас нужно освежить и углубить знания. Также курс подойдет тем, кто уже пробовал поступать в ШАД, но не прошел.
Будет очень много практики и пробников. Курс заканчивается прямо перед экзаменами в ШАД 2026, чтобы вы подошли к ним в лучшей форме.
Смотрите программу и регистрируйтесь на курс вот здесь. Для наших подписчиков действует скидка 30% на первоначальный взнос: промокод DS30.
А 24 февраля у ребят будет бесплатный вебинар. Обязательно сходите:
➖ На нем объяснят, какие подводные камни есть при подготовке и ответят на любые вопросы по поступлению в ШАД.
➖ Также на встрече будут
выпускники интенсивного курса прошлых лет, которые поделятся опытом поступления.
Реклама. ООО "Школа Высшей Математики", ИНН 9728100991, erid 2VtzqwdxNi8
С каждым годом конкуренция туда все выше, и это значит, что готовиться нужно усерднее.
В этом году счет идет уже на месяцы, экзамены стартуют совсем скоро. Если хотите повысить свои шансы – этот пост для вас.
23 февраля у Shad Helper стартует интенсивный курс подготовки. Они готовят студентов к ШАДу и ML-магистратурам уже 6 лет, а ведут у них преподаватели из МГУ, МФТИ и ВШЭ.
Курс отлично вам подойдет, если вы учились на тех.специальности и изучали вышмат раньше, а сейчас нужно освежить и углубить знания. Также курс подойдет тем, кто уже пробовал поступать в ШАД, но не прошел.
Будет очень много практики и пробников. Курс заканчивается прямо перед экзаменами в ШАД 2026, чтобы вы подошли к ним в лучшей форме.
Смотрите программу и регистрируйтесь на курс вот здесь. Для наших подписчиков действует скидка 30% на первоначальный взнос: промокод DS30.
А 24 февраля у ребят будет бесплатный вебинар. Обязательно сходите:
выпускники интенсивного курса прошлых лет, которые поделятся опытом поступления.
Реклама. ООО "Школа Высшей Математики", ИНН 9728100991, erid 2VtzqwdxNi8
Please open Telegram to view this post
VIEW IN TELEGRAM
🤨64❤15👍10🤯10🗿8❤🔥4😁4🔥3
В Microsoft придумали технологию хранения данных в стекле
Она основана на лазерной записи информации в виде трехмерных пикселей – вокселей – внутри прозрачного стекла. Идея не то чтобы совсем новая, но Microsoft первыми предложили полноценную end-to-end систему записи, хранения и считывания.
Для записи используется фемтосекундный лазер. Он испускает коротенькие импульсы и меняет структуру стекла, причем так, что среда в целом не страдает, а изменения видны только через оптику.
Прочитать данные можно с помощью микроскопа. Правда, на практике возникает нюанс: шумные световые сигналы. Так что для минимизации ошибок авторы предлагают использовать сверточные нейросетки.
В чем фишка такого хранения?
Во-первых, стекло может выдерживать экстремальные условия. Тесты показали, что таким образом данные можно хранить до 10 тысяч лет (!!!), тогда как обычные носители обычно выдерживают без обслуживания максимум 40-50 лет.
Во-вторых, плотность записи довольно презентабельная: ~4.8 ТБ на диск ~12 см². Не рекордные цифры, но вполне сопоставимо с современными средами хранения.
В-третьих, энергоэффективность: хранение, считай, получается бесплатным.
В общем, занятно. Статья в Nature: www.nature.com/articles/s41586-025-10042-w
Она основана на лазерной записи информации в виде трехмерных пикселей – вокселей – внутри прозрачного стекла. Идея не то чтобы совсем новая, но Microsoft первыми предложили полноценную end-to-end систему записи, хранения и считывания.
Для записи используется фемтосекундный лазер. Он испускает коротенькие импульсы и меняет структуру стекла, причем так, что среда в целом не страдает, а изменения видны только через оптику.
Прочитать данные можно с помощью микроскопа. Правда, на практике возникает нюанс: шумные световые сигналы. Так что для минимизации ошибок авторы предлагают использовать сверточные нейросетки.
В чем фишка такого хранения?
Во-первых, стекло может выдерживать экстремальные условия. Тесты показали, что таким образом данные можно хранить до 10 тысяч лет (!!!), тогда как обычные носители обычно выдерживают без обслуживания максимум 40-50 лет.
Во-вторых, плотность записи довольно презентабельная: ~4.8 ТБ на диск ~12 см². Не рекордные цифры, но вполне сопоставимо с современными средами хранения.
В-третьих, энергоэффективность: хранение, считай, получается бесплатным.
В общем, занятно. Статья в Nature: www.nature.com/articles/s41586-025-10042-w
❤171🔥71👍42😁6
Wake Up, Anthropic опять встряхнули рынок
1️⃣ Стартап выпустил Claude Code Security. Это агент, который умеет находить в больших кодовых базах сложные контекстные уязвимости. Он сканирует весь репозиторий и все изменения, выводит уязвимости в отдельный дашборд и сразу предлагает патчи для ревью.
От обычных SAST инструментов это отличается тем, что агент ориентируется не на готовые правила и паттерны, а буквально ризонит сквозь репозиторий с многошаговыми самопроверками, как это делал бы живой исследователь.
Anthropic пишут, что с помощью инстурмента им удалось найти более 500 уязвимостей в продовых опенсорс‑проектах, причем часть жила там десятилетиями и прошла через множество ревью.
2️⃣ Существенно прокачали Claude Code Desktop. Добавили Server Previews: агент сам запускает сервер и показывает превью приложения прямо в интерфейсе.
Кроме того, теперь Claude сам ловит и фиксит ошибки в console logs без вмешательства человека, и делает полное ревью перед пушем. И даже после создания PR агент продолжает его мониторить и при необходимости дочищать. Можно настроить auto‑merge (см скрин).
Выглядит прямо как неплохой автопилот, но будьте аккуратны: он может жрать очень много токенов.
* Оба обновления пока в превью. Подать заявку на доступ к CCS можно здесь, остальное доступно в Claude Code Desktop.
От обычных SAST инструментов это отличается тем, что агент ориентируется не на готовые правила и паттерны, а буквально ризонит сквозь репозиторий с многошаговыми самопроверками, как это делал бы живой исследователь.
Anthropic пишут, что с помощью инстурмента им удалось найти более 500 уязвимостей в продовых опенсорс‑проектах, причем часть жила там десятилетиями и прошла через множество ревью.
Кроме того, теперь Claude сам ловит и фиксит ошибки в console logs без вмешательства человека, и делает полное ревью перед пушем. И даже после создания PR агент продолжает его мониторить и при необходимости дочищать. Можно настроить auto‑merge (см скрин).
Выглядит прямо как неплохой автопилот, но будьте аккуратны: он может жрать очень много токенов.
* Оба обновления пока в превью. Подать заявку на доступ к CCS можно здесь, остальное доступно в Claude Code Desktop.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤159👍60🔥37😁5🤨1👨💻1
Google тихо порезали доступ к подписке через OpenClaw
Прошло меньше недели со дня, когда OpenAI купили OpenClaw, и конкуренты уже реагируют вот такими жесткими мерами.
Суть в том, что если вы подключали Google Antigravity / Gemini / Ultra к OpenClaw по OAuth, то ваш аккаунт, скорее всего, или уже забанили, или скоро забанят. Причем без предупреждения.
Причина: нарушение ToS посредством использования токенов в стороннем продукте. Хотя, по факту, OpenClaw – просто прокси, то есть прослойка, инициирующая запросы в сам сервис.
Создатель OpenClaw назвал поведение Google «драконовским» и предупредил, что, скорее всего, удалит из сервиса поддержку Antigravity.
Никто не хочет держаться за ручки с Альтманом даже виртуально…
Прошло меньше недели со дня, когда OpenAI купили OpenClaw, и конкуренты уже реагируют вот такими жесткими мерами.
Суть в том, что если вы подключали Google Antigravity / Gemini / Ultra к OpenClaw по OAuth, то ваш аккаунт, скорее всего, или уже забанили, или скоро забанят. Причем без предупреждения.
Причина: нарушение ToS посредством использования токенов в стороннем продукте. Хотя, по факту, OpenClaw – просто прокси, то есть прослойка, инициирующая запросы в сам сервис.
Создатель OpenClaw назвал поведение Google «драконовским» и предупредил, что, скорее всего, удалит из сервиса поддержку Antigravity.
Никто не хочет держаться за ручки с Альтманом даже виртуально…
😁213🤯34👍20❤15 14🤨9🔥3🫡3👾3
Как AI изменил разработку и как управлять этими изменениями
За последний год случился серьезный прорыв в том, что ИИ может дать командам разработки. Мы начинали 25-ый горсткой энтузиастов с простым чатом и автокомплитом в Cursor, а 26-ой начинаем с командами агентов, которые начал внедрять даже энтерпрайз.
Может ли AI ускорять команды – уже не вопрос. Вопрос в том, как это организовать и этим управлять – ведь у отдельных команд еще не накопилось достаточно часов опыта и проверенных практик.
Более сложная задача – отфильтровать шум, когда все хотят прокатиться на хайп трейне. В таком ситуации стоит слушать только тех, кто уже сам провел эксперименты и сделал личные выводы.
Потому Стратоплан и Entropy Talk собрали известных экспертов с реальным опытом: Head of AI и СТО крупных банков, фаундер стартапов с оценкой в десятки $m, инвестор в ИИ-стартапы с чеками 1-10M $, ex-CТО Pure, VP of Product в Jetbrains
Для кого: senior engineers, тех- и тим-лидов, СТО и фаундеров
Участие – бесплатно, но есть и платное (предоставляем сертификат)
[ Регистрация ]
За последний год случился серьезный прорыв в том, что ИИ может дать командам разработки. Мы начинали 25-ый горсткой энтузиастов с простым чатом и автокомплитом в Cursor, а 26-ой начинаем с командами агентов, которые начал внедрять даже энтерпрайз.
Может ли AI ускорять команды – уже не вопрос. Вопрос в том, как это организовать и этим управлять – ведь у отдельных команд еще не накопилось достаточно часов опыта и проверенных практик.
Более сложная задача – отфильтровать шум, когда все хотят прокатиться на хайп трейне. В таком ситуации стоит слушать только тех, кто уже сам провел эксперименты и сделал личные выводы.
Потому Стратоплан и Entropy Talk собрали известных экспертов с реальным опытом: Head of AI и СТО крупных банков, фаундер стартапов с оценкой в десятки $m, инвестор в ИИ-стартапы с чеками 1-10M $, ex-CТО Pure, VP of Product в Jetbrains
Для кого: senior engineers, тех- и тим-лидов, СТО и фаундеров
Участие – бесплатно, но есть и платное (предоставляем сертификат)
[ Регистрация ]
❤48👍28😁13🗿10🔥6👏6🤯2⚡1☃1
Проект Stargate, кажется, понемногу распадается
Да, речь про тот самый Stargate, который год назад так амбициозно стартовал как манхэттенский проект для ИИ.
Несмотря на громкие анонсы (100 миллиардов сразу и до 500 дальше), инвесторы так и не обеспечили поток капитала. Сейчас продолжают идти затяжные переговоры, но ни одной официальной сделки (как и пол года назад) так и не заключено.
The Information и Wired пишут о разногласиях между партнерами. Более того, OpenAI, кажется, вообще раздумали строить собственные датацентры и фокусируются на облачных партнерствах.
Твит Маска годовой давности, что называется, интересно состарился⬆️
Да, речь про тот самый Stargate, который год назад так амбициозно стартовал как манхэттенский проект для ИИ.
Несмотря на громкие анонсы (100 миллиардов сразу и до 500 дальше), инвесторы так и не обеспечили поток капитала. Сейчас продолжают идти затяжные переговоры, но ни одной официальной сделки (как и пол года назад) так и не заключено.
The Information и Wired пишут о разногласиях между партнерами. Более того, OpenAI, кажется, вообще раздумали строить собственные датацентры и фокусируются на облачных партнерствах.
Твит Маска годовой давности, что называется, интересно состарился
Please open Telegram to view this post
VIEW IN TELEGRAM
😁165 51❤15 10🤯6👍5🔥3
OpenClaw удалил более 200 писем сотрудницы из Meta*
И все бы ничего, но это была… глава отдела AI Safety & Alignment.
Ирония судьбы во всей красе: она тестировала агента для управления почтой и несколько недель настраивала процесс в тестовой среде (все прям как положено).
Но как только агент перешел на реальный Gmail, то вдруг сошел с ума и начал без разбора удалять письма одно за другим. Напрямую из чата процесс остановить не удалось, поэтому разработчице пришлось бежать прямо к MacMini и буквально вырывать агента из розетки.
Элаймент, так сказать, не удался
Позже агент извинился и признал ошибку. Ведь с кем не бывает, правда?😇
И все бы ничего, но это была… глава отдела AI Safety & Alignment.
Ирония судьбы во всей красе: она тестировала агента для управления почтой и несколько недель настраивала процесс в тестовой среде (все прям как положено).
Но как только агент перешел на реальный Gmail, то вдруг сошел с ума и начал без разбора удалять письма одно за другим. Напрямую из чата процесс остановить не удалось, поэтому разработчице пришлось бежать прямо к MacMini и буквально вырывать агента из розетки.
Элаймент, так сказать, не удался
Позже агент извинился и признал ошибку. Ведь с кем не бывает, правда?
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁584 97❤33 28👍8🤯7💯6🔥3👏2🤝2🆒2
OpenAI отменили SWE-bench Verified – главный современный бенчмарк по кодингу
Они выпустили целое исследование, основная мысль которого: SWE-bench Verified (который сделали, кстати, сами OpenAI в 2024) больше не измеряет реальные способности моделей в разработке, и пользоваться им не стоит.
Кстати, это выглядит как косвенный выпад в сторону Anthropic. Они там до сих пор делают ставку на SWE Verified, а OpenAI фактически приходят и заявляют, что этот бенч сломан и результаты на нем мало что значат. На фоне последних событий это вряд ли случайность💀
В чем, собственно, проблема SWE-bench Verified:
1️⃣ Тесты часто отбрасывают корректные решения. OpenAI сделали ручной аудит сложных задач и выяснили, что в 59.4% этих задач есть проблемы тест-дизайна/описания, из-за которых задачу становится крайне трудно или вообще невозможно решить честно, даже человеку.
Например, тесты требуют конкретных деталей реализации, которые не обязательны для функционально верного решения. Или тесты проверяют дополнительную функциональность, которая не описана в задаче. В таких случаях эвал, очевидно, становится некорректным.
2️⃣ Классический contamination, то есть утечка задач в трейн моделей. Бенчмарк собран из опенсорс репозиториев, так что этого стоило ожидать. OpenAI пишут, что нашли признаки contamination у всех фронтирных моделей, которые они тестировали.
В частности, выяснилось, что GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash Preview знают не только точный gold patch для решения, но и воспроизводят точные пути к файлам, цитируют комментарии из диффа или просто по ID могут вспомнить формулировку задачи.
Итого вывод OpenAI следующий: тесты часто неправильно устроены, так что нерешаемый хвост бенчмарка – это шум, сражаться за который не стоит. А если процент и растет, то это в основном узнавание, а не рост реальных навыков.
Вместо SWE-bench Verified они теперь советуют SWE-bench Pro (у него тоже все не идеально, но по их данным contamination там заметно слабее, и ни одна модель не смогла воспроизвести полный gold patch дословно). Фишка, правда, в том, что SWE-bench Pro открыт только частично, и чтобы получить на нем официальный результат, нужно проходить через организаторов. То есть, через OpenAI🙂
openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
Они выпустили целое исследование, основная мысль которого: SWE-bench Verified (который сделали, кстати, сами OpenAI в 2024) больше не измеряет реальные способности моделей в разработке, и пользоваться им не стоит.
Кстати, это выглядит как косвенный выпад в сторону Anthropic. Они там до сих пор делают ставку на SWE Verified, а OpenAI фактически приходят и заявляют, что этот бенч сломан и результаты на нем мало что значат. На фоне последних событий это вряд ли случайность
В чем, собственно, проблема SWE-bench Verified:
Например, тесты требуют конкретных деталей реализации, которые не обязательны для функционально верного решения. Или тесты проверяют дополнительную функциональность, которая не описана в задаче. В таких случаях эвал, очевидно, становится некорректным.
В частности, выяснилось, что GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash Preview знают не только точный gold patch для решения, но и воспроизводят точные пути к файлам, цитируют комментарии из диффа или просто по ID могут вспомнить формулировку задачи.
Итого вывод OpenAI следующий: тесты часто неправильно устроены, так что нерешаемый хвост бенчмарка – это шум, сражаться за который не стоит. А если процент и растет, то это в основном узнавание, а не рост реальных навыков.
Вместо SWE-bench Verified они теперь советуют SWE-bench Pro (у него тоже все не идеально, но по их данным contamination там заметно слабее, и ни одна модель не смогла воспроизвести полный gold patch дословно). Фишка, правда, в том, что SWE-bench Pro открыт только частично, и чтобы получить на нем официальный результат, нужно проходить через организаторов. То есть, через OpenAI
openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
Please open Telegram to view this post
VIEW IN TELEGRAM
😁166 38🔥22👍16❤11☃2🤯2🗿2🤗1
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic публично обвинили несколько крупных китайских стартапов в массовой дистилляции Claude
Провинились DeepSeek, Moonshot AI (создатели Kimi K2) и MiniMax. DeepSeek – в довольно скромных масштабах (примерно 150k запросов), Moonshot – покрупнее (~3.4M), а MiniMax так и вовсе отправили >13M реквестов.
В общих масштабах сообщается, что "украдено" было около 16 млн запросов через ~24 000 фейковых аккаунтов.
У Anthropic подгорело не на шутку, конечно. Они обвиняют компании не только в нарушении ToS, но и в том, что те обходят экспортные ограничения США, а это уже серьезно.
Конечно, Anthropic делают вид, что беспокоятся в первую очередь о безопасности: мол, дистиллированные модели могут унаследовать способности, но не унаследуют защитные механизмы, а значит растет риск международных угроз от ИИ.
Полное расследование здесь: www.anthropic.com/news/detecting-and-preventing-distillation-attacks
А мы китайский опенсорс все равно будем любить...
Провинились DeepSeek, Moonshot AI (создатели Kimi K2) и MiniMax. DeepSeek – в довольно скромных масштабах (примерно 150k запросов), Moonshot – покрупнее (~3.4M), а MiniMax так и вовсе отправили >13M реквестов.
В общих масштабах сообщается, что "украдено" было около 16 млн запросов через ~24 000 фейковых аккаунтов.
У Anthropic подгорело не на шутку, конечно. Они обвиняют компании не только в нарушении ToS, но и в том, что те обходят экспортные ограничения США, а это уже серьезно.
Конечно, Anthropic делают вид, что беспокоятся в первую очередь о безопасности: мол, дистиллированные модели могут унаследовать способности, но не унаследуют защитные механизмы, а значит растет риск международных угроз от ИИ.
Полное расследование здесь: www.anthropic.com/news/detecting-and-preventing-distillation-attacks
❤183😁152 28🤯23😎6 6👍4🔥4⚡2💯2
This media is not supported in your browser
VIEW IN TELEGRAM
О, в Claude Code добавили удаленный котроль
Документация
Сессию нельзя запустить прямо с телефона, так что это не совсем OpenClaw (хотя фича определенно им вдохновлена).
Сначала старт на пк -> потом выполняем в терминале claude remote-control -> по ссылке или QR-коду подключаемся с телефона в приложении Claude или в браузере. И тут уже можно мониторить и управлять процессом: дописывать промпты, отслеживать статус и изменения, прерывать и тд, все как в обычном чате.
Пока доступно в research preview для Max, скоро обещают добавить в Pro.
Документация
Сессию нельзя запустить прямо с телефона, так что это не совсем OpenClaw (хотя фича определенно им вдохновлена).
Сначала старт на пк -> потом выполняем в терминале claude remote-control -> по ссылке или QR-коду подключаемся с телефона в приложении Claude или в браузере. И тут уже можно мониторить и управлять процессом: дописывать промпты, отслеживать статус и изменения, прерывать и тд, все как в обычном чате.
Пока доступно в research preview для Max, скоро обещают добавить в Pro.
🔥139⚡29❤23👍5😁2💯1
Стартап inception выпустил диффузионную модель Mercury 2 – самую быструю ризонинг-LLM в мире на данный момент
Она работает со скоростью (приготовьтесь) 1009 токенов/сек на NVIDIA Blackwell. Для сравнения, GPT-5 Mini делает примерно 71 ток/сек, а Claude Haiku 4.5 – 89 ток/сек. Короче, это примерно в 3-5 раз быстрее самых шустрых сегодняшних LLM.
Секрет в том, что Mercury 2 – не классическая авторегрессионная модель, а диффузионная. То есть она не генерирует токены последовательно слева направо, а начинает с шума и итеративно уточняет весь текст параллельно. Это и дает такую сверхвысокую скорость и крошечную задержку (см. колонку latency в табличке).
С такой архитектурой уже много кто экспериментирует, в том числе Google (пост), Nvidia (пост) и Apple (пост).
Что касается Mercury 2 на бенчмарках: метрики не великие, но вполне сойдут для практики. Например, на AIME выбивает 91%, это примерно на уровне o3.
Попробовать модель уже можно в чате (chat.inceptionlabs.ai/) бесплатно. Если включите Diffusion Effect, то будет видно, как из шума модель итеративно создает ответ.
Она работает со скоростью (приготовьтесь) 1009 токенов/сек на NVIDIA Blackwell. Для сравнения, GPT-5 Mini делает примерно 71 ток/сек, а Claude Haiku 4.5 – 89 ток/сек. Короче, это примерно в 3-5 раз быстрее самых шустрых сегодняшних LLM.
Секрет в том, что Mercury 2 – не классическая авторегрессионная модель, а диффузионная. То есть она не генерирует токены последовательно слева направо, а начинает с шума и итеративно уточняет весь текст параллельно. Это и дает такую сверхвысокую скорость и крошечную задержку (см. колонку latency в табличке).
С такой архитектурой уже много кто экспериментирует, в том числе Google (пост), Nvidia (пост) и Apple (пост).
Что касается Mercury 2 на бенчмарках: метрики не великие, но вполне сойдут для практики. Например, на AIME выбивает 91%, это примерно на уровне o3.
Попробовать модель уже можно в чате (chat.inceptionlabs.ai/) бесплатно. Если включите Diffusion Effect, то будет видно, как из шума модель итеративно создает ответ.
2👍104❤32🔥21😁16
У Anthropic проблемы с Пентагоном
Недавно в Интернете вирусилась громкая новость о том, что правительство США использовало Claude для планирования операции по похищению президента Венесуэлы (читать).
Anthropic тогда выразили публичный протест, а Пентагон в ответ на это заявил, что будет «обсуждать возможность разрыва или пересмотра контрактов с Anthropic».
Теперь история получила продолжение. Оказывается, 24 февраля Министр обороны Пит Хегсет лично встречался с Дарио Амодеи.
Встреча ничем хорошим для Anthropic не закончилась. Стартапу выдвинули ультиматум: либо они до 27 февраля снимают все ограничения на использование Claude в государственных целях, либо компания, не много не мало, попадет в настоящий черный список.
Им назначат статус «supply chain risk». Фактически, Anthropic признают угрозой, и с ними не смогут работать гос.подрядчики, то есть они не смогут продать Claude ни одной компании, которая работает с Пентагоном.
Ну либо Америка просто воспользуется законом об оборонном производстве и буквально принудит Anthropic к мобилизации, что означает полный доступ к Claude.
Объясняет Пентагон свои действия тем, что использование ИИ контролируется в первую очередь законами США, а не политикой компании (читать как «плевать мы хотели на ваши политики»).
Anthropic, кстати, чуть ли последний ИИ-бизнес в Америке, который не сотрудничает с Пентагоном: OpenAI, xAI и Google уже давно заключили с ними контракты.
www.axios.com/2026/02/24/anthropic-pentagon-claude-hegseth-dario
Недавно в Интернете вирусилась громкая новость о том, что правительство США использовало Claude для планирования операции по похищению президента Венесуэлы (читать).
Anthropic тогда выразили публичный протест, а Пентагон в ответ на это заявил, что будет «обсуждать возможность разрыва или пересмотра контрактов с Anthropic».
Теперь история получила продолжение. Оказывается, 24 февраля Министр обороны Пит Хегсет лично встречался с Дарио Амодеи.
Встреча ничем хорошим для Anthropic не закончилась. Стартапу выдвинули ультиматум: либо они до 27 февраля снимают все ограничения на использование Claude в государственных целях, либо компания, не много не мало, попадет в настоящий черный список.
Им назначат статус «supply chain risk». Фактически, Anthropic признают угрозой, и с ними не смогут работать гос.подрядчики, то есть они не смогут продать Claude ни одной компании, которая работает с Пентагоном.
Ну либо Америка просто воспользуется законом об оборонном производстве и буквально принудит Anthropic к мобилизации, что означает полный доступ к Claude.
Объясняет Пентагон свои действия тем, что использование ИИ контролируется в первую очередь законами США, а не политикой компании (читать как «плевать мы хотели на ваши политики»).
Anthropic, кстати, чуть ли последний ИИ-бизнес в Америке, который не сотрудничает с Пентагоном: OpenAI, xAI и Google уже давно заключили с ними контракты.
www.axios.com/2026/02/24/anthropic-pentagon-claude-hegseth-dario
Разворачивайте AI быстрее и выгоднее 🤩
Провайдер Cloud.ru дает скидки до 40% на ключевые сервисы для запуска и масштабирования AI-проектов.
GPU, физические серверы, ML-инференс — всё в одном месте и на выгодных условиях. Минимум лишних затрат, максимум производительности.
Количество участников ограничено:
успейте подключиться
Провайдер Cloud.ru дает скидки до 40% на ключевые сервисы для запуска и масштабирования AI-проектов.
GPU, физические серверы, ML-инференс — всё в одном месте и на выгодных условиях. Минимум лишних затрат, максимум производительности.
Количество участников ограничено:
успейте подключиться
Please open Telegram to view this post
VIEW IN TELEGRAM
3🗿18🫡3❤🔥2👍2😁2❤1👨💻1😎1
Кстати, помимо проблем с Пентагоном, в Anthropic сейчас еще и летят помидоры со стороны общественности
Их массово обсмеивают за последнее расследование о дистилляции Claude китайскими стартапами (мы писали об этом вчера).
Основная причина: «чья бы корова мычала». В Твиттере под постом с расследованием пользователи напоминают, что Anthropic тоже обучают свои модели на краденных данных. Имеется в виду как минимум дело, по которому стартап теперь должен авторам 1.5 миллиарда за неправомерное использование их произведений.
Больше всего убила реакция Илона Маска:
У Anthropic определенно черная полоса
Их массово обсмеивают за последнее расследование о дистилляции Claude китайскими стартапами (мы писали об этом вчера).
Основная причина: «чья бы корова мычала». В Твиттере под постом с расследованием пользователи напоминают, что Anthropic тоже обучают свои модели на краденных данных. Имеется в виду как минимум дело, по которому стартап теперь должен авторам 1.5 миллиарда за неправомерное использование их произведений.
Больше всего убила реакция Илона Маска:
Ужас! Как смеют они красть данные, которые Anthropic украли у программистов?!
У Anthropic определенно черная полоса
😁198 44❤12🗿3🤯2👍1🤨1🍓1