⚡️ Релиз Claude Opus 4.6 — обновление самой мощной ИИ-модели Anthropic
Ключевое техническое изменение — контекстное окно до 1 млн токенов (бета). Модель дольше удерживает состояние задачи, стабильнее работает в больших кодовых базах и лучше справляется с агентными сценариями: планирование, код-ревью, отладка, длительные автономные запуски.
По бенчмаркам Opus 4.6 вышел в лидеры в агентном программировании (Terminal-Bench 2.0), поиске сложной информации (BrowseComp) и экономически значимых задачах знаний (GDPval-AA), где он обходит предыдущую версию и ближайших конкурентов, включая OpenAI с GPT-5.2.
Отдельно отмечают снижение деградации качества на длинных диалогах и документах — так называемого context rot.
Для разработчиков добавили уровни
Модель уже доступна в интерфейсе Claude и на RouterAI.
@ai_for_devs
Ключевое техническое изменение — контекстное окно до 1 млн токенов (бета). Модель дольше удерживает состояние задачи, стабильнее работает в больших кодовых базах и лучше справляется с агентными сценариями: планирование, код-ревью, отладка, длительные автономные запуски.
По бенчмаркам Opus 4.6 вышел в лидеры в агентном программировании (Terminal-Bench 2.0), поиске сложной информации (BrowseComp) и экономически значимых задачах знаний (GDPval-AA), где он обходит предыдущую версию и ближайших конкурентов, включая OpenAI с GPT-5.2.
Отдельно отмечают снижение деградации качества на длинных диалогах и документах — так называемого context rot.
Для разработчиков добавили уровни
effort, адаптивное рассуждение и автоматическое сжатие контекста для долгоживущих агентов. Цена осталась прежней. Модель уже доступна в интерфейсе Claude и на RouterAI.
@ai_for_devs
2🔥28👍12❤10🤩5⚡2
⚡️ С разницей в пару минут OpenAI зарелизили свой флагман: GPT-5.3-Codex
Модель объединила кодинг-возможности GPT-5.2-Codex и reasoning GPT-5.2. По заявлению OpenAI, она работает примерно на 25% быстрее и лучше держит контекст в длинных сессиях с инструментами, терминалом и GUI-приложениями.
GPT-5.3-Codex может выполнять задачи часами или днями, при этом пользователь может вмешиваться в процесс: уточнять требования, менять направление работы и получать промежуточные апдейты без перезапуска агента.
Интересный факт: ранние версии модели использовались при её же разработке. Codex помогал отслеживать обучение, анализировать логи, диагностировать баги, масштабировать GPU-кластеры и разбирать аномалии в тестах.
Зато бенчмарки Anthropic и OpenAI сделали красивые, и та и другая модель лидер в своих маркетинговых материалах :D
Ну что, Gemini тоже сегодня ждать?)
@ai_for_devs
Модель объединила кодинг-возможности GPT-5.2-Codex и reasoning GPT-5.2. По заявлению OpenAI, она работает примерно на 25% быстрее и лучше держит контекст в длинных сессиях с инструментами, терминалом и GUI-приложениями.
GPT-5.3-Codex может выполнять задачи часами или днями, при этом пользователь может вмешиваться в процесс: уточнять требования, менять направление работы и получать промежуточные апдейты без перезапуска агента.
Интересный факт: ранние версии модели использовались при её же разработке. Codex помогал отслеживать обучение, анализировать логи, диагностировать баги, масштабировать GPU-кластеры и разбирать аномалии в тестах.
Зато бенчмарки Anthropic и OpenAI сделали красивые, и та и другая модель лидер в своих маркетинговых материалах :D
Ну что, Gemini тоже сегодня ждать?)
@ai_for_devs
2😁33⚡16👍12🔥6❤5🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
Не так давно обсуждали Cursor с сотнями автономных агентов, которые написали бразуер на 1млн+ строк кода с нуля. Теперь похожий эксперимент провели и Anthropic, со своей новой моделью.
Исследователь компании запустил 16 экземпляров Claude Opus 4.6, которые автономно, без постоянного участия человека в контуре, написали C-компилятор на Rust, способный собрать Linux kernel.
За две недели работы агенты выдали около 100 000 строк кода и довели компилятор до сборки Linux 6.9 под x86, ARM и RISC-V.
@ai_for_devs
Исследователь компании запустил 16 экземпляров Claude Opus 4.6, которые автономно, без постоянного участия человека в контуре, написали C-компилятор на Rust, способный собрать Linux kernel.
За две недели работы агенты выдали около 100 000 строк кода и довели компилятор до сборки Linux 6.9 под x86, ARM и RISC-V.
@ai_for_devs
1🤯49👍21🔥9⚡4😁4❤3
🙈 Claude Code делает 4% коммитов на GitHub
По данным SemiAnalysis на начало февраля, на Claude Code приходится 4% всех публичных коммитов — рост с почти нулевого уровня; при сохранении текущих тенденций прогнозируется до 20% к концу года.
Возникает вопрос качества этих коммитов. Компилятор из предыдущего поста, кстати, не может скомпилировать Hello World из своего же README файла :)
Ну когда уже нас заменят окончательно!? Хочу на море...
@ai_for_devs
По данным SemiAnalysis на начало февраля, на Claude Code приходится 4% всех публичных коммитов — рост с почти нулевого уровня; при сохранении текущих тенденций прогнозируется до 20% к концу года.
Возникает вопрос качества этих коммитов. Компилятор из предыдущего поста, кстати, не может скомпилировать Hello World из своего же README файла :)
Ну когда уже нас заменят окончательно!? Хочу на море...
@ai_for_devs
😁38👍11🎉8🤯5❤4
😎 Обзор AI‑ассистентов для кодинга в 2026
12 февраля в 14:30 (мск) эксперты из Veai будут разбирать, почему большинство текущих решений ломаются на больших кодовых базах: теряют зависимости, плохо держат контекст и не видят проект целиком.
Фокус на инженерной стороне вопроса. Как эволюционировали AI-инструменты для кодинга, какие подходы работают в CLI, что реально дают planning mode, memory bank и субагенты, и где проходят границы промптинга в продакшене.
Спикер: Михаил Костицын (Lead Developer).
Вебинар бесплатный, главное зарегистрироваться: https://my.mts-link.ru/j/Veal/12547604067
12 февраля в 14:30 (мск) эксперты из Veai будут разбирать, почему большинство текущих решений ломаются на больших кодовых базах: теряют зависимости, плохо держат контекст и не видят проект целиком.
Фокус на инженерной стороне вопроса. Как эволюционировали AI-инструменты для кодинга, какие подходы работают в CLI, что реально дают planning mode, memory bank и субагенты, и где проходят границы промптинга в продакшене.
Спикер: Михаил Костицын (Lead Developer).
Вебинар бесплатный, главное зарегистрироваться: https://my.mts-link.ru/j/Veal/12547604067
1❤12👍12🔥6😁5👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Развлекался на выходных со Skills от Remotion. В итоге получился этот промо-ролик.
В Remotion видео описывается как React-приложение. Компоненты, параметры, детерминированный покадровый рендер. Плюс у них есть набор шаблонов под разные типы роликов. Я уже пробовал собирать видео с Remotion и ИИ-агентами пару месяцев назад. Выходило откровенно слабо. Сейчас тоже не «вау», но разница заметная.
Переломным моментом стал релиз скилов от ремоушен. С ними агент понимает, как создавать композиции, работать с таймингом, анимациями и экспортом.
Процесс создания такого видоса довольно простой. Создаёшь шаблонный проект. Отдаёшь агенту структуру ролика: сцены, текст, акценты. Дальше несколько итераций на вкусовщину. Где-то ускорить, где-то смягчить переход, где-то сдвинуть текст.
Финальный штрих — звук. Он влияет сильнее, чем кажется, даже если его почти не замечаешь. Тут пришлось тряхнуть стариной и залезть в DaVinci Resolve, чтобы накинуть пару whoosh’ей.
В целом прикольно. Для коротких промо, README и презентаций это рабочий вариант. Если есть знакомый дизайнер или монтажёр, которому интересно поиграться с кодом и агентами, можно смело шарить.
И напоследок примеры людей, которые закопались глубже и сделали заметно веселее: раз, два, три. Полный процесс описал в статье на Хабре.
@ai_for_devs
В Remotion видео описывается как React-приложение. Компоненты, параметры, детерминированный покадровый рендер. Плюс у них есть набор шаблонов под разные типы роликов. Я уже пробовал собирать видео с Remotion и ИИ-агентами пару месяцев назад. Выходило откровенно слабо. Сейчас тоже не «вау», но разница заметная.
Переломным моментом стал релиз скилов от ремоушен. С ними агент понимает, как создавать композиции, работать с таймингом, анимациями и экспортом.
Процесс создания такого видоса довольно простой. Создаёшь шаблонный проект. Отдаёшь агенту структуру ролика: сцены, текст, акценты. Дальше несколько итераций на вкусовщину. Где-то ускорить, где-то смягчить переход, где-то сдвинуть текст.
Финальный штрих — звук. Он влияет сильнее, чем кажется, даже если его почти не замечаешь. Тут пришлось тряхнуть стариной и залезть в DaVinci Resolve, чтобы накинуть пару whoosh’ей.
В целом прикольно. Для коротких промо, README и презентаций это рабочий вариант. Если есть знакомый дизайнер или монтажёр, которому интересно поиграться с кодом и агентами, можно смело шарить.
И напоследок примеры людей, которые закопались глубже и сделали заметно веселее: раз, два, три. Полный процесс описал в статье на Хабре.
@ai_for_devs
5👍14🔥7❤5👏3
⚡️ Китайцы тихо дропнули свежую версию своей флагманской модели GLM-5!
Пока что нет никакой информации, но модель уже доступна на https://chat.z.ai
Воодушевляет, GLM-4.7 была действительно неплохой. Ждём бенчмарки!
@ai_for_devs
Пока что нет никакой информации, но модель уже доступна на https://chat.z.ai
Воодушевляет, GLM-4.7 была действительно неплохой. Ждём бенчмарки!
@ai_for_devs
2🔥43👍14⚡6❤3🤯2
🔥 Подъехали бенчмарки по GLM-5
Z.ai раскрыли детали по новой версии. Коротко по сравнению с GLM-4.7: модель выросла с 355B (32B active) до 744B параметров (40B active), объём предобучения — 28.5T токенов. Добавили DeepSeek Sparse Attention для длинного контекста и собственную RL-инфраструктуру slime для ускорения посттрейна.
По результатам open-source сегмента GLM-5 держится в верхней группе.
Основные бенчмарки:
— SWE-bench Verified: 77.8 (у GLM-4.7 — 73.8)
— Terminal-Bench 2.0 (Terminus 2): 56.2 / 60.7
— BrowseComp с управлением контекстом: 75.9
— Vending Bench 2: $4,432 за год симуляции бизнеса
На Vending Bench 2 это первое место среди open-source моделей. В reasoning-задачах результаты близки к Claude Opus 4.5, местами выше других открытых моделей.
Модель уже выложена с весами под MIT на HuggingFace и доступна через API. Судя по метрикам, ставка сделана на длинные агентные сценарии и инженерные задачи.
@ai_for_devs
Z.ai раскрыли детали по новой версии. Коротко по сравнению с GLM-4.7: модель выросла с 355B (32B active) до 744B параметров (40B active), объём предобучения — 28.5T токенов. Добавили DeepSeek Sparse Attention для длинного контекста и собственную RL-инфраструктуру slime для ускорения посттрейна.
По результатам open-source сегмента GLM-5 держится в верхней группе.
Основные бенчмарки:
— SWE-bench Verified: 77.8 (у GLM-4.7 — 73.8)
— Terminal-Bench 2.0 (Terminus 2): 56.2 / 60.7
— BrowseComp с управлением контекстом: 75.9
— Vending Bench 2: $4,432 за год симуляции бизнеса
На Vending Bench 2 это первое место среди open-source моделей. В reasoning-задачах результаты близки к Claude Opus 4.5, местами выше других открытых моделей.
Модель уже выложена с весами под MIT на HuggingFace и доступна через API. Судя по метрикам, ставка сделана на длинные агентные сценарии и инженерные задачи.
@ai_for_devs
1🔥37👍14❤9🤩3🤯2
😎 Вебинар про AI‑ассистентов для кодинга в 2026 уже сегодня!
Если ты всё еще не зарегистрировался, то сейчас самое время. Трансляция начнется через час, в 14:30 мск.
Напомню, что эксперты из Veai будут разбирать, почему большинство текущих решений ломаются на больших кодовых базах: теряют зависимости, плохо держат контекст и не видят проект целиком.
Спикер: Михаил Костицын (Lead Developer).
Вебинар бесплатный, главное зарегистрироваться: https://my.mts-link.ru/j/Veal/12547604067
P.S. В конце вебинара ребята обещали раздать подарки :)
Если ты всё еще не зарегистрировался, то сейчас самое время. Трансляция начнется через час, в 14:30 мск.
Напомню, что эксперты из Veai будут разбирать, почему большинство текущих решений ломаются на больших кодовых базах: теряют зависимости, плохо держат контекст и не видят проект целиком.
Спикер: Михаил Костицын (Lead Developer).
Вебинар бесплатный, главное зарегистрироваться: https://my.mts-link.ru/j/Veal/12547604067
2👍16🔥11❤7😁3
MiniMax представили M2.5 — флагманскую модель для кодинга и агентных задач.
— Результаты уровня SOTA в программировании (SWE-Bench Verified — 80,2%), поиске (BrowseComp — 76,3%), агентном вызове инструментов (BFCL — 76,8%) и офисных задачах
— Оптимизирована для эффективного выполнения: на 37% быстрее в сложных задачах
— При $1 в час на скорости 100 токенов в секунду становится экономически возможным масштабирование долгоживущих агентов
Кстати, модель уже доступна бесплатно на 7 дней в OpenCode.
MiniMax Agent | API | Блогпост
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍29❤13🔥9⚡1
Больше 1 000 токенов в секунду. Именно столько выдаёт новая версия модели GPT-5.3-Codex от OpenAI под кодовым названием Spark. Это примерно в 10 раз быстрее GPT-5.3-Codex и других моделей, с которыми мы сейчас взаимодействуем.
Скорость обеспечена за счёт запуска на железе Cerebras и оптимизации всего пайплайна. OpenAI объявили о партнерстве с Cerebras ровно месяц назад.
Доступ уже открыт в режиме research preview для ChatGPT Pro в Codex app, CLI и VS Code.
Видео не ускорены — разница в ощущении от взаимодействия действительно колоссальная.
@ai_for_devs
Скорость обеспечена за счёт запуска на железе Cerebras и оптимизации всего пайплайна. OpenAI объявили о партнерстве с Cerebras ровно месяц назад.
Доступ уже открыт в режиме research preview для ChatGPT Pro в Codex app, CLI и VS Code.
Видео не ускорены — разница в ощущении от взаимодействия действительно колоссальная.
@ai_for_devs
3⚡23👍18🤯11🔥5❤3
Делать было нечего, дело было вечером. Всё возвращаюсь к истории про Opus 4.6, который написал C-компилятор на Rust. Снова перечитал исходную статью "Building a C compiler with a team of parallel Claudes" — обратил внимание именно на динамику версий Opus.
Opus 4 с задачей компилятора справлялся с трудом. Мог собрать что-то работоспособное, но это был эксперимент, который по сути потерпел неудачу.
Opus 4.5 стал первой версией, которая набрала "критическую массу": компилятор начал проходить большие тест-сьюты. При этом реальные крупные проекты всё ещё не собирались.
Opus 4.6 — финальная точка этой истории. Компилятор уже способен собирать значимую часть проектов, используется GCC как эталон для дифференциальной проверки, вокруг модели построен цикл автономной доработки. Но автор прямо пишет: это ещё не замена настоящему компилятору, а добавление новых фич регулярно ломает старое. Похоже на достижение предела конкретной архитектуры.
На этом фоне особенно любопытны бенчмарки. В агентном программировании скачка фактически нет: Agentic Coding у Opus 4.6 снизился на 0,1% по сравнению с Opus 4.5! Зато Agentic Search вырос на 17%!
Получается, в случае с Opus 4.6 прорыв случился не в "чистом кодинге", а в умении долго искать, сравнивать, уточнять, проверять гипотезы.
И это, возможно, важнее, чем очередные несколько "очков" в coding-бенчмарке.
@ai_for_devs
Opus 4 с задачей компилятора справлялся с трудом. Мог собрать что-то работоспособное, но это был эксперимент, который по сути потерпел неудачу.
Opus 4.5 стал первой версией, которая набрала "критическую массу": компилятор начал проходить большие тест-сьюты. При этом реальные крупные проекты всё ещё не собирались.
Opus 4.6 — финальная точка этой истории. Компилятор уже способен собирать значимую часть проектов, используется GCC как эталон для дифференциальной проверки, вокруг модели построен цикл автономной доработки. Но автор прямо пишет: это ещё не замена настоящему компилятору, а добавление новых фич регулярно ломает старое. Похоже на достижение предела конкретной архитектуры.
На этом фоне особенно любопытны бенчмарки. В агентном программировании скачка фактически нет: Agentic Coding у Opus 4.6 снизился на 0,1% по сравнению с Opus 4.5! Зато Agentic Search вырос на 17%!
Получается, в случае с Opus 4.6 прорыв случился не в "чистом кодинге", а в умении долго искать, сравнивать, уточнять, проверять гипотезы.
И это, возможно, важнее, чем очередные несколько "очков" в coding-бенчмарке.
@ai_for_devs
1👍26❤22🔥7
😎 На прошлой неделе состоялся вебинар от команды Veai
Ажиотаж оказался таким, что МТС Линк даже на максимальном тарифе не смог принять всех желающих — часть участников просто не пустило в эфир. Сожалеем, что так получилось и к следующему вебинару что нибудь придумаем!
Хорошо, что велась запись. Все, кто не смог подключиться, могут посмотреть материал на RUTUBE: «Обзор AI-ассистентов для кодинга в 2026».
P.S. Обещали подарки тем, кто был онлайн. Поскольку многие не попали не по своей вине, решили дать возможность всем воспользоваться бонусом.
5000 Flex-кредитов на Veai по промокоду: veai_for_devs
Активировать можно до 28 февраля, 23:59 (МСК) в личном кабинете: https://app.veai.ru
@ai_for_devs
Ажиотаж оказался таким, что МТС Линк даже на максимальном тарифе не смог принять всех желающих — часть участников просто не пустило в эфир. Сожалеем, что так получилось и к следующему вебинару что нибудь придумаем!
Хорошо, что велась запись. Все, кто не смог подключиться, могут посмотреть материал на RUTUBE: «Обзор AI-ассистентов для кодинга в 2026».
P.S. Обещали подарки тем, кто был онлайн. Поскольку многие не попали не по своей вине, решили дать возможность всем воспользоваться бонусом.
Активировать можно до 28 февраля, 23:59 (МСК) в личном кабинете: https://app.veai.ru
@ai_for_devs
51❤22🔥9👍8😁1🤯1🤩1