AI for Devs

⚡️ Вышел Cursor 2.5. Два главных изменения: маркетплейс плагинов и нормальная многоагентность

Теперь навыки, субагенты, MCP-серверы, хуки и правила можно упаковать в один плагин и поставить через маркетплейс. Поддержка уже есть у Amplitude, AWS, Figma, Linear, Stripe. Установить можно прямо из редактора через /add-plugin.

Второй крупный апдейт — sandbox. Теперь можно явно задать, к каким доменам агент имеет доступ. Три режима: только свой allowlist, allowlist плюс дефолтные домены Cursor или полный доступ. Появились ограничения на директории и файлы.

И самое интересное — асинхронные субагенты. Раньше дочерний агент блокировал родительский. Теперь он работает в фоне, а основной продолжает задачу. Субагенты могут запускать своих субагентов, формируя иерархическое дерево.

@ai_for_devs

2👍35🔥16❤7⚡1

4.5K views08:36

AI for Devs

🔥 Большое исследование Anthropic про автономность ИИ-агентов в продакшене

Anthropic разобрали миллионы сессий Claude Code и вызовов через API, чтобы понять, сколько автономности люди реально дают ИИ-агентам в проде.

Основные результаты:

– Самые длинные непрерывные «заходы» Claude Code за три месяца выросли почти вдвое: с ~25 до ~45 минут без вмешательства человека

– Новые пользователи включают полный auto-approve примерно в 20% сессий. У опытных — уже больше 40%

– При этом опытные чаще останавливают агента по ходу работы: около 9% остановок от общего числа запусков против ~5% у новичков

– На сложных задачах сам Claude останавливается с уточняющими вопросами чаще, чем его прерывает человек

@ai_for_devs

2👍23🔥7❤5🤯1

4.15K views09:16

AI for Devs

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

Anthropic выпустили Claude Code Security — инструмент для поиска уязвимостей в коде, встроенный в Claude Code

Обычные статические анализаторы работают по известным паттернам: утёкшие пароли, устаревшее шифрование, типовые ошибки. Claude Code Security действует иначе — отслеживает, как данные проходят через приложение, и ловит баги в бизнес-логике и контроле доступа, которые паттерн-матчингом не найти.

Каждая находка проходит самопроверку: модель пытается опровергнуть собственные результаты, чтобы отсеять ложные срабатывания. Оставшимся присваивается уровень критичности и рейтинг уверенности. Патчи предлагаются, но ничего не применяется без аппрува разработчика.

С помощью Claude Opus 4.6 Anthropic нашла 500+ уязвимостей в продакшн-коде открытых проектов — баги, которые оставались незамеченными годами, несмотря на ревью.

Доступ пока ограничен: research preview для Enterprise- и Team-клиентов. Мейнтейнеры open-source могут подать заявку на бесплатный ускоренный доступ.

@ai_for_devs

1👍41🔥16🤯5❤2😁1

4.72K views18:36

AI for Devs

🤓 SkillsBench: скиллы дают реальный буст, но только если их писал человек

Вышел первый бенчмарк, который проверяет, дают ли «скиллы» реальный прирост ИИ-агентам. Назвали SkillsBench.

Для тех, кто в танке, Skill — папка с инструкциями и подсказками, которую агент читает перед выполнением задачи. Скиллы уже встроены в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто не замерял, помогают ли они на самом деле.

86 задач, 11 доменов, 105 экспертов, 7 308 прогонов на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами от человека и со скиллами, которые модель написала себе сама.

🟣 Скиллы от людей дали +16.2 п.п. к pass rate
🟣 На 16 из 84 задач результат ухудшился
🟣 Самогенерированные скиллы не помогли вообще (-1.3 п.п.). Модели не умеют писать инструкции, которые потом сами же используют
🟣 Компактные скиллы из 2-3 модулей работают лучше подробных документаций

Самый удивительный инсайт из исследования – Haiku 4.5 со скиллами обошла Opus 4.5 без них!

Полностью исследование можно прочитать тут.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥36🤯12👍10❤7

5.7K views09:54

AI for Devs

Война войной, а обед по расписанию!

2😁99👍21🤯16💯7🔥3

5.2K views11:35

AI for Devs

Для тех, кто вчера отдыхал (как и я), две новости.

1. OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама создала этот бенчмарк в 2024 году. Причина: рост результатов в последние месяцы (с 74.9% до 80.9%) отражал не улучшение моделей, а то, насколько хорошо они запомнили решения из тренировочных данных. OpenAI рекомендует переходить на SWE-bench Pro — более современный бенчмарк, где утечка ответов в обучение пока минимальна. Лучшие модели набирают там около 23% вместо 80%. Разница говорит сама за себя.

2. Anthropic обвиняют DeepSeek, Moonshot и MiniMax в том, что те тайно обучали свои модели на ответах Claude. Пруфов не предоставили. У Anthropic вообще складывается традиция: в ноябре прошлого года они заявляли, что китайская группировка использовала Claude Code для кибератак на тридцать организаций по всему миру. Пруфов тогда тоже не было.

Эх, проигрываем гонку ИИ — никакого русского следа, только китайский 😁

@ai_for_devs

2😁45👍14💯10🤯3🔥1

3.91K views08:37

AI for Devs

Перекличка. По вашим субъективным ощущениям, на сколько % AI ускоряет вашу работу?

Anonymous Poll

Замедляет работу

0% — не использую или не ощущаю разницы

Больше 100% — делаю то, что раньше вообще бы не взялся делать

👍21❤8🤯8⚡3

1.53K voters3.22K views14:18

AI for Devs

Anthropic обновили публичный репозиторий Skills — экспортировали актуальные версии скиллов, которые они сами используют для разработки Claude Code.

Краткий экскурс для тех, кто в танке. Skill — это папка с SKILL.md и опциональными скриптами, которую агент подгружает по контексту задачи. Модель видит только название и описание, а полное содержимое читает когда скилл подходит под запрос. Такой подход позволяет держать десятки скиллов доступными без расхода контекстного окна и с генерацией без галлюцинаций.

Формат скиллов с декабря 2025 — открытый стандарт. Microsoft интегрировал его в VS Code и GitHub, OpenAI адаптировала для Codex CLI. Veai в последнем релизе тоже поддержали Skills.

Если пишете свои скиллы и хотите посмотреть на хороший референс — загляните в репозиторий. Формат простой (папка + SKILL.md), но в деталях реализации много полезного: как структурировать инструкции, как разбивать на агентов, как тестировать скиллы автоматически. Skill-creator — отдельно хороший пример скилла, который сам создает другие скиллы.

Репозиторий: https://github.com/anthropics/skills

@ai_for_devs

GitHub

GitHub - anthropics/skills: Public repository for Agent Skills

Public repository for Agent Skills. Contribute to anthropics/skills development by creating an account on GitHub.

1👍43🔥14❤7⚡3

3.17K views16:17

AI for Devs

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

Я уже рассказывал про Veai, многие из вас были на вебинаре, кто-то уже пользуется. Вчера ребята выпустили Veai 5.5 с несколькими заметными обновлениями:

🟣 Самое важное: добавили поддержку Skills — открытый стандарт навыков для агента. Про них я в прошлом посте довольно подробно рассказал.

🟣

Два новых режима агента: Plan (показывает план шагов и позволяет корректировать до исполнения) и Review (read-only, проверяет изменения через IDE-инспекции, включая антипаттерны).

🟣 Для персональных пользователей добавили Claude 4.6 Opus.

Если коротко: Veai — ИИ-агент для JetBrains IDE, доступный в РФ без танцев с VPN. 30-дневный триал для тех, кто ещё не пользовался.

Да, это партнерский пост. Но за рекомендацию не стыдно. Если сидите в JetBrains IDE, попробуйте.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍20❤7🔥5😁5

1.88K views11:55

About

Blog

Apps

Platform