Agent-first IDP: как платформы к агентам готовят бигтехи и облака (Рубрика #PlatformEngineering)
Написал продолжение к эссе про внутренние платформы. В прошлый раз в тексте «IDP is Dead? Нет, умирает монополия GUI» я разбирал, почему внутренняя платформа теряет монополию своего GUI и превращается в платформу для агентов — слой возможностей, к которому обращаются не только люди, но и агенты. Это было про «почему». Новый текст — про «как».
И в новой статье я специально не ушёл в футурологию. Playbook собран на публичных инженерных материалах компаний, которые уже столкнулись с агентным потреблением платформ: внутренние платформы Block, Uber, LinkedIn, Spotify и доработки публичных облаков — AWS, Azure, Google Cloud. Логика простая: когда внутренние платформы бигтехов и облака независимо сходятся вокруг одних и тех же инженерных решений, это уже не мода, а новый слой платформенной архитектуры.
Из чего этот слой складывается:
- Уровни зрелости L0 → L4: от GUI-only до управляемой агентной поверхности;
- Три слоя, которые легко перепутать: модельный шлюз, инструментальный шлюз и реестр возможностей;
- Идентичность агента: агент — субъект доступа от имени пользователя, а не общий сервисный аккаунт «для AI»;
- Уровни доверия: read → recommend → act;
- Доменные агенты там, где сырой доступ к логам, IAM или SQL опасен;
- Evals и телеметрия агентных сценариев вместо MAU портала;
- Отдельная модель угроз: prompt injection, tool poisoning, data exfiltration и не только.
В конце я привожу примерный квартальный план на 30/60/90 дней и список того, чего делать точно не стоит.
Главный вывод такой: бигтехи и облака не дали готовую инструкцию, которую можно скопировать, но уже показали устойчивую архитектурную сходимость. Внутренним платформам не нужно изобретать этот путь заново — нужно признать, что их главный новый пользователь уже не открывает портал.
Подробнее можно прочитать в моем блоге
#AI #AI4SDLC #PlatformEngineering #Engineering #Architecture #Management
Написал продолжение к эссе про внутренние платформы. В прошлый раз в тексте «IDP is Dead? Нет, умирает монополия GUI» я разбирал, почему внутренняя платформа теряет монополию своего GUI и превращается в платформу для агентов — слой возможностей, к которому обращаются не только люди, но и агенты. Это было про «почему». Новый текст — про «как».
И в новой статье я специально не ушёл в футурологию. Playbook собран на публичных инженерных материалах компаний, которые уже столкнулись с агентным потреблением платформ: внутренние платформы Block, Uber, LinkedIn, Spotify и доработки публичных облаков — AWS, Azure, Google Cloud. Логика простая: когда внутренние платформы бигтехов и облака независимо сходятся вокруг одних и тех же инженерных решений, это уже не мода, а новый слой платформенной архитектуры.
Из чего этот слой складывается:
- Уровни зрелости L0 → L4: от GUI-only до управляемой агентной поверхности;
- Три слоя, которые легко перепутать: модельный шлюз, инструментальный шлюз и реестр возможностей;
- Идентичность агента: агент — субъект доступа от имени пользователя, а не общий сервисный аккаунт «для AI»;
- Уровни доверия: read → recommend → act;
- Доменные агенты там, где сырой доступ к логам, IAM или SQL опасен;
- Evals и телеметрия агентных сценариев вместо MAU портала;
- Отдельная модель угроз: prompt injection, tool poisoning, data exfiltration и не только.
В конце я привожу примерный квартальный план на 30/60/90 дней и список того, чего делать точно не стоит.
Главный вывод такой: бигтехи и облака не дали готовую инструкцию, которую можно скопировать, но уже показали устойчивую архитектурную сходимость. Внутренним платформам не нужно изобретать этот путь заново — нужно признать, что их главный новый пользователь уже не открывает портал.
Подробнее можно прочитать в моем блоге
#AI #AI4SDLC #PlatformEngineering #Engineering #Architecture #Management
Medium
Agent-first IDP: как платформы к агентам готовят бигтехи и облака
В прошлой статье я закончил тезисом: задача платформенной команды — не «прикрутить MCP», а превратить платформу в систему, пригодную для…
❤6🔥5👍2
Как я сейчас пишу longreads на важные для меня темы (Рубрика #Writing)
Решил поделиться рецептом того, как сейчас пишу важные и сложные для меня статьи на технические темы. Из последнего это статьи «IDP is Dead? Нет, умирает монополия GUI» и «Agent-first IDP: как платформы к агентам готовят бигтехи и облака».
- Для меня все начинается обычно с того, что какой-то вопрос становится достаточно важным с точки зрения работы или своего внутреннего проекта
- Дальше это все доходит до потребности с этим разобраться и выработать какой-то план или стратегию достижения цели
- Обычно у меня к тому моменту есть опыт + открытые вопросы + примерный план что делать, который я рассказывал людям, чье мнение и фидбек для меня ценны
- Дальше я ухожу делать deep research обычно сразу в трех инструментах от Anthropic, OpenAI и Perplexity - обычно у меня есть определенное мнение + research questions + опорные тезисы + статьи, которые я вкидываю как обязательные к рассмотрению
- Дальше изучаю результаты, делаю факт-чекинг и читаю/смотрю приведенные источники
- Обычно самое интересное рождается в тех местах, где разные сервисы расходятся - это повод задать доп. вопросы + попросить кросс-ревью
- Дальше у меня в голове собирается некоторый план того, как двигаться в нужную сторону и дальше я обычно пишу тезисный план, который отдаю внешнему сервису
- Дальше делаю ревью документа сам + несколько итераций ревью с разными моделями
- Потом делаю визуализации нужных моментов для финальной статьи - я очень люблю схемы и визуализацию основных моментов
На выходе у меня обычно получается md, pdf и html версия статьи, которую я финально прогоняю через ревью и корректирую если требуется. Ну и в самом финале идет публикация самой статьи, причем в зависимости от платформы это может быть как простой процесс, так и сложный (например, в Medium движке нет таблиц и других важных элментов, поэтому приходится много вставлять изображениями).
P.S.
Такой процесс помогает мне разбираться в теме и всего за часиков 8 рабочих можно сделать статью, которую я бы раньше писал неделю. Но основная ценность не просто в статье, а в интеграции новых знаний в свою картину мира - раньше это требовало сильно больше усилий.
#Writing #Research #Productivity
Решил поделиться рецептом того, как сейчас пишу важные и сложные для меня статьи на технические темы. Из последнего это статьи «IDP is Dead? Нет, умирает монополия GUI» и «Agent-first IDP: как платформы к агентам готовят бигтехи и облака».
- Для меня все начинается обычно с того, что какой-то вопрос становится достаточно важным с точки зрения работы или своего внутреннего проекта
- Дальше это все доходит до потребности с этим разобраться и выработать какой-то план или стратегию достижения цели
- Обычно у меня к тому моменту есть опыт + открытые вопросы + примерный план что делать, который я рассказывал людям, чье мнение и фидбек для меня ценны
- Дальше я ухожу делать deep research обычно сразу в трех инструментах от Anthropic, OpenAI и Perplexity - обычно у меня есть определенное мнение + research questions + опорные тезисы + статьи, которые я вкидываю как обязательные к рассмотрению
- Дальше изучаю результаты, делаю факт-чекинг и читаю/смотрю приведенные источники
- Обычно самое интересное рождается в тех местах, где разные сервисы расходятся - это повод задать доп. вопросы + попросить кросс-ревью
- Дальше у меня в голове собирается некоторый план того, как двигаться в нужную сторону и дальше я обычно пишу тезисный план, который отдаю внешнему сервису
- Дальше делаю ревью документа сам + несколько итераций ревью с разными моделями
- Потом делаю визуализации нужных моментов для финальной статьи - я очень люблю схемы и визуализацию основных моментов
На выходе у меня обычно получается md, pdf и html версия статьи, которую я финально прогоняю через ревью и корректирую если требуется. Ну и в самом финале идет публикация самой статьи, причем в зависимости от платформы это может быть как простой процесс, так и сложный (например, в Medium движке нет таблиц и других важных элментов, поэтому приходится много вставлять изображениями).
P.S.
Такой процесс помогает мне разбираться в теме и всего за часиков 8 рабочих можно сделать статью, которую я бы раньше писал неделю. Но основная ценность не просто в статье, а в интеграции новых знаний в свою картину мира - раньше это требовало сильно больше усилий.
#Writing #Research #Productivity
1👍43❤12🔥7👎4✍1💯1
AI Dev Podcast #3 / Как сделать Code Review инструмент / Опыт Т-Банка (Рубрика #AI4SDLC)
Послушал свежий выпуск AI Dev Podcast, где мои коллеги из Т-Банка — Надежда Егошина и Георгий Мкртчян — рассказывают ведущим Андрею Дмитриеву (ко-фаундеру jug.ru и автору канала @dmitrievandrey8) и Андрею Буракову (автору канала @another_sa), как у нас сделали AI Code Review. Слушал с особым интересом: тема близкая, да и ребята рассказывают про реальный путь, не сильно приукрашивая. Кстати, это один из доменных агентов, что встроен в общий pipeline разработки и доступен всем командам в компании.
Команда зашла со стороны вопроса «что инженер на самом деле делает на ревью?» и выделила 12 аспектов — архитектура, конкурентность, тестируемость и так далее. Но ценнее другое: главная задача ревьюера — понять, сделал ли человек то, что было в задаче. Поэтому инструмент интегрирован с таск-трекером и Confluence, читает требования, смотрит не на голый дифф, а на изменения в контексте всего репозитория, и в саммари раскладывает задачу на требования: что реализовано, что нет и что сделано «сверх задачи».
Больше всего в этом случае мне нравится, что это отличный пример совместной работы R&D и платформенных команд. Первую версию собрали исследователи: проресёрчили рынок, взяли open-source, сильно переделали — получился сервис, куда вставляешь ссылку на merge request и получаешь комментарии бота. А дальше продукт передали в платформенную команду, которая стала поднимать качество за счёт знания того, как реально устроены процессы ревью в разных командах, и глубокого погружения в домен. По-моему, это правильная модель: R&D быстро проверяет гипотезы, платформа превращает прототип в продукт масштаба всего IT.
Отдельно порадовала инженерная честность в оценке. Контуров два. Offline — собственный бенчмарк: методологию подсмотрели в статье ByteDance (я её в своё время разбирал тут), а сам бенчмарк собрали, пропарсив свой GitLab. Online — лайки и дизлайки на конкретные комментарии и A/B-тесты. И прямой ответ на вопрос «на сколько сократили баги и время ревью»: пока заявить не можем, продукт недавно вышел из прототипа. На фоне общего хайпа такая аккуратность подкупает.
Есть ещё два интересных момента
1️⃣ Доверие как продукт: сейчас инженер делает двойную работу, сначала валидирует ревьюера, потом сам ревьюит MR, и для авторевью у команды жёсткое требование — обязательная валидация человеком. Если слепо аппрувить за ботом, багов станет больше, а не меньше
2️⃣ Интересный тезис Георгия: дообучать модели сейчас смысла нет, они пробовали — улучшения минорные или в минус, а сила в грамотной экосистеме вокруг предобученных LLM. Тезис верен в контексте этой задачи в Т-Банке, но это не универсальное правило (лучше проверять в каждом конкретном случае)
В общем, из подкаста видно, что локальное ускорение этапов сдвигает работу дальше по пайплану
- Ускоряешь генерацию кода — узкое место едет в ревью
- Ускоряешь ревью — нагрузка едет в тестирование
- Ускоряешь тестирование — весело может стать в operations
Ну и тут AI Code Review показан как перестройка всего цикла разработки, где активом остаются контекст, доверие и человек в контуре.
#AI #AI4SDLC #CodeReview #Engineering #Product #Management
Послушал свежий выпуск AI Dev Podcast, где мои коллеги из Т-Банка — Надежда Егошина и Георгий Мкртчян — рассказывают ведущим Андрею Дмитриеву (ко-фаундеру jug.ru и автору канала @dmitrievandrey8) и Андрею Буракову (автору канала @another_sa), как у нас сделали AI Code Review. Слушал с особым интересом: тема близкая, да и ребята рассказывают про реальный путь, не сильно приукрашивая. Кстати, это один из доменных агентов, что встроен в общий pipeline разработки и доступен всем командам в компании.
Команда зашла со стороны вопроса «что инженер на самом деле делает на ревью?» и выделила 12 аспектов — архитектура, конкурентность, тестируемость и так далее. Но ценнее другое: главная задача ревьюера — понять, сделал ли человек то, что было в задаче. Поэтому инструмент интегрирован с таск-трекером и Confluence, читает требования, смотрит не на голый дифф, а на изменения в контексте всего репозитория, и в саммари раскладывает задачу на требования: что реализовано, что нет и что сделано «сверх задачи».
Больше всего в этом случае мне нравится, что это отличный пример совместной работы R&D и платформенных команд. Первую версию собрали исследователи: проресёрчили рынок, взяли open-source, сильно переделали — получился сервис, куда вставляешь ссылку на merge request и получаешь комментарии бота. А дальше продукт передали в платформенную команду, которая стала поднимать качество за счёт знания того, как реально устроены процессы ревью в разных командах, и глубокого погружения в домен. По-моему, это правильная модель: R&D быстро проверяет гипотезы, платформа превращает прототип в продукт масштаба всего IT.
Отдельно порадовала инженерная честность в оценке. Контуров два. Offline — собственный бенчмарк: методологию подсмотрели в статье ByteDance (я её в своё время разбирал тут), а сам бенчмарк собрали, пропарсив свой GitLab. Online — лайки и дизлайки на конкретные комментарии и A/B-тесты. И прямой ответ на вопрос «на сколько сократили баги и время ревью»: пока заявить не можем, продукт недавно вышел из прототипа. На фоне общего хайпа такая аккуратность подкупает.
Есть ещё два интересных момента
1️⃣ Доверие как продукт: сейчас инженер делает двойную работу, сначала валидирует ревьюера, потом сам ревьюит MR, и для авторевью у команды жёсткое требование — обязательная валидация человеком. Если слепо аппрувить за ботом, багов станет больше, а не меньше
2️⃣ Интересный тезис Георгия: дообучать модели сейчас смысла нет, они пробовали — улучшения минорные или в минус, а сила в грамотной экосистеме вокруг предобученных LLM. Тезис верен в контексте этой задачи в Т-Банке, но это не универсальное правило (лучше проверять в каждом конкретном случае)
В общем, из подкаста видно, что локальное ускорение этапов сдвигает работу дальше по пайплану
- Ускоряешь генерацию кода — узкое место едет в ревью
- Ускоряешь ревью — нагрузка едет в тестирование
- Ускоряешь тестирование — весело может стать в operations
Ну и тут AI Code Review показан как перестройка всего цикла разработки, где активом остаются контекст, доверие и человек в контуре.
#AI #AI4SDLC #CodeReview #Engineering #Product #Management
YouTube
AI Dev Podcast #3 / Как сделать Code Review инструмент / Опыт Т-Банка
Как из AI-прототипа для гиков вырастить продукт на всю компанию? Реальный опыт Т-Банка / AI Dev Conf Podcast #3
AI ускоряет разработку, но вместе с тем в три раза растет количество багов, а код, сгенерированный нейросетями, требует двойного контроля. Как…
AI ускоряет разработку, но вместе с тем в три раза растет количество багов, а код, сгенерированный нейросетями, требует двойного контроля. Как…
❤9🔥4👍3🤔2
AIDev: Studying AI Coding Agents on GitHub (Рубрика #AI4SDLC)
Прочитал короткую статью от 9 февраля 2026 года о том, как изучать coding agents по реальным PR, а не по демкам. В ней представлен публичный датасет, по которому agentic software engineering можно изучать не по демкам, а по следам реальных pull request'ов. Авторы - Hao Li, Haoxiang Zhang и Ahmed E. Hassan из Queen's University. Это хороший сигнал доверия: группа Hassan давно работает в empirical software engineering и mining software repositories. Paper подана на arXiv 9 февраля 2026 года и связана с MSR 2026 Mining Challenge; данные выложены на Hugging Face и Zenodo, код и ноутбуки - на GitHub.
Набор данных AIDev агрегирует 932 791 pull request, которые авторы относят к Agentic-PR: PR, созданным coding agents. В выборке пять инструментов: OpenAI Codex, Devin, GitHub Copilot, Cursor и Claude Code. Эти PR распределены по 116 211 репозиториям и связаны с 72 189 разработчиками; cutoff - 1 августа 2025 года. Для глубокого анализа есть поднабор: 33 596 PR из 2 807 репозиториев с более чем 100 звездами. Там уже есть review comments, review verdicts, commit-level diffs, связанные issues, timeline событий и автоматическая классификация типа задачи по Conventional Commits.
Методологически это dataset paper с главным результатом в виде инфраструктуры для интересных вопросов вида:
- Кто использует агентов (джуны, мидлы, сеньоры)
- Какие PR проходят review и merge
- Совпадает ли описание PR с diff
- Lобавляют ли агенты тесты
- Какие security/quality-паттерны всплывают в agent-authored code
Для меня здесь самый интересный сдвиг в единице измерения. В AI4SDLC долго мерили либо completion в IDE, либо synthetic benchmark вроде «реши issue». AIDev предлагает смотреть на весь lifecycle:
Отдельно отмечу, что у исследования есть несколько оговорок:
- Датасет построен по публичному GitHub, поэтому enterprise-разработка и закрытые репозитории почти наверняка выглядят иначе
- Качество выводов зависит от того, насколько надежно определены agent-authored PR для каждого инструмента; в короткой версии paper этот слой описан недостаточно подробно (надо будет копнуть вглубь)
- Поднабор PR из репозиториев с 100+ звездочек смещает картину в сторону заметных open-source проектов.
P.S.
Дальше расскажу про несколько интересных статей, что опираются на инсайты, что были добыты из этого датасета.
#AI #AI4SDLC #Engineering #Research #Agents #Software #DevOps #Processes
Прочитал короткую статью от 9 февраля 2026 года о том, как изучать coding agents по реальным PR, а не по демкам. В ней представлен публичный датасет, по которому agentic software engineering можно изучать не по демкам, а по следам реальных pull request'ов. Авторы - Hao Li, Haoxiang Zhang и Ahmed E. Hassan из Queen's University. Это хороший сигнал доверия: группа Hassan давно работает в empirical software engineering и mining software repositories. Paper подана на arXiv 9 февраля 2026 года и связана с MSR 2026 Mining Challenge; данные выложены на Hugging Face и Zenodo, код и ноутбуки - на GitHub.
Набор данных AIDev агрегирует 932 791 pull request, которые авторы относят к Agentic-PR: PR, созданным coding agents. В выборке пять инструментов: OpenAI Codex, Devin, GitHub Copilot, Cursor и Claude Code. Эти PR распределены по 116 211 репозиториям и связаны с 72 189 разработчиками; cutoff - 1 августа 2025 года. Для глубокого анализа есть поднабор: 33 596 PR из 2 807 репозиториев с более чем 100 звездами. Там уже есть review comments, review verdicts, commit-level diffs, связанные issues, timeline событий и автоматическая классификация типа задачи по Conventional Commits.
Методологически это dataset paper с главным результатом в виде инфраструктуры для интересных вопросов вида:
- Кто использует агентов (джуны, мидлы, сеньоры)
- Какие PR проходят review и merge
- Совпадает ли описание PR с diff
- Lобавляют ли агенты тесты
- Какие security/quality-паттерны всплывают в agent-authored code
Для меня здесь самый интересный сдвиг в единице измерения. В AI4SDLC долго мерили либо completion в IDE, либо synthetic benchmark вроде «реши issue». AIDev предлагает смотреть на весь lifecycle:
issue -» PR -» commits -» review -» comments -» CI/merge/close -» дальнейшая судьба изменения. Это гораздо ближе к реальной инженерной системе. Практическое применение тут довольно прямое. Если компания внедряет кодинговых агентов, то ей стоит строить похожую внутреннюю телеметрию. Не «сколько строк сгенерировано» и не «сколько лицензий активировано», а что происходит с agent-authored PR: размер diff, доля тестов, время до review, число замечаний, merge rate, rollback/hotfix, security findings, соответствие conventions и CI.Отдельно отмечу, что у исследования есть несколько оговорок:
- Датасет построен по публичному GitHub, поэтому enterprise-разработка и закрытые репозитории почти наверняка выглядят иначе
- Качество выводов зависит от того, насколько надежно определены agent-authored PR для каждого инструмента; в короткой версии paper этот слой описан недостаточно подробно (надо будет копнуть вглубь)
- Поднабор PR из репозиториев с 100+ звездочек смещает картину в сторону заметных open-source проектов.
P.S.
Дальше расскажу про несколько интересных статей, что опираются на инсайты, что были добыты из этого датасета.
#AI #AI4SDLC #Engineering #Research #Agents #Software #DevOps #Processes
arXiv.org
AIDev: Studying AI Coding Agents on GitHub
AI coding agents are rapidly transforming software engineering by performing tasks such as feature development, debugging, and testing. Despite their growing impact, the research community lacks a...
👍9❤3🔥1
Stop Making Models Bigger, Make Them Behave — Kobie Crawford, Snorkel (Рубрика #AI)
Посмотрел 20-минутный доклад Kobie Crawford из Snorkel AI с конференции AI Engineer London (10 апреля 2026). Это редкий доклад, который идет против привычного «новая модель больше и умнее». Главная мысль простая и неудобная для гонки параметров: возможности модели ограничены не столько архитектурой и числом параметров, сколько качеством данных и задач, на которых она дообучалась. А для агентов, которые ходят в инструменты, узкое место часто не reasoning, а tool discipline - дисциплина обращения с инструментами.
Самый показательный пример - финансовый анализ с tool use. По материалам Snorkel, дообученная reinforcement learning'ом Qwen3-4B обошла Qwen3-235B при разнице в размере примерно 1/60. На их бенчмарке SnorkelFinance маленькая модель набрала 59.7% против 51.37% у большой (цифры из других публикаций Snorkel). Среда для обучения - FinQA: RL-окружение из 290 экспертных вопросов по 22 публичным компаниям, сделанное вместе с командой rLLM из UC Berkeley и выложенное в OpenEnv. По заявлению авторов, один прогон стоил меньше $500 на 8xH100 и удваивал pass@1.
Что значит tool discipline на практике. Большие генералисты отлично рассуждают, но плохо дисциплинированы в инструментах: галлюцинируют имена колонок, игнорируют ограничения схемы и генерируют SQL, который возвращает бессмысленный результат. Лечится это не большей моделью, а привычками - сначала исследовать таблицы и схему, валидировать данные перед следующим шагом, ретраить и само-исправляться при ошибке. Маленькую модель именно этому и научили через RL.
Дальше доклад обобщает это в идею, которую Snorkel называет task fidelity: не все обучающие задачи одинаково полезны. Они вводят четыре критерия приемки
1) achievability (решаема)
2) non-triviality (нетривиальна)
3) functional correctness (решение реально работает)
4) reliability (оценка воспроизводима)
По их данным, дообучение на «хороших» задачах дало +6.2 п.п. к доле проходящих тестов, а на «плохих» - всего +1.1: примерно пятикратная разница только за счет качества данных.
Отдельно отмечу, что все это рассказ по материалами Snorkel - компании, которая продает курирование данных, так что интерес у нее прямой. Бенчмарк свой, домен узкий (финансовый tool use поверх SQL), и переносимость на другие агентные задачи - открытый вопрос.
Но если поверить ребятам на слово, то кажется, что маленькая дообученная модель с хорошим окружением и дисциплиной обращения с инструментами может оказаться дешевле и надежнее гиганта - особенно там, где агент работает со схемами и API. Для AI4SDLC это прямой сигнал: вкладываться не только в выбор модели, но и в качество задач и в guardrails, по которым агент ходит в инструменты.
P.S.
Я уже разбирал доклад на похожую тему "Everything I Learned Training Frontier Small Models - Maxime Labonne, Liquid AI"
#AI #AI4SDLC #Engineering #Research #Agents #Data #Software
Посмотрел 20-минутный доклад Kobie Crawford из Snorkel AI с конференции AI Engineer London (10 апреля 2026). Это редкий доклад, который идет против привычного «новая модель больше и умнее». Главная мысль простая и неудобная для гонки параметров: возможности модели ограничены не столько архитектурой и числом параметров, сколько качеством данных и задач, на которых она дообучалась. А для агентов, которые ходят в инструменты, узкое место часто не reasoning, а tool discipline - дисциплина обращения с инструментами.
Самый показательный пример - финансовый анализ с tool use. По материалам Snorkel, дообученная reinforcement learning'ом Qwen3-4B обошла Qwen3-235B при разнице в размере примерно 1/60. На их бенчмарке SnorkelFinance маленькая модель набрала 59.7% против 51.37% у большой (цифры из других публикаций Snorkel). Среда для обучения - FinQA: RL-окружение из 290 экспертных вопросов по 22 публичным компаниям, сделанное вместе с командой rLLM из UC Berkeley и выложенное в OpenEnv. По заявлению авторов, один прогон стоил меньше $500 на 8xH100 и удваивал pass@1.
Что значит tool discipline на практике. Большие генералисты отлично рассуждают, но плохо дисциплинированы в инструментах: галлюцинируют имена колонок, игнорируют ограничения схемы и генерируют SQL, который возвращает бессмысленный результат. Лечится это не большей моделью, а привычками - сначала исследовать таблицы и схему, валидировать данные перед следующим шагом, ретраить и само-исправляться при ошибке. Маленькую модель именно этому и научили через RL.
Дальше доклад обобщает это в идею, которую Snorkel называет task fidelity: не все обучающие задачи одинаково полезны. Они вводят четыре критерия приемки
1) achievability (решаема)
2) non-triviality (нетривиальна)
3) functional correctness (решение реально работает)
4) reliability (оценка воспроизводима)
По их данным, дообучение на «хороших» задачах дало +6.2 п.п. к доле проходящих тестов, а на «плохих» - всего +1.1: примерно пятикратная разница только за счет качества данных.
Отдельно отмечу, что все это рассказ по материалами Snorkel - компании, которая продает курирование данных, так что интерес у нее прямой. Бенчмарк свой, домен узкий (финансовый tool use поверх SQL), и переносимость на другие агентные задачи - открытый вопрос.
Но если поверить ребятам на слово, то кажется, что маленькая дообученная модель с хорошим окружением и дисциплиной обращения с инструментами может оказаться дешевле и надежнее гиганта - особенно там, где агент работает со схемами и API. Для AI4SDLC это прямой сигнал: вкладываться не только в выбор модели, но и в качество задач и в guardrails, по которым агент ходит в инструменты.
P.S.
Я уже разбирал доклад на похожую тему "Everything I Learned Training Frontier Small Models - Maxime Labonne, Liquid AI"
#AI #AI4SDLC #Engineering #Research #Agents #Data #Software
YouTube
Stop Making Models Bigger, Make Them Behave — Kobie Crawford, Snorkel
Qwen 3 235B was asked for YouTube's year over year ad revenue growth from 2023 to 2024. It queried a table that didn't exist, tried again, got nothing back both times, and hallucinated an answer. The 4B model Snorkel finetuned with RL called `get_table_name`…
❤8👍8✍3
Your Attention Is the Bottleneck, Not Your Agents — Zack Proser, WorkOS (Рубрика #AI4SDLC)
Посмотрел на днях доклад Zack Proser из WorkOS, который говорит про AI выгорание от работы с агентами. Думаю, что вам знакомо ощущения от работы с Claude или Codex, когда вроде бы сделано больше, чем раньше, но к середине дня ты уже выжат. Я сам реально начал это чувствовать, когда целый день управляешь агентами. Нужно сформулировать задачу, удержать контекст, выбрать границы, проверить результат, потом еще раз объяснить, где агент промахнулся. Формально скорость выше. Но ощущения flow, которое раньше появлялось, когда садишься писать сложный документ или кодишь нетривиальную фичу, почти нет. Вместо потока получается день менеджера: много переключений контекста, принятия решений и контроля за тем, что делают агенты
Собственно, главный тезис Зака из презентации как раз про это: агенты перестают быть узким местом, а человеческое внимание остается конечным ресурсом. По его словам, если дать агентам контекст, критерии проверки и инструменты, они могут крутиться почти бесконечно. Но человек все равно должен понять, что задача решена, качество достаточное, а решение совпадает с продуктовой и инженерной реальностью.
В докладе есть хороший пример из его работы в Applied AI-команде WorkOS. В Slack-боте для внутренних блог-постов сломался sentence case: бот портил акронимы вроде SSO. Вместо прыжков между Slack, Linear, терминалом и браузером Proser дал Claude Code доступ к Slack и Linear через MCP, попросил исправить баг и проверить результат в том же контуре. Важная деталь здесь не "агент написал код", а "агент дошел до завершенного verification loop".
Дальше Зак предлагает оптимизировать свою работу по слоям
1️⃣ Signal layer
Если Slack или Linear для вас главный источник переключений, не обязательно открывать их самому. Агент может читать mentions, DM, tickets, дедуплицировать запросы и вытаскивать только то, что действительно требует внимания. Это не отменяет коммуникацию, но защищает фокус от случайного шума.
2️⃣ Voice-first flow
Зак говорит, что голосом регулярно выдает около 184 слов в минуту, и это помогает быстрее запускать несколько рабочих веток в Claude Code, Cursor или Codex. Но для меня важна оговорка: голос не снимает необходимости думать. Он снижает трение между намерением и постановкой задачи. Если intent мутный, агент быстрее построит не то.
3️⃣ Remote control и "shower principle"
Часть хороших решений приходит не в IDE, а на прогулке или в душе, когда мозг выходит из жесткого focus mode. Раньше отойти от стола означало остановить работу. Proser показывает другой режим: утром загрузить агентов задачами, задать им контекст и проверки, потом уйти от стола и с телефона направлять их, когда появляется более ясная мысль. Не уверен, что это всем подойдет, но мысль ценная: продуктивность не равна сидению перед экраном.
4️⃣ Safety и verification gates
Зак формулирует это почти как инженерное правило: скорость требует безопасности. Минимальный gate - lint, build, unit tests. Следующий - проверка через браузер: агент сам проходит сценарий и убеждается, что, например, login не сломан. Еще выше - critic pass, когда отдельный агент сверяет результат с набором правил. Здесь агентная разработка перестает быть промптингом и становится процессом.
Отдельно мне понравилась идея weekly pass по истории агентных сессий. У Claude Code разговоры сохраняются локально в JSONL, и Proser предлагает регулярно отдавать их агенту с вопросом: где мы тратили лишние thinking tokens, где снимали неоднозначность, каких skills, MCP-серверов или шаблонов не хватало. Мы обычно выбрасываем контекст работы после мержа, хотя именно там лежит карта повторяющихся потерь внимания.
Есть и смешной, но точный эпизод про Oura Ring через MCP: агент может напомнить, что ты плохо спал и не стоит брать вторую половину плана. На фоне "burnout turbo", как Proser описывает бездумное ускорение LLM-ами, даже такая пауза становится частью операционной модели.
В Q&A к докладу был важный вопрос про обучение людей. Ответ Proser я бы сформулировал так: не делегируй AI то, чего сам еще не понимаешь. Если ты учишься, тебе все еще нужно руками пройти боль, построить ментальные модели и научиться ловить плохие решения. AI может ускорять обучение и объяснять пробелы, но не должен украсть базовую инженерную мышцу.
#AI #AI4SDLC #Engineering #Software #Management #DevEx #Process
Посмотрел на днях доклад Zack Proser из WorkOS, который говорит про AI выгорание от работы с агентами. Думаю, что вам знакомо ощущения от работы с Claude или Codex, когда вроде бы сделано больше, чем раньше, но к середине дня ты уже выжат. Я сам реально начал это чувствовать, когда целый день управляешь агентами. Нужно сформулировать задачу, удержать контекст, выбрать границы, проверить результат, потом еще раз объяснить, где агент промахнулся. Формально скорость выше. Но ощущения flow, которое раньше появлялось, когда садишься писать сложный документ или кодишь нетривиальную фичу, почти нет. Вместо потока получается день менеджера: много переключений контекста, принятия решений и контроля за тем, что делают агенты
Собственно, главный тезис Зака из презентации как раз про это: агенты перестают быть узким местом, а человеческое внимание остается конечным ресурсом. По его словам, если дать агентам контекст, критерии проверки и инструменты, они могут крутиться почти бесконечно. Но человек все равно должен понять, что задача решена, качество достаточное, а решение совпадает с продуктовой и инженерной реальностью.
В докладе есть хороший пример из его работы в Applied AI-команде WorkOS. В Slack-боте для внутренних блог-постов сломался sentence case: бот портил акронимы вроде SSO. Вместо прыжков между Slack, Linear, терминалом и браузером Proser дал Claude Code доступ к Slack и Linear через MCP, попросил исправить баг и проверить результат в том же контуре. Важная деталь здесь не "агент написал код", а "агент дошел до завершенного verification loop".
Дальше Зак предлагает оптимизировать свою работу по слоям
1️⃣ Signal layer
Если Slack или Linear для вас главный источник переключений, не обязательно открывать их самому. Агент может читать mentions, DM, tickets, дедуплицировать запросы и вытаскивать только то, что действительно требует внимания. Это не отменяет коммуникацию, но защищает фокус от случайного шума.
2️⃣ Voice-first flow
Зак говорит, что голосом регулярно выдает около 184 слов в минуту, и это помогает быстрее запускать несколько рабочих веток в Claude Code, Cursor или Codex. Но для меня важна оговорка: голос не снимает необходимости думать. Он снижает трение между намерением и постановкой задачи. Если intent мутный, агент быстрее построит не то.
3️⃣ Remote control и "shower principle"
Часть хороших решений приходит не в IDE, а на прогулке или в душе, когда мозг выходит из жесткого focus mode. Раньше отойти от стола означало остановить работу. Proser показывает другой режим: утром загрузить агентов задачами, задать им контекст и проверки, потом уйти от стола и с телефона направлять их, когда появляется более ясная мысль. Не уверен, что это всем подойдет, но мысль ценная: продуктивность не равна сидению перед экраном.
4️⃣ Safety и verification gates
Зак формулирует это почти как инженерное правило: скорость требует безопасности. Минимальный gate - lint, build, unit tests. Следующий - проверка через браузер: агент сам проходит сценарий и убеждается, что, например, login не сломан. Еще выше - critic pass, когда отдельный агент сверяет результат с набором правил. Здесь агентная разработка перестает быть промптингом и становится процессом.
Отдельно мне понравилась идея weekly pass по истории агентных сессий. У Claude Code разговоры сохраняются локально в JSONL, и Proser предлагает регулярно отдавать их агенту с вопросом: где мы тратили лишние thinking tokens, где снимали неоднозначность, каких skills, MCP-серверов или шаблонов не хватало. Мы обычно выбрасываем контекст работы после мержа, хотя именно там лежит карта повторяющихся потерь внимания.
Есть и смешной, но точный эпизод про Oura Ring через MCP: агент может напомнить, что ты плохо спал и не стоит брать вторую половину плана. На фоне "burnout turbo", как Proser описывает бездумное ускорение LLM-ами, даже такая пауза становится частью операционной модели.
В Q&A к докладу был важный вопрос про обучение людей. Ответ Proser я бы сформулировал так: не делегируй AI то, чего сам еще не понимаешь. Если ты учишься, тебе все еще нужно руками пройти боль, построить ментальные модели и научиться ловить плохие решения. AI может ускорять обучение и объяснять пробелы, но не должен украсть базовую инженерную мышцу.
#AI #AI4SDLC #Engineering #Software #Management #DevEx #Process
YouTube
Your Attention Is the Bottleneck, Not Your Agents — Zack Proser, WorkOS
Simon Willison fires up four parallel agents and is wiped out by 11am. That is the problem Zack Proser is solving: not that the tools are too slow but that human attention is still the hard constraint. His loop: voice brief at 184 words per minute, agent…
🔥16👍10❤5
WebMCP: How every website talks to agents — Tara Agyemang, Google Chrome(Рубрика #AI)
Интересное выступление Tara Agyemang из Google Chrome про WebMCP. Зацепило не само появление нового browser API, а более практичная мысль: нормальное управление браузерным flow для агентов может быть устроено не через “посмотри на экран и угадай, куда кликнуть”, а через явные инструменты, которые сайт сам отдает агенту.
Я реально чувствую, что это может быть интересной возможностью. Сейчас браузерный агент часто делает дорогую работу: читает DOM, смотрит accessibility tree, берет screenshot, угадывает визуальную структуру, вычисляет координаты и кликает. А потом ломается, потому что сверху загрузился баннер и все съехало. Это впечатляет как multimodal reasoning, но инженерно выглядит как обходной путь.
WebMCP предлагает другой способ. Сайт объявляет tools: например
Мне кажется, что тут прослеживается аналогия с accessibility фичами для повышения доступности для людей - когда интерфейс сделан только для зрячего человека с мышкой, другому исполнителю приходится восстанавливать смысл из внешних признаков. WebMCP выглядит как accessibility-слой для агентов: сайт объясняет не только как он выглядит, но и какие действия в нем реально существуют.
Важно, что Tara не продает WebMCP как замену обычному MCP. По ее объяснению, MCP обычно про server-side интеграции: агент идет в отдельный backend tool/API. WebMCP - про client-side браузерный контекст. Нужна открытая вкладка или webview, tools живут на странице, а пользователь видит состояние и может возвращать управление себе. Это human-in-the-loop workflow внутри привычного web UI.
Технически есть два пути.
1️⃣ Declarative API подходит для HTML forms: добавляешь атрибуты, браузер собирает schema из полей
2️⃣ Imperative API нужен для сложных flow: через JavaScript регистрируешь tool и внутри execute вызываешь существующую логику приложения.
В документации Chrome это progressive enhancement, а не переписывание сайта под агентов.
Статус стандарта пока ранний, и это важно не перепутать. WebMCP описан как proposed web standard; текущая спецификация опубликована Web Machine Learning Community Group как Draft Community Group Report, то есть это еще не W3C Standard и не документ на W3C Standards Track. Google анонсировал early preview 10 февраля 2026 года, а origin trial доступен с Chrome 149.
Если спрашивать про GA честно, я бы разделял два ответа. Для Chrome implementation Chrome Status сейчас показывает origin trial на M149-M156 и стадию ship с M157 для Desktop, Android и WebView. С учетом перехода Chrome на двухнедельный release cycle с M153 8 сентября 2026 года, M157 ориентировочно попадает на начало ноября 2026 года, если план не сдвинется. Но это не значит, что “веб-стандарт вышел в GA” в широком смысле: спецификация еще обсуждается, API меняется, а межбраузерная история будет зависеть от обратной связи и реализации другими браузерами.
Практический вывод такой: если у продукта есть сложные flow - покупка, заявка, support, booking, диагностики, многошаговые настройки, - стоит уже сейчас думать, какие действия в них являются “инструментами”, а какие просто визуальным оформлением. Хороший semantic HTML, accessibility, быстрые страницы и понятные states остаются базой. WebMCP добавляет следующий слой: безопасную и наблюдаемую ручку управления вместо мучения мультимодальной модели. Мне кажется, именно такие вещи будут отличать зрелую agent-ready платформу от красивой демки. Не “агент научился кликать как человек”, а “система дала агенту правильные интерфейсы и оставила человеку контроль”.
P.S.
Потом попробую поразбираться с этими возможностями в своих публичных проектах типа system-design.space или polomodov.tech:))
#AI #Agents #Web #Software #Architecture #Engineering
Интересное выступление Tara Agyemang из Google Chrome про WebMCP. Зацепило не само появление нового browser API, а более практичная мысль: нормальное управление браузерным flow для агентов может быть устроено не через “посмотри на экран и угадай, куда кликнуть”, а через явные инструменты, которые сайт сам отдает агенту.
Я реально чувствую, что это может быть интересной возможностью. Сейчас браузерный агент часто делает дорогую работу: читает DOM, смотрит accessibility tree, берет screenshot, угадывает визуальную структуру, вычисляет координаты и кликает. А потом ломается, потому что сверху загрузился баннер и все съехало. Это впечатляет как multimodal reasoning, но инженерно выглядит как обходной путь.
WebMCP предлагает другой способ. Сайт объявляет tools: например
search_concerts, purchase_ticket, filter_results или submit_application. У каждого tool есть имя, описание и schema параметров. Агент не угадывает назначение кнопки по пикселям, а видит меню допустимых действий. В демо Tara показывает это на игре-лабиринте и сайте с билетами: агент не “тыкает” в интерфейс, а последовательно вызывает инструменты страницы, при этом UI остается синхронизированным.Мне кажется, что тут прослеживается аналогия с accessibility фичами для повышения доступности для людей - когда интерфейс сделан только для зрячего человека с мышкой, другому исполнителю приходится восстанавливать смысл из внешних признаков. WebMCP выглядит как accessibility-слой для агентов: сайт объясняет не только как он выглядит, но и какие действия в нем реально существуют.
Важно, что Tara не продает WebMCP как замену обычному MCP. По ее объяснению, MCP обычно про server-side интеграции: агент идет в отдельный backend tool/API. WebMCP - про client-side браузерный контекст. Нужна открытая вкладка или webview, tools живут на странице, а пользователь видит состояние и может возвращать управление себе. Это human-in-the-loop workflow внутри привычного web UI.
Технически есть два пути.
1️⃣ Declarative API подходит для HTML forms: добавляешь атрибуты, браузер собирает schema из полей
2️⃣ Imperative API нужен для сложных flow: через JavaScript регистрируешь tool и внутри execute вызываешь существующую логику приложения.
В документации Chrome это progressive enhancement, а не переписывание сайта под агентов.
Статус стандарта пока ранний, и это важно не перепутать. WebMCP описан как proposed web standard; текущая спецификация опубликована Web Machine Learning Community Group как Draft Community Group Report, то есть это еще не W3C Standard и не документ на W3C Standards Track. Google анонсировал early preview 10 февраля 2026 года, а origin trial доступен с Chrome 149.
Если спрашивать про GA честно, я бы разделял два ответа. Для Chrome implementation Chrome Status сейчас показывает origin trial на M149-M156 и стадию ship с M157 для Desktop, Android и WebView. С учетом перехода Chrome на двухнедельный release cycle с M153 8 сентября 2026 года, M157 ориентировочно попадает на начало ноября 2026 года, если план не сдвинется. Но это не значит, что “веб-стандарт вышел в GA” в широком смысле: спецификация еще обсуждается, API меняется, а межбраузерная история будет зависеть от обратной связи и реализации другими браузерами.
Практический вывод такой: если у продукта есть сложные flow - покупка, заявка, support, booking, диагностики, многошаговые настройки, - стоит уже сейчас думать, какие действия в них являются “инструментами”, а какие просто визуальным оформлением. Хороший semantic HTML, accessibility, быстрые страницы и понятные states остаются базой. WebMCP добавляет следующий слой: безопасную и наблюдаемую ручку управления вместо мучения мультимодальной модели. Мне кажется, именно такие вещи будут отличать зрелую agent-ready платформу от красивой демки. Не “агент научился кликать как человек”, а “система дала агенту правильные интерфейсы и оставила человеку контроль”.
P.S.
Потом попробую поразбираться с этими возможностями в своих публичных проектах типа system-design.space или polomodov.tech:))
#AI #Agents #Web #Software #Architecture #Engineering
YouTube
The agent-ready web: Simplify user actions with WebMCP — Tara Agyemang, Google
Buying two concert tickets costs an AI agent the entire DOM, the accessibility tree, a screenshot, pixel coordinate math, and then a click that might miss because an ad just loaded and shifted the layout. Tara Agyemang from the Google Chrome team introduces…
🔥5👍4❤2
Хард & софт: Как создавался российский рынок информационных технологий (Рубрика #Books)
Прочитал эту книгу Бориса Щербакова, которая рассказывает историю зарождения ИТ в России, но это скорее ироничная автобиографичная книга про то, как управленческие практики больших компаний выглядели на практике в 90х года. Это рассказ человека, который работал в Hewlett-Packard, Verysell, «Партии», Oracle и Dell, стоял у истоков российского ИТ-рынка и адаптировал западные управленческие подходы к местному контексту.
Несколько моментов, которые украшают книгу
1️⃣ Корпоративное управление здесь показано не как набор правильных слов, а как социальная технология. Целеполагание сверху вниз, каскадирование задач, годовые планы, review, ранжирование сотрудников, типологии личностей - все это в абстрактном виде звучит как набор тем из MBA программы. Но автор забавно рассказывает о том, как такие практики попадали в конкретные компании, на конкретных людей и в экономическую турбулентность. Часть из них не работала или работала не так как ожидалось - и автор показывает, что такие инструменты работают только вместе с культурой, доверием и здравым смыслом.
2️⃣ Забавно читать про большие корпоративные механики, которые многие из нас видели уже в более позднем, почти нормализованном виде. Например, performance review с распределением 10% - 80% - 10%: сверху лучшие, посередине основная масса, снизу те, с кем нужно что-то делать. На бумаге это выглядит жестко, но понятно. В жизни сразу появляются вопросы: кто реально оценивает, как люди играют в систему, что делать с сильной командой, где все выше среднего, и как не превратить управленческий инструмент в ежегодный театр.
3️⃣ В книге хорошо чувствуется, что импорт практик почти никогда не бывает буквальным. Нельзя просто взять американский или европейский management playbook, перевести на русский и получить работающую компанию. Нужно учитывать рынок, дефициты, привычки, недоверие, скорость изменений, людей, связи и компромиссы эпохи. В этом смысле книга не столько учит “как правильно управлять”, сколько показывает, как руководитель думает, когда готового ответа нет. На эту тему интересно почитать про различия между культурами, что часто влияет не успешность тех или иных практик (об этом много в книге "The Culture Map" ("Карта культурных различий"), о которой я уже рассказывал)
4️⃣ Байки из 90-х здесь не декоративные. Да, они про время, которое давно прошло: ранний компьютерный бизнес, западные компании, первые профессиональные менеджеры, рынок, который еще только собирал себя из фрагментов. Но именно через эти истории видно, как в индустрии появляется управленческая ткань: продажи, партнерства, ответственность за результат, борьба за людей, попытка построить правила там, где вчера правил еще почти не было.
Мне понравилось, что Щербаков пишет без позы человека, который сейчас объяснит всем единственно верный способ руководить. Скорее он делится опытом и рефлексией: где помогала дисциплина, где спасал юмор, где корпоративная методология работала, а где приходилось включать интуицию и разговаривать с людьми как с людьми. Прада, некоторые сюжеты читаются как память о давно ушедшей эпохе, а не как прямой рецепт на 2026 год:)
#Books #Management #Software #History #Engineering #Product
Прочитал эту книгу Бориса Щербакова, которая рассказывает историю зарождения ИТ в России, но это скорее ироничная автобиографичная книга про то, как управленческие практики больших компаний выглядели на практике в 90х года. Это рассказ человека, который работал в Hewlett-Packard, Verysell, «Партии», Oracle и Dell, стоял у истоков российского ИТ-рынка и адаптировал западные управленческие подходы к местному контексту.
Несколько моментов, которые украшают книгу
1️⃣ Корпоративное управление здесь показано не как набор правильных слов, а как социальная технология. Целеполагание сверху вниз, каскадирование задач, годовые планы, review, ранжирование сотрудников, типологии личностей - все это в абстрактном виде звучит как набор тем из MBA программы. Но автор забавно рассказывает о том, как такие практики попадали в конкретные компании, на конкретных людей и в экономическую турбулентность. Часть из них не работала или работала не так как ожидалось - и автор показывает, что такие инструменты работают только вместе с культурой, доверием и здравым смыслом.
2️⃣ Забавно читать про большие корпоративные механики, которые многие из нас видели уже в более позднем, почти нормализованном виде. Например, performance review с распределением 10% - 80% - 10%: сверху лучшие, посередине основная масса, снизу те, с кем нужно что-то делать. На бумаге это выглядит жестко, но понятно. В жизни сразу появляются вопросы: кто реально оценивает, как люди играют в систему, что делать с сильной командой, где все выше среднего, и как не превратить управленческий инструмент в ежегодный театр.
3️⃣ В книге хорошо чувствуется, что импорт практик почти никогда не бывает буквальным. Нельзя просто взять американский или европейский management playbook, перевести на русский и получить работающую компанию. Нужно учитывать рынок, дефициты, привычки, недоверие, скорость изменений, людей, связи и компромиссы эпохи. В этом смысле книга не столько учит “как правильно управлять”, сколько показывает, как руководитель думает, когда готового ответа нет. На эту тему интересно почитать про различия между культурами, что часто влияет не успешность тех или иных практик (об этом много в книге "The Culture Map" ("Карта культурных различий"), о которой я уже рассказывал)
4️⃣ Байки из 90-х здесь не декоративные. Да, они про время, которое давно прошло: ранний компьютерный бизнес, западные компании, первые профессиональные менеджеры, рынок, который еще только собирал себя из фрагментов. Но именно через эти истории видно, как в индустрии появляется управленческая ткань: продажи, партнерства, ответственность за результат, борьба за людей, попытка построить правила там, где вчера правил еще почти не было.
Мне понравилось, что Щербаков пишет без позы человека, который сейчас объяснит всем единственно верный способ руководить. Скорее он делится опытом и рефлексией: где помогала дисциплина, где спасал юмор, где корпоративная методология работала, а где приходилось включать интуицию и разговаривать с людьми как с людьми. Прада, некоторые сюжеты читаются как память о давно ушедшей эпохе, а не как прямой рецепт на 2026 год:)
#Books #Management #Software #History #Engineering #Product
👍12❤2🔥2
Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance (Рубрика #AI4SDLC)
Прочитал этот paper, который показывает почему ranking агентов без учета типа задачи не очень и полезен. Эта статья показывает, что правильным ответом на привычный вопрос "какой coding agent лучший?" является it depends:) Для своего анализа они взяли набор PR с GitHub под названием AIDev, про который я рассказывал недавно. А дальше они анализировали merge rate, но не просто общий, а учитывая, что один агент может чаще получать документационные задачи, другой - багфиксы и features. В итоге, их нельзя сравнивать как будто они получали одинаковую нагрузку.
Саму работу выполнили Giovanni Pinna, Jingzhi Gong, David Williams и Federica Sarro из University of Trieste, King's College London и University College London. Сама статья была принята в MSR '26 Mining Challenge Track и по сути это наблюдательное исследование, а не эксперимент с рандомизацией, поэтому здесь мы можем увидеть корреляции, а не причинно-следственные связи.
Методология выглядела так
1️⃣ Авторы взяли подмжество AIDev-POP, то есть AI-generated pull request'ы из GitHub-репозиториев с 100+ звезд. Из 33 596 PR оставили 7 156: только закрытые PR, только MIT/Apache-2.0 репозитории, и только те PR, где перед закрытием был хотя бы один ревью или коммент не от автора. Успех определили как acceptance rate: PR был merged или не был merged.
2️⃣ Дальше началось самое полезное. Авторы не просто сравнили OpenAI Codex, GitHub Copilot, Devin, Cursor и Claude Code одной таблицей. Они разложили PR по типам задач: docs, feat, fix, test, refactor, chore, build, ci, perf и т.д. Потом отдельно смотрели динамику по неделям, task distribution и pairwise-сравнения внутри типов задач.
Какие получились результаты
1️⃣ Глобальные цифры выглядят соблазнительно: OpenAI Codex - 77.9% acceptance, Cursor - 74.5%, Claude Code - 71.9%, GitHub Copilot - 68.0%, Devin - 61.6%. Правда, без контекста эту таблицу правильно не прочитать. У Claude Code в выборке всего 139 PR, у Devin - 2 252, у Copilot - 2 194. Нагрузки тоже разные: Copilot чаще сидит в fix-задачах, Claude Code - в features, Cursor имеет более короткий концентрированный период наблюдения.
2️⃣ Главный результат для меня не в победителе, а в масштабе вмешивающегося фактора (confounding variable). Тип задачи дает разницу сильнее, чем многие различия между агентами. Chore-задачи в их выборке принимают в 84.0% случаев, perf - в 55.4%; между категориями получается 29 п.п. Среди массовых задач docs дают 82.1%, а features - 66.1%. То есть агент, которому чаще достаются docs, может выглядеть "умнее" просто потому, что у него легче workload.
3️⃣ По временной динамике заметнее всего Devin: авторы видят у него единственный устойчивый положительный тренд, +0.77% acceptance rate в неделю за 32 активные недели, примерно от 60% к 80%. Но сами же осторожно пишут, что причинность отсюда не следует: это может быть улучшение модели, обучение пользователей, изменение типов задач, концентрация в других репозиториях или все вместе.
4️⃣ По task-stratified сравнению картина становится менее удобной для leaderboard-а. Codex стабильно силен по категориям: от 59.6% до 88.6%, особенно fix и refactor. Claude Code лидирует в docs и features, но часть этих клеток маленькая, поэтому обобщать рискованно. Cursor хорошо выглядит в fix/test-сценариях. Значимые различия после Bonferroni-коррекции (учета множественных сравнений) в основном всплывают именно в fix и feat, а не во всех задачах подряд.
Отдельно стоит обсудить ограничения
Acceptance rate - это не качество кода. Merged PR может принести баг, техдолг или security issue. Public GitHub не равен enterprise-разработке. Репозитории с разной культурой review могут принимать или отклонять PR по своим правилам. Repository-level clustering в Chi-square тестах явно не моделируется. Task labels приходят из AIDev pipeline, а не из ручной разметки каждого PR. И выборки по агентам несимметричны по времени и размеру. Но именно поэтому paper полезная. Она учит не выбирать агента по общей красивой цифре, а строить метрики внедрения правильно.
Если команда внедряет coding agents, я бы забрал отсюда практическое правило: любая внутренняя аналитика должна быть разбита по задачам (task-stratified). Сравнивайте не "агент A против агента B", а docs к docs, bugfix к bugfix, tests к tests, feature к feature. Отдельно смотрите review load, число комментариев, размер diff, CI, rollback, static analysis, найденные дефекты и поддержку после merge.
#AI #AI4SDLC #Engineering #Research #Agents #Software #Evals
Прочитал этот paper, который показывает почему ranking агентов без учета типа задачи не очень и полезен. Эта статья показывает, что правильным ответом на привычный вопрос "какой coding agent лучший?" является it depends:) Для своего анализа они взяли набор PR с GitHub под названием AIDev, про который я рассказывал недавно. А дальше они анализировали merge rate, но не просто общий, а учитывая, что один агент может чаще получать документационные задачи, другой - багфиксы и features. В итоге, их нельзя сравнивать как будто они получали одинаковую нагрузку.
Саму работу выполнили Giovanni Pinna, Jingzhi Gong, David Williams и Federica Sarro из University of Trieste, King's College London и University College London. Сама статья была принята в MSR '26 Mining Challenge Track и по сути это наблюдательное исследование, а не эксперимент с рандомизацией, поэтому здесь мы можем увидеть корреляции, а не причинно-следственные связи.
Методология выглядела так
1️⃣ Авторы взяли подмжество AIDev-POP, то есть AI-generated pull request'ы из GitHub-репозиториев с 100+ звезд. Из 33 596 PR оставили 7 156: только закрытые PR, только MIT/Apache-2.0 репозитории, и только те PR, где перед закрытием был хотя бы один ревью или коммент не от автора. Успех определили как acceptance rate: PR был merged или не был merged.
2️⃣ Дальше началось самое полезное. Авторы не просто сравнили OpenAI Codex, GitHub Copilot, Devin, Cursor и Claude Code одной таблицей. Они разложили PR по типам задач: docs, feat, fix, test, refactor, chore, build, ci, perf и т.д. Потом отдельно смотрели динамику по неделям, task distribution и pairwise-сравнения внутри типов задач.
Какие получились результаты
1️⃣ Глобальные цифры выглядят соблазнительно: OpenAI Codex - 77.9% acceptance, Cursor - 74.5%, Claude Code - 71.9%, GitHub Copilot - 68.0%, Devin - 61.6%. Правда, без контекста эту таблицу правильно не прочитать. У Claude Code в выборке всего 139 PR, у Devin - 2 252, у Copilot - 2 194. Нагрузки тоже разные: Copilot чаще сидит в fix-задачах, Claude Code - в features, Cursor имеет более короткий концентрированный период наблюдения.
2️⃣ Главный результат для меня не в победителе, а в масштабе вмешивающегося фактора (confounding variable). Тип задачи дает разницу сильнее, чем многие различия между агентами. Chore-задачи в их выборке принимают в 84.0% случаев, perf - в 55.4%; между категориями получается 29 п.п. Среди массовых задач docs дают 82.1%, а features - 66.1%. То есть агент, которому чаще достаются docs, может выглядеть "умнее" просто потому, что у него легче workload.
3️⃣ По временной динамике заметнее всего Devin: авторы видят у него единственный устойчивый положительный тренд, +0.77% acceptance rate в неделю за 32 активные недели, примерно от 60% к 80%. Но сами же осторожно пишут, что причинность отсюда не следует: это может быть улучшение модели, обучение пользователей, изменение типов задач, концентрация в других репозиториях или все вместе.
4️⃣ По task-stratified сравнению картина становится менее удобной для leaderboard-а. Codex стабильно силен по категориям: от 59.6% до 88.6%, особенно fix и refactor. Claude Code лидирует в docs и features, но часть этих клеток маленькая, поэтому обобщать рискованно. Cursor хорошо выглядит в fix/test-сценариях. Значимые различия после Bonferroni-коррекции (учета множественных сравнений) в основном всплывают именно в fix и feat, а не во всех задачах подряд.
Отдельно стоит обсудить ограничения
Acceptance rate - это не качество кода. Merged PR может принести баг, техдолг или security issue. Public GitHub не равен enterprise-разработке. Репозитории с разной культурой review могут принимать или отклонять PR по своим правилам. Repository-level clustering в Chi-square тестах явно не моделируется. Task labels приходят из AIDev pipeline, а не из ручной разметки каждого PR. И выборки по агентам несимметричны по времени и размеру. Но именно поэтому paper полезная. Она учит не выбирать агента по общей красивой цифре, а строить метрики внедрения правильно.
Если команда внедряет coding agents, я бы забрал отсюда практическое правило: любая внутренняя аналитика должна быть разбита по задачам (task-stratified). Сравнивайте не "агент A против агента B", а docs к docs, bugfix к bugfix, tests к tests, feature к feature. Отдельно смотрите review load, число комментариев, размер diff, CI, rollback, static analysis, найденные дефекты и поддержку после merge.
#AI #AI4SDLC #Engineering #Research #Agents #Software #Evals
arXiv.org
Comparing AI Coding Agents: A Task-Stratified Analysis of Pull...
The rapid adoption of AI-powered coding assistants is transforming software development practices, yet systematic comparisons of their effectiveness across different task types and over time...
❤5👍3🔥2
Архетипы и стратегирование (Рубрика #Leadership)
Вчера уже в третий раз был на обучении у Андрея Шишакова про архетипы и личное стратегирование. И тут дело не в том, что я не понимаю с первого раза, а скорее в том, что мне нравится как Андрей подает свой материал и докручивает год от года. Для меня такое обучение часто является способом еще глубже уйти в саморефлексию и получить некоторые инсайты: в первый раз я учился у Андрея в 2022 году уже после всем известных событий, второй раз в 2024 году и в третий раз сейчас.
Основной контент вчерашнего обучения напоминал то, что было в 2024 году (о чем я рассказывал в трех постах "Стратегирование и самоактуализация/визионерство": 1, 2 и 3), но после вчерашнего обучения я понял, что мне надо начать ходить к психологу + пойти все-таки учиться по этому направлению + меня заинтересовала тема генеративного транса, которой закончилось вчерашнее обучение.
P.S.
Спасибо Наташе Лосевой, что у нас в компании отвечает за обучение руководителей, а также ее команде - это был отличный MBA Reunion день для выпускников всех наших внутренних программ MBA. А сегодня я еще поеду на день выпускника Сколково, так как наши программы были на базе этой бизнес школы.
#Management #Leadership #Processes #Strategy
Вчера уже в третий раз был на обучении у Андрея Шишакова про архетипы и личное стратегирование. И тут дело не в том, что я не понимаю с первого раза, а скорее в том, что мне нравится как Андрей подает свой материал и докручивает год от года. Для меня такое обучение часто является способом еще глубже уйти в саморефлексию и получить некоторые инсайты: в первый раз я учился у Андрея в 2022 году уже после всем известных событий, второй раз в 2024 году и в третий раз сейчас.
Основной контент вчерашнего обучения напоминал то, что было в 2024 году (о чем я рассказывал в трех постах "Стратегирование и самоактуализация/визионерство": 1, 2 и 3), но после вчерашнего обучения я понял, что мне надо начать ходить к психологу + пойти все-таки учиться по этому направлению + меня заинтересовала тема генеративного транса, которой закончилось вчерашнее обучение.
P.S.
Спасибо Наташе Лосевой, что у нас в компании отвечает за обучение руководителей, а также ее команде - это был отличный MBA Reunion день для выпускников всех наших внутренних программ MBA. А сегодня я еще поеду на день выпускника Сколково, так как наши программы были на базе этой бизнес школы.
#Management #Leadership #Processes #Strategy
❤6🔥3👍1🤬1
[1/2] The New SDLC: от vibe coding к agentic engineering (Рубрика #AI4SDLC)
Прочитал майский whitepaper от Addy Osmani, Shubham Saboo и Sokratis Kartakis из учебной серии Google по AI-агентам. Документ полезен не модными терминами, а тем, что собирает устойчивые ментальные модели: инструменты меняются каждую неделю, а рамка должна пережить эту смену. Разбор не поместился в один пост, поэтому их будет два:)
Авторы формулируют главный тезис как глубокий сдвиг в инженерии — не новый язык или фреймворк, а переход от написания кода к выражению намерения, когда система переводит это намерение в работающий софт. Десятилетиями интерфейсом разработчика с машиной был синтаксис, а теперь таким интерфейсом стало намерение. По данным whitepaper (на начало 2026), 85% профессиональных разработчиков регулярно используют AI-агентов, 51% — ежедневно, а около 41% нового кода уже сгенерировано AI. Цифры стоит читать как индустриальную оценку, но направление оспорить трудно.
Дальше авторы делают важную вещь — разводят два затёртых термина. Vibe coding (термин Карпатого, февраль 2025) — это когда ты «отдаёшься вайбу», описываешь желаемое на естественном языке и принимаешь, что выдал AI, а при ошибке просто копируешь её обратно в промпт. Agentic engineering — дисциплинированный конец того же спектра, где AI пишет реализацию внутри тщательно спроектированных ограничений, тестов и feedback loops, а человек держит ответственность за архитектуру, корректность и качество.
Ключевая мысль: разница не в том, используешь ли ты AI. Разница в том, сколько структуры и верификации окружает его вывод. Сказать техдиру, что «мы vibe-кодим платёжную систему» — повод для тревоги. Сказать «мы практикуем agentic engineering, где AI реализует под human-designed ограничениями, а покрытие тестами гарантирует корректность» — совсем другой разговор.
Главным различием здесь является верификация. В agentic engineering работают два механизма верификации
- Тесты проверяют детерминированную часть: на этот вход функция даёт такой выход
- Evals проверяют недетерминированную: выбрал ли агент правильную траекторию шагов, те ли инструменты, ту ли финальную планку качества
Без обоих это всегда vibe coding, как бы красиво ни были написаны промпты.
Отдельная часть документа посвящена тому, что context engineering - это настоящий инженерный навык. Качество AI-кода зависит не от хитрости промпта, а от качества контекста. Авторы выделяют шесть типов (instructions, knowledge, memory, examples, tools, guardrails) и разводят контексты на два вида
- Static context (всегда загружен, дорогой по токенам)
- Dynamic context (по требованию, дешевле)
Сам сдвиг от «prompt engineering» к «context engineering» отражает простую правду: вопрос не «как обмануть AI, чтобы он написал хороший код», а «что нужно знать новому члену команды, чтобы сделать работу хорошо, и как закодировать это знание в форму, понятную AI».
Авторы отметили, что AI сжимает SDLC неравномерно: реализация ужимается с недель до часов, но требования, архитектура и верификация остаются human-paced. Спецификация становится новым узким местом. Авторы не прячут неудобный факт: при заявленном опросами росте продуктивности на 25–39% исследование METR показало, что опытные разработчики на ряде задач тратили на 19% больше времени — из-за верификации и отладки AI-вывода. AI не убирает работу реализации, а превращает её из «писать» в «проверять и направлять».
В следующей части мы поговорим про то, что окружает модель: harness (Agent = Model + Harness), модель фабрики производства фичей, роли conductor/orchestrator и экономику agentic engineering.
P.S.
Примерно эти мысли я раскрывал в своем докладе "State of AI4SDLC" на AI Dev Conf. Там была цепочка intent → context → plan → tasks → implementation → verification ровно про то, что ускорение кодинга не ускоряет разработку целиком, а перевешивает нагрузку выше по процессу.
#AI #AI4SDLC #VibeCoding #Engineering #Architecture #Management
Прочитал майский whitepaper от Addy Osmani, Shubham Saboo и Sokratis Kartakis из учебной серии Google по AI-агентам. Документ полезен не модными терминами, а тем, что собирает устойчивые ментальные модели: инструменты меняются каждую неделю, а рамка должна пережить эту смену. Разбор не поместился в один пост, поэтому их будет два:)
Авторы формулируют главный тезис как глубокий сдвиг в инженерии — не новый язык или фреймворк, а переход от написания кода к выражению намерения, когда система переводит это намерение в работающий софт. Десятилетиями интерфейсом разработчика с машиной был синтаксис, а теперь таким интерфейсом стало намерение. По данным whitepaper (на начало 2026), 85% профессиональных разработчиков регулярно используют AI-агентов, 51% — ежедневно, а около 41% нового кода уже сгенерировано AI. Цифры стоит читать как индустриальную оценку, но направление оспорить трудно.
Дальше авторы делают важную вещь — разводят два затёртых термина. Vibe coding (термин Карпатого, февраль 2025) — это когда ты «отдаёшься вайбу», описываешь желаемое на естественном языке и принимаешь, что выдал AI, а при ошибке просто копируешь её обратно в промпт. Agentic engineering — дисциплинированный конец того же спектра, где AI пишет реализацию внутри тщательно спроектированных ограничений, тестов и feedback loops, а человек держит ответственность за архитектуру, корректность и качество.
Ключевая мысль: разница не в том, используешь ли ты AI. Разница в том, сколько структуры и верификации окружает его вывод. Сказать техдиру, что «мы vibe-кодим платёжную систему» — повод для тревоги. Сказать «мы практикуем agentic engineering, где AI реализует под human-designed ограничениями, а покрытие тестами гарантирует корректность» — совсем другой разговор.
Главным различием здесь является верификация. В agentic engineering работают два механизма верификации
- Тесты проверяют детерминированную часть: на этот вход функция даёт такой выход
- Evals проверяют недетерминированную: выбрал ли агент правильную траекторию шагов, те ли инструменты, ту ли финальную планку качества
Без обоих это всегда vibe coding, как бы красиво ни были написаны промпты.
Отдельная часть документа посвящена тому, что context engineering - это настоящий инженерный навык. Качество AI-кода зависит не от хитрости промпта, а от качества контекста. Авторы выделяют шесть типов (instructions, knowledge, memory, examples, tools, guardrails) и разводят контексты на два вида
- Static context (всегда загружен, дорогой по токенам)
- Dynamic context (по требованию, дешевле)
Сам сдвиг от «prompt engineering» к «context engineering» отражает простую правду: вопрос не «как обмануть AI, чтобы он написал хороший код», а «что нужно знать новому члену команды, чтобы сделать работу хорошо, и как закодировать это знание в форму, понятную AI».
Авторы отметили, что AI сжимает SDLC неравномерно: реализация ужимается с недель до часов, но требования, архитектура и верификация остаются human-paced. Спецификация становится новым узким местом. Авторы не прячут неудобный факт: при заявленном опросами росте продуктивности на 25–39% исследование METR показало, что опытные разработчики на ряде задач тратили на 19% больше времени — из-за верификации и отладки AI-вывода. AI не убирает работу реализации, а превращает её из «писать» в «проверять и направлять».
В следующей части мы поговорим про то, что окружает модель: harness (Agent = Model + Harness), модель фабрики производства фичей, роли conductor/orchestrator и экономику agentic engineering.
P.S.
Примерно эти мысли я раскрывал в своем докладе "State of AI4SDLC" на AI Dev Conf. Там была цепочка intent → context → plan → tasks → implementation → verification ровно про то, что ускорение кодинга не ускоряет разработку целиком, а перевешивает нагрузку выше по процессу.
#AI #AI4SDLC #VibeCoding #Engineering #Architecture #Management
❤12👍12🔥5🤣1
[2/2] The New SDLC: harness, factory model и экономика agentic engineering (Рубрика #AI4SDLC)
Продолжаю разбор майского whitepaper от Google, где в первой части мы обсуждали сдвиг от синтаксиса к намерению, и дальше спектр vibe coding → agentic engineering и context engineering. Теперь мы поговорим про то, что окружает модель и превращает её в работающего агента.
Любимая формула документа: Agent = Model + Harness. Когда начинаешь работать с агентами, есть соблазн считать систему моделью: вышла новая модель — агент поумнел, старая — поглупел. Авторы говорят, что это неверный взгляд, ведущий к неверным инвестициям. Модель — лишь один вход. Всё остальное — промпты, инструменты, политики контекста, hooks, sandboxes, суб-агенты, observability — это harness, обвязка вокруг модели, которая и даёт ей довести дело до конца. По их оценке, модель — это примерно 10%, harness — примерно 90% того, что вы ощущаете, работая с Claude Code, Cursor, Codex или Gemini CLI.
Доказательства не риторические. На бенчмарке Terminal Bench 2.0 одна команда подняла coding-агента из-за пределов топ-30 в топ-5, поменяв только harness, без смены модели. Отдельное исследование LangChain подняло score на 13.7 балла, твикая лишь system prompt, инструменты и middleware вокруг фиксированной модели. Вывод, который стоит повесить на стену: большинство сбоев агента, если разобраться честно, — это сбои конфигурации, а не модели.
Из этого вырастает factory model. Главный продукт разработчика — уже не код, а система, которая код производит: спецификации и контекст, агенты-исполнители, тесты и quality gates, feedback loops, возвращающие ошибки агенту, и guardrails. Менеджер завода не точит каждую деталь руками — он проектирует конвейер и контроль качества. Современный разработчик задаёт агентам критерии успеха, а не пошаговую инструкцию, и даёт им итерироваться.
Роль разработчика при этом раздваивается
1️⃣ Conductor — реальное время, в IDE, контроль на уровне нажатий клавиш; хорош для исследования, прототипа, изучения нового API
2️⃣ Orchestrator — асинхронно, на уровне целей, делегирование нескольким агентам, ревью результата, а не каждой строки; хорош для фич, миграций, генерации тестов.
Большинство переключается между режимами в течение дня.
Отдельно — «проблема 80%». Агент быстро генерирует около 80% кода фичи, но оставшиеся 20% (edge cases, обработка ошибок, точки интеграции, тонкая корректность) требуют глубокого контекста, которого моделям часто не хватает. Природа ошибок изменилась: от синтаксических к концептуальным — неверные предположения о бизнес-логике, пропущенные edge cases. Их труднее заметить именно потому, что код «выглядит правильно» и проходит базовые тесты.
Авторы интересно рассматривают экономику. Для лидера важнее velocity total cost of ownership. Vibe coding выглядит дёшево (низкий CapEx), но прячет высокий OpEx: token burn, постоянные циклы переспрашивания, maintenance-налог на «спагетти», security-латание. По оценке авторов, в точке пересечения vibe coding обходится в 3–10× дороже за фичу. Agentic engineering переворачивает модель: высокий CapEx (спеки, тесты, структурирование контекста) и низкий маржинальный OpEx. Context engineering и intelligent model routing (большие модели — на сложное, дешёвые — на детерминированное) становятся прямыми финансовыми рычагами.
Практическая часть «с чего начать» разложена по трём уровням
1️⃣ Разработчику: завести AGENTS.md, поставить набор skills, сделать первый агент из повторяющегося workflow, писать tests и evals до генерации кода, ревьюить каждую строку, что идёт в прод.
2️⃣ Лидеру: сделать context engineering полноценной практикой (AGENTS.md, промпты, evals, skills — как код, под ревью и версионированием) и ставить планку на eval, а не на демо.
3️⃣ Организации: вкладываться в production substrate до масштаба, принимать открытые стандарты (MCP, A2A), планировать гибридные команды человек+агент.
Вывод документа называется «Intent as the new Interface», и три принципа в нём:
1️⃣ Structure scales, vibes don't
2️⃣ AI усиливает вашу инженерную культуру — множит и сильные, и слабые стороны
3️⃣ Роль человека эволюционирует, а не исчезает
Финальная фраза
Для меня это ровно та логика, которую я разбирал в статье про agent-first IDP: Agent = Model + Harness, evals как контур качества, production substrate до масштаба — те же идеи, но на уровне платформы. Главный вывод обоих текстов один: дисциплина (specs, tests, evals, harness) — не противоположность скорости, а её условие.
#AI #AI4SDLC #VibeCoding #Engineering #Architecture #Management
Продолжаю разбор майского whitepaper от Google, где в первой части мы обсуждали сдвиг от синтаксиса к намерению, и дальше спектр vibe coding → agentic engineering и context engineering. Теперь мы поговорим про то, что окружает модель и превращает её в работающего агента.
Любимая формула документа: Agent = Model + Harness. Когда начинаешь работать с агентами, есть соблазн считать систему моделью: вышла новая модель — агент поумнел, старая — поглупел. Авторы говорят, что это неверный взгляд, ведущий к неверным инвестициям. Модель — лишь один вход. Всё остальное — промпты, инструменты, политики контекста, hooks, sandboxes, суб-агенты, observability — это harness, обвязка вокруг модели, которая и даёт ей довести дело до конца. По их оценке, модель — это примерно 10%, harness — примерно 90% того, что вы ощущаете, работая с Claude Code, Cursor, Codex или Gemini CLI.
Доказательства не риторические. На бенчмарке Terminal Bench 2.0 одна команда подняла coding-агента из-за пределов топ-30 в топ-5, поменяв только harness, без смены модели. Отдельное исследование LangChain подняло score на 13.7 балла, твикая лишь system prompt, инструменты и middleware вокруг фиксированной модели. Вывод, который стоит повесить на стену: большинство сбоев агента, если разобраться честно, — это сбои конфигурации, а не модели.
Из этого вырастает factory model. Главный продукт разработчика — уже не код, а система, которая код производит: спецификации и контекст, агенты-исполнители, тесты и quality gates, feedback loops, возвращающие ошибки агенту, и guardrails. Менеджер завода не точит каждую деталь руками — он проектирует конвейер и контроль качества. Современный разработчик задаёт агентам критерии успеха, а не пошаговую инструкцию, и даёт им итерироваться.
Роль разработчика при этом раздваивается
1️⃣ Conductor — реальное время, в IDE, контроль на уровне нажатий клавиш; хорош для исследования, прототипа, изучения нового API
2️⃣ Orchestrator — асинхронно, на уровне целей, делегирование нескольким агентам, ревью результата, а не каждой строки; хорош для фич, миграций, генерации тестов.
Большинство переключается между режимами в течение дня.
Отдельно — «проблема 80%». Агент быстро генерирует около 80% кода фичи, но оставшиеся 20% (edge cases, обработка ошибок, точки интеграции, тонкая корректность) требуют глубокого контекста, которого моделям часто не хватает. Природа ошибок изменилась: от синтаксических к концептуальным — неверные предположения о бизнес-логике, пропущенные edge cases. Их труднее заметить именно потому, что код «выглядит правильно» и проходит базовые тесты.
Авторы интересно рассматривают экономику. Для лидера важнее velocity total cost of ownership. Vibe coding выглядит дёшево (низкий CapEx), но прячет высокий OpEx: token burn, постоянные циклы переспрашивания, maintenance-налог на «спагетти», security-латание. По оценке авторов, в точке пересечения vibe coding обходится в 3–10× дороже за фичу. Agentic engineering переворачивает модель: высокий CapEx (спеки, тесты, структурирование контекста) и низкий маржинальный OpEx. Context engineering и intelligent model routing (большие модели — на сложное, дешёвые — на детерминированное) становятся прямыми финансовыми рычагами.
Практическая часть «с чего начать» разложена по трём уровням
1️⃣ Разработчику: завести AGENTS.md, поставить набор skills, сделать первый агент из повторяющегося workflow, писать tests и evals до генерации кода, ревьюить каждую строку, что идёт в прод.
2️⃣ Лидеру: сделать context engineering полноценной практикой (AGENTS.md, промпты, evals, skills — как код, под ревью и версионированием) и ставить планку на eval, а не на демо.
3️⃣ Организации: вкладываться в production substrate до масштаба, принимать открытые стандарты (MCP, A2A), планировать гибридные команды человек+агент.
Вывод документа называется «Intent as the new Interface», и три принципа в нём:
1️⃣ Structure scales, vibes don't
2️⃣ AI усиливает вашу инженерную культуру — множит и сильные, и слабые стороны
3️⃣ Роль человека эволюционирует, а не исчезает
Финальная фраза
Generation is solved. Verification, judgment, and direction are the new craft
Для меня это ровно та логика, которую я разбирал в статье про agent-first IDP: Agent = Model + Harness, evals как контур качества, production substrate до масштаба — те же идеи, но на уровне платформы. Главный вывод обоих текстов один: дисциплина (specs, tests, evals, harness) — не противоположность скорости, а её условие.
#AI #AI4SDLC #VibeCoding #Engineering #Architecture #Management
Telegram
Книжный куб
[1/2] The New SDLC: от vibe coding к agentic engineering (Рубрика #AI4SDLC)
Прочитал майский whitepaper от Addy Osmani, Shubham Saboo и Sokratis Kartakis из учебной серии Google по AI-агентам. Документ полезен не модными терминами, а тем, что собирает устойчивые…
Прочитал майский whitepaper от Addy Osmani, Shubham Saboo и Sokratis Kartakis из учебной серии Google по AI-агентам. Документ полезен не модными терминами, а тем, что собирает устойчивые…
❤13👍5🔥5