Панельная дискуссии “AI вчера, сегодня, завтра” с AI Dev Conf (Рубрика #AI4SDLC)
Появилась запись панельной дискуссии, которую я модерировал на AI Dev Conf. Состав участников был представительным: Алексей Тотмаков из VK Tech, Рафаел Тонаканян из Сбера, Андрей Кулешов из Yandex SourceCraft и я в роли модератора. Мне кажется, получился хороший разговор про то, что AI в разработке уже стал базовой гигиеной: модели помогают писать код, тесты, документацию, разбирать legacy, делать review и быстрее двигаться по рутинным задачам. Но главный вопрос теперь в том, а можем ли мы безопасно встроить AI в инженерную систему так, чтобы он давал измеримый production-результат, а не просто увеличивал количество сгенерированного кода. Мы затронули много тем, но основные отмечены ниже.
1️⃣ Первая большая тема - контекст. Модель без контекста похожа на очень уверенного junior-разработчика, который не знает вашу систему. Она может быстро предложить решение, но не понимает, почему здесь странный workaround, какие SLA у сервиса, какие зависимости нельзя трогать, какие данные нельзя отправлять наружу и какие тесты действительно важны. Поэтому “дать модели доступ к коду” - это еще не стратегия. Нужна нормальная инженерная постановка: цель, ограничения, контекст, критерии приемки, границы изменений, тесты и способ проверки результата. То есть примерно та же цепочка, о которой я уже много говорил:
2️⃣ Вторая тема - переход от ассистентов к агентам. Ассистент помогает человеку, но человек держит цель, план и ответственность. Агент уже может сам разложить задачу, вызвать инструменты, поменять код, запустить тесты, прочитать ошибку и попробовать снова. Звучит красиво, но в большой компании это сразу поднимает неудобные вопросы. К каким репозиториям агент имеет доступ? Можно ли ему читать логи? Может ли он менять конфигурацию? Кто отвечает за security regression? Что логируется? Где нужен approval? Как откатиться назад? Поэтому agentic coding - это не просто “модель поумнее”. Это новая архитектура процесса разработки.
3️⃣ Третья тема - метрики. Очень легко считать не то: купленные лицензии, количество запросов к модели, число сгенерированных строк кода. Все это может быть полезным сигналом adoption, но не показывает, стала ли инженерная система лучше. Смотреть нужно на цепочку целиком: cycle time, time-to-PR, time-to-merge, качество review, дефекты, security-риск, нагрузку на senior-инженеров, стоимость токенов и долю результата, которая реально доходит до production.
4️⃣ Четвертая тема - политики. Если AI получает доступ к коду, задачам, логам, документации и внутренним данным, правила больше нельзя держать “в голове у архитектора”. Нужны машинно-проверяемые политики: какие данные можно отдавать модели, какие модели разрешены для каких задач, куда агент имеет доступ, какие изменения требуют ручного подтверждения, что должно логироваться и какие действия запрещены всегда.
5️⃣ И еще один важный момент: стратегию нельзя строить вокруг одной модели. Модели будут меняться быстрее, чем процессы. Поэтому нужны более устойчивые элементы: gateway, routing между моделями, evals, логирование, лимиты стоимости, сравнение качества и возможность заменить провайдера без переписывания всего процесса.
Для разработчиков вывод такой: важно уметь проектировать проверяемую работу для человека и агента: ставить задачу, давать контекст, ограничивать решение, читать diff критически и строить контур проверки.
Для техлидов, EM и CTO вывод жестче: AI adoption - это не закупка лицензий. Это изменение операционной модели разработки. Нужно думать про контекст, политики, инструменты, песочницы, evals, observability, метрики, экономику и ответственность.
В общем, сейчас основной вопрос в том, а может ли ваша организация безопасно, измеримо и регулярно превращать AI-ускорение в production-результат?
#AI #AI4SDLC #Engineering #Management #Architecture #Agents #DevTools
Появилась запись панельной дискуссии, которую я модерировал на AI Dev Conf. Состав участников был представительным: Алексей Тотмаков из VK Tech, Рафаел Тонаканян из Сбера, Андрей Кулешов из Yandex SourceCraft и я в роли модератора. Мне кажется, получился хороший разговор про то, что AI в разработке уже стал базовой гигиеной: модели помогают писать код, тесты, документацию, разбирать legacy, делать review и быстрее двигаться по рутинным задачам. Но главный вопрос теперь в том, а можем ли мы безопасно встроить AI в инженерную систему так, чтобы он давал измеримый production-результат, а не просто увеличивал количество сгенерированного кода. Мы затронули много тем, но основные отмечены ниже.
1️⃣ Первая большая тема - контекст. Модель без контекста похожа на очень уверенного junior-разработчика, который не знает вашу систему. Она может быстро предложить решение, но не понимает, почему здесь странный workaround, какие SLA у сервиса, какие зависимости нельзя трогать, какие данные нельзя отправлять наружу и какие тесты действительно важны. Поэтому “дать модели доступ к коду” - это еще не стратегия. Нужна нормальная инженерная постановка: цель, ограничения, контекст, критерии приемки, границы изменений, тесты и способ проверки результата. То есть примерно та же цепочка, о которой я уже много говорил:
intent -> context -> plan -> tasks -> implementation -> verification.2️⃣ Вторая тема - переход от ассистентов к агентам. Ассистент помогает человеку, но человек держит цель, план и ответственность. Агент уже может сам разложить задачу, вызвать инструменты, поменять код, запустить тесты, прочитать ошибку и попробовать снова. Звучит красиво, но в большой компании это сразу поднимает неудобные вопросы. К каким репозиториям агент имеет доступ? Можно ли ему читать логи? Может ли он менять конфигурацию? Кто отвечает за security regression? Что логируется? Где нужен approval? Как откатиться назад? Поэтому agentic coding - это не просто “модель поумнее”. Это новая архитектура процесса разработки.
3️⃣ Третья тема - метрики. Очень легко считать не то: купленные лицензии, количество запросов к модели, число сгенерированных строк кода. Все это может быть полезным сигналом adoption, но не показывает, стала ли инженерная система лучше. Смотреть нужно на цепочку целиком: cycle time, time-to-PR, time-to-merge, качество review, дефекты, security-риск, нагрузку на senior-инженеров, стоимость токенов и долю результата, которая реально доходит до production.
4️⃣ Четвертая тема - политики. Если AI получает доступ к коду, задачам, логам, документации и внутренним данным, правила больше нельзя держать “в голове у архитектора”. Нужны машинно-проверяемые политики: какие данные можно отдавать модели, какие модели разрешены для каких задач, куда агент имеет доступ, какие изменения требуют ручного подтверждения, что должно логироваться и какие действия запрещены всегда.
5️⃣ И еще один важный момент: стратегию нельзя строить вокруг одной модели. Модели будут меняться быстрее, чем процессы. Поэтому нужны более устойчивые элементы: gateway, routing между моделями, evals, логирование, лимиты стоимости, сравнение качества и возможность заменить провайдера без переписывания всего процесса.
Для разработчиков вывод такой: важно уметь проектировать проверяемую работу для человека и агента: ставить задачу, давать контекст, ограничивать решение, читать diff критически и строить контур проверки.
Для техлидов, EM и CTO вывод жестче: AI adoption - это не закупка лицензий. Это изменение операционной модели разработки. Нужно думать про контекст, политики, инструменты, песочницы, evals, observability, метрики, экономику и ответственность.
В общем, сейчас основной вопрос в том, а может ли ваша организация безопасно, измеримо и регулярно превращать AI-ускорение в production-результат?
#AI #AI4SDLC #Engineering #Management #Architecture #Agents #DevTools
YouTube
Поломодов, Кулешов, Тонаканян — Круглый стол AI вчера, сегодня, завтра
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
👍9❤8🔥3
The Story of C++: The World's Most Consequential Programming Language | The Official Story (Рубрика #Documentary)
Вчера вышел фильм с официальной историей языка C++, который большинство людей не видит напрямую, но результатами которого пользуется каждый день. C++ — это не просто «ещё один язык программирования». Это невидимая инфраструктура современного мира: игры, операционные системы, финансы, железо, графика, симуляции, высоконагруженные сервисы. Язык, который любят, ругают, пытаются заменить — и который всё равно продолжает держать на себе огромный пласт цифровой цивилизации.
Мне кажется, что фильм будет интересен не только C++ разработчикам, а всем инженерам и техническим лидерам. Он про то, как инженерные решения становятся культурой, как сложные инструменты переживают десятилетия и почему некоторые технологии становятся фундаментом для всего остального. В общем, очень рекомендую этот фильм к просмотру - я сам посмотрел его с большим удовольствием, хотя никогда не писал production код на плюсах:) Особенно мне понравилось, что в съемках приняло большое количество ключевых участников, внесших вклад в развитие языка, начиная с Бьёрна Страуструпа.
#Engineering #Software #History #Architecture #Science
Вчера вышел фильм с официальной историей языка C++, который большинство людей не видит напрямую, но результатами которого пользуется каждый день. C++ — это не просто «ещё один язык программирования». Это невидимая инфраструктура современного мира: игры, операционные системы, финансы, железо, графика, симуляции, высоконагруженные сервисы. Язык, который любят, ругают, пытаются заменить — и который всё равно продолжает держать на себе огромный пласт цифровой цивилизации.
Мне кажется, что фильм будет интересен не только C++ разработчикам, а всем инженерам и техническим лидерам. Он про то, как инженерные решения становятся культурой, как сложные инструменты переживают десятилетия и почему некоторые технологии становятся фундаментом для всего остального. В общем, очень рекомендую этот фильм к просмотру - я сам посмотрел его с большим удовольствием, хотя никогда не писал production код на плюсах:) Особенно мне понравилось, что в съемках приняло большое количество ключевых участников, внесших вклад в развитие языка, начиная с Бьёрна Страуструпа.
#Engineering #Software #History #Architecture #Science
YouTube
The Story of C++: The World's Most Consequential Programming Language | The Official Story
This is the story of C++, one of the world’s most widely-used and consequential programming languages. C++ divides opinion, resists replacement, and has outlasted almost everything built to supersede it.
C++ The Documentary traces the full arc, from its…
C++ The Documentary traces the full arc, from its…
❤11👍5🔥2
Can LLMs generate Enterprise Quality Code? Или почему pass rate уже мало (Рубрика #AI4SDLC)
LLM может пройти тесты и все равно написать код, который enterprise-команда потом будет долго разгребать. Именно об этом доклад Prasenjit Sarkar из Sonar: "Can LLMs generate Enterprise Quality Code?". Главная мысль простая, но неприятная:
В enterprise важно не просто реализовать функциональные требования и выдать рабочий код - важны вопросы безопасности, надежности, maintainability, когнитивной сложности, архитектурной связности, объема технического долга и кучи других нефункциональных требований. Но обычно мы смотрим в бенчах на то, как модель может сгенерировать корректный код, но не смотрим а не добавит ли она уязвимость, раздует метод, ухудшит читаемость или сломает принятые в репозитории правила. Поэтому Sonar продвигает идею Agent-Centric Development Cycle (AC/DC):
Важная деталь:
Вот это, кажется, правильная рамка для engineering leaders: AI-код надо принимать через verification loop. Чем быстрее агенты пишут код, тем строже должна быть система, которая проверяет не только “прошли ли тесты”, но и “не и не наработали ли мы себе на будущий инцидент”.
#AI #AI4SDLC #Engineering #Architecture #DevSecOps #Software #Agents
LLM может пройти тесты и все равно написать код, который enterprise-команда потом будет долго разгребать. Именно об этом доклад Prasenjit Sarkar из Sonar: "Can LLMs generate Enterprise Quality Code?". Главная мысль простая, но неприятная:
pass rate больше не достаточен. HumanEval, MBPP и SWE-bench хорошо отвечают на вопрос “работает ли решение в тесте?”, но гораздо хуже отвечают на вопрос “можно ли это безопасно втащить в большую кодовую базу?”.В enterprise важно не просто реализовать функциональные требования и выдать рабочий код - важны вопросы безопасности, надежности, maintainability, когнитивной сложности, архитектурной связности, объема технического долга и кучи других нефункциональных требований. Но обычно мы смотрим в бенчах на то, как модель может сгенерировать корректный код, но не смотрим а не добавит ли она уязвимость, раздует метод, ухудшит читаемость или сломает принятые в репозитории правила. Поэтому Sonar продвигает идею Agent-Centric Development Cycle (AC/DC):
Guide -> Generate -> Verify -> Solve. То есть AI-агента сначала нужно направить контекстом и стандартами проекта, потом дать ему сгенерировать код, затем независимо проверить результат и только после этого исправлять найденные проблемы.Важная деталь:
Generate делает coding agent, а ценность Sonar здесь в независимом слое Guide, Verify и Solve. Это не про “заменить разработчика”, а про то, чтобы встроить AI-код в управляемый инженерный контур. Интересная часть - их `LLM Leaderboard for Code Quality & Security. Это не просто таблица “какая модель решила больше задач”. Pipeline такой: модель генерирует код, код компилируется и гоняется на тестах, потом SonarQube анализирует bugs, vulnerabilities, code smells и complexity. Для Java сейчас указано примерно ~3,900` задач ComplexCodeEval, ~400 MBPP и ~160 HumanEval. При этом correctness через pass@1 считается только для HumanEval и MBPP, а остальные benchmark-и участвуют в метриках качества: complexity, security, reliability и maintainability.Вот это, кажется, правильная рамка для engineering leaders: AI-код надо принимать через verification loop. Чем быстрее агенты пишут код, тем строже должна быть система, которая проверяет не только “прошли ли тесты”, но и “не и не наработали ли мы себе на будущий инцидент”.
#AI #AI4SDLC #Engineering #Architecture #DevSecOps #Software #Agents
YouTube
Can LLMs generate Enterprise Quality Code? — Prasenjit Sarkar, Sonar
Sonar ran 4,444 Java programming assignments through 53 models and measured what actually came out. GPT-4o generated under 250,000 lines for those assignments. GPT 5.4 generated 1.2 million. Claude Sonnet 4.6 generated 627,000 with the highest security issue…
👍9❤4🔥3
[1/2] GitLab Act 2: зачем GitLab перестраивает разработку под агентов (Рубрика #AI4SDLC)
Разбирался с GitLab Act 2. Формально это письмо CEO про новый этап компании: фокус, реструктуризацию, AI и DevSecOps. Но важнее другое: GitLab описывает не набор AI-фичей, а смену производственной модели разработки. Если коротко, GitLab больше не хочет быть DevSecOps-платформой, к которой прикрутили AI. Он хочет стать control plane для SDLC, где работают не только люди, но и агенты.
В этом документе видно несколько продуктовых сдвигов
1️⃣ Git и платформа должны выдерживать нагрузку от машин
Если агенты параллельно открывают MR (merge request), запускают пайплайны и возвращаются с правками быстрее любой человеческой команды, инфраструктура разработки становится бутылочным горлышком. Поэтому GitLab говорит не только про AI-помощника, а про API-first сервисы и Git под машинные нагрузки.
2️⃣ Нужна оркестрация всего жизненного цикла
Агент, который написал код, сам по себе не решает enterprise-задачу. Нужно связать issue, код, review, безопасность, CI/CD, развертывание, инциденты, approvals и политики. Иначе получится много быстрых действий, но не управляемая поставка изменений.
3️⃣ Главным активом становится контекст
Кодогенерация быстро становится commodity: хорошие модели будут у всех. Разница будет в том, какой контекст получает агент: задачи, архитектура, история MR, уязвимости, ownership, deploy-история, инциденты, решения прошлых команд. GitLab называет это connected data model across the lifecycle, что является графом инженерного контекста.
4️⃣ Governance должен быть встроен в ядро, а не добавлен сбоку
В агентной разработке скорость без аудита, identity, политик и контролей развертывания быстро превращается в риск. Нужно понимать, кто или что изменило код, по каким правилам, с какими правами и где человек обязан остаться в контуре.
5️⃣ GitLab честно описывает гибридный режим
Не "завтра все автономно", а сосуществование работы людей, агентов-ассистентов и автономных агентов. Это достаточно трезвая картина: большие компании будут двигаться к агентности не одним прыжком, а через слои контроля и доверия.
Организационная часть здесь не менее важна, чем продуктовая. GitLab делает более плоским менеджмент, говорит примерно о 60 автономных R&D-командах, требует ежедневного использования AI и меняет старый ценностный фреймворк CREDIT (Collaboration, Results, Efficiency, Diversity & Inclusion, Iteration, and Transparency) на Speed with Quality, Ownership Mindset и Customer Outcomes. В отчете от 2 июня 2026 компания также описала реструктуризацию: сокращение примерно 14% штата, около 350 человек, выход из 22 стран и уменьшение footprint примерно на 37%. Кажется, что это попытка перестроить саму компанию под новую скорость разработки.
Для меня важно не только то, что GitLab говорит про агентов. Важно, что он связывает их с Git, CI/CD, governance, моделями данных, прайсингом и организационной структурой. Это уже не инструмент продуктивности для разработчика, а новая производственная система для разработки софта. В следующей части посмотрим, насколько GitLab тут одинок.Спойлер: почти не одинок. GitHub, Atlassian, Cursor, JetBrains и OpenAI/Codex идут в ту же сторону, но каждый заходит со своей точки силы.
#AI #AI4SDLC #Engineering #DevSecOps #Management #Architecture #DevOps #PlatformEngineering #Agents #DevEx #Strategy
Разбирался с GitLab Act 2. Формально это письмо CEO про новый этап компании: фокус, реструктуризацию, AI и DevSecOps. Но важнее другое: GitLab описывает не набор AI-фичей, а смену производственной модели разработки. Если коротко, GitLab больше не хочет быть DevSecOps-платформой, к которой прикрутили AI. Он хочет стать control plane для SDLC, где работают не только люди, но и агенты.
В этом документе видно несколько продуктовых сдвигов
1️⃣ Git и платформа должны выдерживать нагрузку от машин
Если агенты параллельно открывают MR (merge request), запускают пайплайны и возвращаются с правками быстрее любой человеческой команды, инфраструктура разработки становится бутылочным горлышком. Поэтому GitLab говорит не только про AI-помощника, а про API-first сервисы и Git под машинные нагрузки.
2️⃣ Нужна оркестрация всего жизненного цикла
Агент, который написал код, сам по себе не решает enterprise-задачу. Нужно связать issue, код, review, безопасность, CI/CD, развертывание, инциденты, approvals и политики. Иначе получится много быстрых действий, но не управляемая поставка изменений.
3️⃣ Главным активом становится контекст
Кодогенерация быстро становится commodity: хорошие модели будут у всех. Разница будет в том, какой контекст получает агент: задачи, архитектура, история MR, уязвимости, ownership, deploy-история, инциденты, решения прошлых команд. GitLab называет это connected data model across the lifecycle, что является графом инженерного контекста.
4️⃣ Governance должен быть встроен в ядро, а не добавлен сбоку
В агентной разработке скорость без аудита, identity, политик и контролей развертывания быстро превращается в риск. Нужно понимать, кто или что изменило код, по каким правилам, с какими правами и где человек обязан остаться в контуре.
5️⃣ GitLab честно описывает гибридный режим
Не "завтра все автономно", а сосуществование работы людей, агентов-ассистентов и автономных агентов. Это достаточно трезвая картина: большие компании будут двигаться к агентности не одним прыжком, а через слои контроля и доверия.
Организационная часть здесь не менее важна, чем продуктовая. GitLab делает более плоским менеджмент, говорит примерно о 60 автономных R&D-командах, требует ежедневного использования AI и меняет старый ценностный фреймворк CREDIT (Collaboration, Results, Efficiency, Diversity & Inclusion, Iteration, and Transparency) на Speed with Quality, Ownership Mindset и Customer Outcomes. В отчете от 2 июня 2026 компания также описала реструктуризацию: сокращение примерно 14% штата, около 350 человек, выход из 22 стран и уменьшение footprint примерно на 37%. Кажется, что это попытка перестроить саму компанию под новую скорость разработки.
Для меня важно не только то, что GitLab говорит про агентов. Важно, что он связывает их с Git, CI/CD, governance, моделями данных, прайсингом и организационной структурой. Это уже не инструмент продуктивности для разработчика, а новая производственная система для разработки софта. В следующей части посмотрим, насколько GitLab тут одинок.
#AI #AI4SDLC #Engineering #DevSecOps #Management #Architecture #DevOps #PlatformEngineering #Agents #DevEx #Strategy
GitLab
GitLab Act 2
A letter to our customers and our investors.
👍12❤10🔥2
[2/2] GitLab Act 2: насколько это совпадает с GitHub, Atlassian и агентными IDE (Рубрика #AI4SDLC)
В прошлой части я разбирал GitLab Act 2 как попытку перестроить DevSecOps-платформу под агентную разработку: отмасштабировать Git под машинное использование, реализовать оркестрацию всего жизненного цикла, собрать контекстный граф, встроить governance и реализовать гибридную модель работы human/agent/autonomous. А в этом посте я хотел сравнить это с тем, что делают другие платформы и насколько совпадает курс.
TLDR;
Курс совпадает сильно, но разница в том, из какой точки каждый игрок пытается стать control plane для агентной разработки.
Ну а дальше давайте посмотрим на остальных игроков
1️⃣ GitHub
GitHub идет очень близко, но с другой оптикой. Copilot coding agent уже работает как асинхронный участник GitHub flow: ему можно назначить issue, он работает в среде на базе GitHub Actions, пушит коммиты в draft PR, а человек ревьюит результат. А Agent HQ прямо описывает GitHub как mission control для разных агентов: Copilot, OpenAI Codex, Claude, Google, Cognition и других. Ставка GitHub - оставить привычные primitives: issues, pull requests, Actions, branch protections, audit, но сделать агентов native внутри процесса. Подробнее я разбирал в отдельной статье в своем блоге tellmeabout.tech
2️⃣ Atlassian
Atlassian смотрит на ту же задачу через workflow и корпоративный контекст. Rovo Dev живет рядом с Jira, Confluence, Bitbucket и GitHub, а сильная сторона Atlassian - Teamwork Graph: связь задач, требований, документации, командного знания и кода. Если GitHub говорит "агенты внутри репозитория и PR", Atlassian - "агенты внутри потока работы компании". Подробнее я разбирал в отдельной статье в своем блоге tellmeabout.tech
3️⃣ Cursor и JetBrains сильнее играют в IDE-first модель
Cursor делает ставку на background agents и удаленные среды, где агент работает в отдельной ветке. Junie от JetBrains встроен в IDE и опирается на привычную среду разработки, инспекции, тесты и контекст проекта. Их поле боя - developer experience: где инженер читает код, смотрит diff и принимает решение.
4️⃣ OpenAI/Codex и Devin-подобные агенты идут еще более agent-first путем
Там главным интерфейсом становится не репозиторий, Jira или IDE, а сам агент как рабочая единица: получил задачу, поднял среду, изменил код, проверил, вернул PR.
В общем, видно, что все основные игроки видят тренды и пытаются ухватить их за хвост, но каждый по своему. Вот GitLab связывает агентность не только с coding assistant, а с Git, CI/CD, governance, data model, pricing и оргструктурой. И в этой модели мы видим как роль инженера смещается. Меньше ценности в том, чтобы руками выполнить каждое действие. Больше - в том, чтобы поставить intent, собрать контекст, определить ограничения, построить проверку, принять архитектурное решение и удержать качество при большей скорости изменений.
Ну и идет большая борьба за тем, кто займет нишу control plane.
- У GitHub - игра вокруг PR и репозитория.
- У Atlassian - игра вокруг задач и организационного знания.
- У Cursor и JetBrains - игра вокруг IDE.
- У OpenAI/Codex - игра вокруг агента как нового рабочего интерфейса.
А GitLab пытается занять самое широкое место: control plane для всего software lifecycle в enterprise. Ставка сильная, но риск тоже большой. В агентной разработке главный вопрос в том, а выдержит ли ваша инженерная система скорость, которую создают агенты?
#AI #AI4SDLC #Engineering #DevSecOps #Management #Architecture
В прошлой части я разбирал GitLab Act 2 как попытку перестроить DevSecOps-платформу под агентную разработку: отмасштабировать Git под машинное использование, реализовать оркестрацию всего жизненного цикла, собрать контекстный граф, встроить governance и реализовать гибридную модель работы human/agent/autonomous. А в этом посте я хотел сравнить это с тем, что делают другие платформы и насколько совпадает курс.
TLDR;
Курс совпадает сильно, но разница в том, из какой точки каждый игрок пытается стать control plane для агентной разработки.
Ну а дальше давайте посмотрим на остальных игроков
1️⃣ GitHub
GitHub идет очень близко, но с другой оптикой. Copilot coding agent уже работает как асинхронный участник GitHub flow: ему можно назначить issue, он работает в среде на базе GitHub Actions, пушит коммиты в draft PR, а человек ревьюит результат. А Agent HQ прямо описывает GitHub как mission control для разных агентов: Copilot, OpenAI Codex, Claude, Google, Cognition и других. Ставка GitHub - оставить привычные primitives: issues, pull requests, Actions, branch protections, audit, но сделать агентов native внутри процесса. Подробнее я разбирал в отдельной статье в своем блоге tellmeabout.tech
2️⃣ Atlassian
Atlassian смотрит на ту же задачу через workflow и корпоративный контекст. Rovo Dev живет рядом с Jira, Confluence, Bitbucket и GitHub, а сильная сторона Atlassian - Teamwork Graph: связь задач, требований, документации, командного знания и кода. Если GitHub говорит "агенты внутри репозитория и PR", Atlassian - "агенты внутри потока работы компании". Подробнее я разбирал в отдельной статье в своем блоге tellmeabout.tech
3️⃣ Cursor и JetBrains сильнее играют в IDE-first модель
Cursor делает ставку на background agents и удаленные среды, где агент работает в отдельной ветке. Junie от JetBrains встроен в IDE и опирается на привычную среду разработки, инспекции, тесты и контекст проекта. Их поле боя - developer experience: где инженер читает код, смотрит diff и принимает решение.
4️⃣ OpenAI/Codex и Devin-подобные агенты идут еще более agent-first путем
Там главным интерфейсом становится не репозиторий, Jira или IDE, а сам агент как рабочая единица: получил задачу, поднял среду, изменил код, проверил, вернул PR.
В общем, видно, что все основные игроки видят тренды и пытаются ухватить их за хвост, но каждый по своему. Вот GitLab связывает агентность не только с coding assistant, а с Git, CI/CD, governance, data model, pricing и оргструктурой. И в этой модели мы видим как роль инженера смещается. Меньше ценности в том, чтобы руками выполнить каждое действие. Больше - в том, чтобы поставить intent, собрать контекст, определить ограничения, построить проверку, принять архитектурное решение и удержать качество при большей скорости изменений.
Ну и идет большая борьба за тем, кто займет нишу control plane.
- У GitHub - игра вокруг PR и репозитория.
- У Atlassian - игра вокруг задач и организационного знания.
- У Cursor и JetBrains - игра вокруг IDE.
- У OpenAI/Codex - игра вокруг агента как нового рабочего интерфейса.
А GitLab пытается занять самое широкое место: control plane для всего software lifecycle в enterprise. Ставка сильная, но риск тоже большой. В агентной разработке главный вопрос в том, а выдержит ли ваша инженерная система скорость, которую создают агенты?
#AI #AI4SDLC #Engineering #DevSecOps #Management #Architecture
Telegram
Книжный куб
[1/2] GitLab Act 2: зачем GitLab перестраивает разработку под агентов (Рубрика #AI4SDLC)
Разбирался с GitLab Act 2. Формально это письмо CEO про новый этап компании: фокус, реструктуризацию, AI и DevSecOps. Но важнее другое: GitLab описывает не набор AI…
Разбирался с GitLab Act 2. Формально это письмо CEO про новый этап компании: фокус, реструктуризацию, AI и DevSecOps. Но важнее другое: GitLab описывает не набор AI…
👍8🔥8❤3
Thinking Machines: зачем AI-моделям учиться взаимодействовать в реальном времени (Рубрика #AI)
Разбирался со статьей Thinking Machines (это компания Миры Муратти, бывшей CTO OpenAI) про interaction models, в которой авторы говорят о том, что сам способ общения с AI становится ограничением. Сейчас обычная схема пошагового взаимодействия выглядит так: человек задал запрос, модель подумала, модель ответила. Даже с голосом, камерой или agent harness, внутри часто та же логика. Thinking Machines называет это collaboration bottleneck. Проблема не только в интеллекте модели, а в узком канале взаимодействия. В реальной работе люди перебивают, уточняют, показывают на объект и постепенно выясняют, что нужно сделать.
И ребята предлагают альтернативный подход - сделать интерактивность частью возможностей модели, а не прикручивать внешней обвязкой. Сейчас real-time системы часто используют VAD, dialog management, ASR/TTS и правила interruption handling. По мнению Thinking Machines, такой harness плохо масштабируется: интеллект растет в модели, а интерактивность остается снаружи (тут они упоминают статью "The Bitter Lesson" Ричарда Саттона, одного из основоположников Reinforcement Learning).
В итоге, они натренировали interaction model, которая воспринимает аудио, видео и текст как непрерывные потоки. Research preview называется
Архитектура двухслойная. Interaction model рядом с пользователем: слушает, смотрит, отвечает, удерживает контекст. Тяжелую работу - reasoning, tools, browsing, agentic workflow - она делегирует background model. Та работает асинхронно, а interaction model встраивает результат обратно в диалог. Измеряют это отдельно. FD-bench проверяет interruption, backchannel, чужую речь на фоне и turn-taking latency. Audio MultiChallenge смотрит на instruction following в аудио-задачах. Внутренние
Пока эти interaction models находятся в research preview и не являются массовым продуктом. Thinking Machines пишет, что откроет limited research preview в ближайшие месяцы, а более широкий релиз планирует позже в 2026 году. Дальше они планируют масштабировать модель, улучшать background agents, управлять контекстом в длинных сессиях, повышать надежность при latency и развивать safety для real-time multimodal interfaces. Еще они запустили interactivity research grants: гранты по $100k и $25k Tinker credits для работ про evals, safety, generative UI и steering агентов. В анонсе дедлайн - 19 июня 2026.
P.S.
У компании Thinking Machines уже есть продукт в GA, который называется Tinker - это training API для fine-tuning open-source моделей через LoRA. Так что верим, что и interaction models скоро станут доступны в виде публичного продукта:) И тогда мы сможем проверить тезис о том, что следующий важный сдвиг будет не только в reasoning и agents, но и в интерфейсе: модели начнут работать рядом с человеком в общем потоке времени.
#AI #Engineering #Research #Product #Architecture #Software
Разбирался со статьей Thinking Machines (это компания Миры Муратти, бывшей CTO OpenAI) про interaction models, в которой авторы говорят о том, что сам способ общения с AI становится ограничением. Сейчас обычная схема пошагового взаимодействия выглядит так: человек задал запрос, модель подумала, модель ответила. Даже с голосом, камерой или agent harness, внутри часто та же логика. Thinking Machines называет это collaboration bottleneck. Проблема не только в интеллекте модели, а в узком канале взаимодействия. В реальной работе люди перебивают, уточняют, показывают на объект и постепенно выясняют, что нужно сделать.
И ребята предлагают альтернативный подход - сделать интерактивность частью возможностей модели, а не прикручивать внешней обвязкой. Сейчас real-time системы часто используют VAD, dialog management, ASR/TTS и правила interruption handling. По мнению Thinking Machines, такой harness плохо масштабируется: интеллект растет в модели, а интерактивность остается снаружи (тут они упоминают статью "The Bitter Lesson" Ричарда Саттона, одного из основоположников Reinforcement Learning).
В итоге, они натренировали interaction model, которая воспринимает аудио, видео и текст как непрерывные потоки. Research preview называется
TML-Interaction-Small: 276B MoE, около 12B active parameters. Модель обучалась с нуля под real-time interaction. Главный технический прием - time-aligned micro-turns. Вход и выход режутся на куски примерно по 200 мс; в каждый micro-turn попадают аудио, видео, текст и ответ модели. Модель живет в потоке времени, а не ждет полного turn'а.Архитектура двухслойная. Interaction model рядом с пользователем: слушает, смотрит, отвечает, удерживает контекст. Тяжелую работу - reasoning, tools, browsing, agentic workflow - она делегирует background model. Та работает асинхронно, а interaction model встраивает результат обратно в диалог. Измеряют это отдельно. FD-bench проверяет interruption, backchannel, чужую речь на фоне и turn-taking latency. Audio MultiChallenge смотрит на instruction following в аудио-задачах. Внутренние
TimeSpeak и CueSpeak проверяют реакцию в нужный момент. Для visual proactivity адаптируют RepCount-A, ProactiveVideoQA и Charades.Пока эти interaction models находятся в research preview и не являются массовым продуктом. Thinking Machines пишет, что откроет limited research preview в ближайшие месяцы, а более широкий релиз планирует позже в 2026 году. Дальше они планируют масштабировать модель, улучшать background agents, управлять контекстом в длинных сессиях, повышать надежность при latency и развивать safety для real-time multimodal interfaces. Еще они запустили interactivity research grants: гранты по $100k и $25k Tinker credits для работ про evals, safety, generative UI и steering агентов. В анонсе дедлайн - 19 июня 2026.
P.S.
У компании Thinking Machines уже есть продукт в GA, который называется Tinker - это training API для fine-tuning open-source моделей через LoRA. Так что верим, что и interaction models скоро станут доступны в виде публичного продукта:) И тогда мы сможем проверить тезис о том, что следующий важный сдвиг будет не только в reasoning и agents, но и в интерфейсе: модели начнут работать рядом с человеком в общем потоке времени.
#AI #Engineering #Research #Product #Architecture #Software
Thinking Machines Lab
Interaction Models: A Scalable Approach to Human-AI Collaboration
Interaction models move beyond turn-based AI interfaces by handling multimodal, real-time collaboration natively across audio, video, and text.
👍9❤3🔥3
SWE-rebench: Lessons from Evaluating Coding Agents — Ibragim Badertdinov, Nebius (Рубрика #AI4SDLC)
Посмотрел короткий доклад Ibragim Badertdinov из Nebius про SWE-rebench, в котором речь идет про то, как честно понять, что coding agent действительно умеет решать software engineering задачи, а не просто красиво проходит знакомый benchmark.
Главная проблема старых и статичных бенчмарков в том, что они быстро перестают быть свежими. Задачи лежат в публичном доступе, попадают в обучающие данные, вокруг них появляются подсказки, scaffolding, retry-циклы и неочевидная подгонка. В итоге resolved rate может отражать не только способность модели разбираться в коде, но и contamination, инженерную обвязку вокруг модели или удачный запуск.
SWE-rebench пытается поправить именно это. Идея в том, чтобы регулярно собирать свежие GitHub-issues и оценивать агентов в более production-похожем режиме. Агенту нужно не ответить на вопрос, а пройти маленький цикл разработки: понять issue, разобраться в репозитории, воспроизвести проблему, изменить код, запустить проверки и отдать patch. Из доклада хорошо видно, насколько сложна сама инфраструктура оценки. Хорошая задача для benchmark-а не должна быть слишком размытой, слишком очевидной, слишком хрупкой или завязанной на нестабильные тесты. Иначе мы начинаем мерить шум: flaky environment, странный assert в тесте, недосказанный issue или случайную удачу агента. То есть хороший eval для agents становится похож на маленький стенд разработки, а не на набор задач из олимпиады.
Самая показательная часть - reward hacking. Badertdinov разбирает кейсы, где сильный агент не "пишет плохой код", а слишком хорошо использует доступные каналы. Сначала он находит будущую правку через
Еще один важный сдвиг - экономика. Для production-агентов мало знать средний resolved rate. Нужно смотреть tokens per problem, cost per problem, cached tokens, число попыток, SEM,
Отдельно интересно, что SWE-rebench - это не только leaderboard. На HuggingFace версия V1 содержит описание про 21,000+ интерактивных Python SWE-задач для RL-обучения агентов, а для версии V2 уже указаны 32,000+ окружений в 20 языках и 126,000+ дополнительных задач. То есть одна и та же pipeline становится и инструментом оценки, и фабрикой training environments.
В общем, если мы хотим запускать coding agents в реальной разработке, нужно мерить не только "решил или не решил". Нужно мерить свежесть задач, утечки, стоимость, воспроизводимость, надежность, ограничения окружения и поведение агента по шагам. И начинать можно с публичных бенчмарков, а потом переходить к замерам на внутренних задачах.
#AI #AI4SDLC #Engineering #Agents #Evals #DevTools #Software
Посмотрел короткий доклад Ibragim Badertdinov из Nebius про SWE-rebench, в котором речь идет про то, как честно понять, что coding agent действительно умеет решать software engineering задачи, а не просто красиво проходит знакомый benchmark.
Главная проблема старых и статичных бенчмарков в том, что они быстро перестают быть свежими. Задачи лежат в публичном доступе, попадают в обучающие данные, вокруг них появляются подсказки, scaffolding, retry-циклы и неочевидная подгонка. В итоге resolved rate может отражать не только способность модели разбираться в коде, но и contamination, инженерную обвязку вокруг модели или удачный запуск.
SWE-rebench пытается поправить именно это. Идея в том, чтобы регулярно собирать свежие GitHub-issues и оценивать агентов в более production-похожем режиме. Агенту нужно не ответить на вопрос, а пройти маленький цикл разработки: понять issue, разобраться в репозитории, воспроизвести проблему, изменить код, запустить проверки и отдать patch. Из доклада хорошо видно, насколько сложна сама инфраструктура оценки. Хорошая задача для benchmark-а не должна быть слишком размытой, слишком очевидной, слишком хрупкой или завязанной на нестабильные тесты. Иначе мы начинаем мерить шум: flaky environment, странный assert в тесте, недосказанный issue или случайную удачу агента. То есть хороший eval для agents становится похож на маленький стенд разработки, а не на набор задач из олимпиады.
Самая показательная часть - reward hacking. Badertdinov разбирает кейсы, где сильный агент не "пишет плохой код", а слишком хорошо использует доступные каналы. Сначала он находит будущую правку через
git log. После очистки history идет читать исходный issue и PR на GitHub. Когда веб-доступ ограничивают, пробует добраться до той же информации через curl. Урок здесь не в том, что модель "читерит" в человеческом смысле. Урок в том, что у агентной системы намного шире поверхность reward hacking. Если агент имеет терминал, сеть, историю репозитория и инструменты, то оценивать нужно не только финальный diff, но и траекторию: откуда он взял информацию, какие команды запускал, не использовал ли будущий ответ.Еще один важный сдвиг - экономика. Для production-агентов мало знать средний resolved rate. Нужно смотреть tokens per problem, cost per problem, cached tokens, число попыток, SEM,
pass@5 и стабильность между несколькими запусками. Один успешный прогон может быть удачей. Пять запусков уже показывают, насколько модель надежна, а не просто иногда попадает в цель.Отдельно интересно, что SWE-rebench - это не только leaderboard. На HuggingFace версия V1 содержит описание про 21,000+ интерактивных Python SWE-задач для RL-обучения агентов, а для версии V2 уже указаны 32,000+ окружений в 20 языках и 126,000+ дополнительных задач. То есть одна и та же pipeline становится и инструментом оценки, и фабрикой training environments.
В общем, если мы хотим запускать coding agents в реальной разработке, нужно мерить не только "решил или не решил". Нужно мерить свежесть задач, утечки, стоимость, воспроизводимость, надежность, ограничения окружения и поведение агента по шагам. И начинать можно с публичных бенчмарков, а потом переходить к замерам на внутренних задачах.
#AI #AI4SDLC #Engineering #Agents #Evals #DevTools #Software
YouTube
SWE-rebench: Lessons from Evaluating Coding Agents — Ibragim Badertdinov, Nebius
Claude Code solved SWE rebench tasks by reading git history to find the solution patch. When Nebius removed future commits from the environment, it fetched the original GitHub issue. When they blocked web fetch, it switched to curl, formatted the conversation…
❤8👍3🔥1
IDP is Dead? Нет, умирает монополия GUI (Рубрика #PlatformEngineering)
Написал тут эссе на тему того, как AI не просто меняет интерфейс платформенных продуктов, а саму их природу … и что с этим делать платформенным командам. Я много думал в последнее время на эту тему, а заодно разбирал кейсы Gitlab, Github, Atlassian
Само название статьи навеяно плеядой текстов с главным тезисом «SaaS is Dead», которые представляют провокационные эссе о том, что классический софт с кнопками и формами доживает последние годы, потому что человек перестаёт быть основным пользователем интерфейса. Этот текст — про то же самое, но развёрнутый туда, куда смотрят редко: внутрь компании, на внутренние инженерные платформы. На IDP (internal developer platform) во всей её полноте — IaaS, Managed Services и всё остальное направление платформенных сервисов для инженеров.
Основной тезис статьи прост: внутренняя платформа в том виде, в каком мы привыкли её строить — как продукт со своим GUI, своими сценариями и своим продакт-менеджером, который драйвит роадмап, — переживает ровно тот же перелом, что и внешний SaaS. И большинство платформенных команд этого пока не замечают, потому что заняты не тем.
В статье я попробовал ответить на вопросы куда движутся платформы разработки, почему и что со всем этим делать. Подробнее можно прочитать в моем блоге
#AI #AI4SDLC #Engineering #DevSecOps #Management #Architecture
Написал тут эссе на тему того, как AI не просто меняет интерфейс платформенных продуктов, а саму их природу … и что с этим делать платформенным командам. Я много думал в последнее время на эту тему, а заодно разбирал кейсы Gitlab, Github, Atlassian
Само название статьи навеяно плеядой текстов с главным тезисом «SaaS is Dead», которые представляют провокационные эссе о том, что классический софт с кнопками и формами доживает последние годы, потому что человек перестаёт быть основным пользователем интерфейса. Этот текст — про то же самое, но развёрнутый туда, куда смотрят редко: внутрь компании, на внутренние инженерные платформы. На IDP (internal developer platform) во всей её полноте — IaaS, Managed Services и всё остальное направление платформенных сервисов для инженеров.
Основной тезис статьи прост: внутренняя платформа в том виде, в каком мы привыкли её строить — как продукт со своим GUI, своими сценариями и своим продакт-менеджером, который драйвит роадмап, — переживает ровно тот же перелом, что и внешний SaaS. И большинство платформенных команд этого пока не замечают, потому что заняты не тем.
В статье я попробовал ответить на вопросы куда движутся платформы разработки, почему и что со всем этим делать. Подробнее можно прочитать в моем блоге
#AI #AI4SDLC #Engineering #DevSecOps #Management #Architecture
Medium
IDP is Dead? Нет, умирает монополия GUI
В этой статье я попробую разобраться с тем как AI не просто меняет интерфейс платформенных продуктов, а саму их природу … и что с этим…
👍16❤4🔥3👏2
BDD, ADR, PRD, WTF: Capturing Decisions for Humans and AI Alike — Michal Cichra, Safe Intelligence (Рубрика #AI4SDLC)
Разбирался с докладом Michal Cichra из Safe Intelligenc, с которым он выступал на AI Engineer Europe 2026 в Лондоне 8-10 апреля 2026. Доклад мне понравился тем, что автор рассмотрел как агенты ломают неявные договоренности команд и что с этим делать. Например, человек может помнить, почему мы выбрали именно такую границу сервиса, почему не стали тащить зависимость в core, почему этот edge case важен для продукта, а тот можно отложить. Агент этого не помнит. Новый инженер через три месяца тоже часто не помнит. А markdown-спека, которая лежит отдельно от кода и проверок, быстро превращается в музей намерений.
Главная мысль доклада, как я ее понял: команде нужно фиксировать не только требования, но и решения. Причем так, чтобы их могли читать люди, использовать AI-агенты и проверять автоматические контуры. Здесь хорошо складываются три знакомых артефакта, которые зрелые инженерные команды использовали и до AI
1️⃣ Product Requirements Document (
Какую проблему решаем, для кого, какие user journeys считаются критичными, что будет считаться успехом. Это не просто "описание фичи для менеджеров", а источник контекста о том, зачем вообще существует изменение.
2️⃣ Architecture Decision Record (
Какие варианты рассматривали, какой trade-off приняли, почему это решение сейчас лучше альтернатив, какие ограничения оно накладывает на будущую разработку. Для AI-агента это особенно важно: иначе он будет оптимизировать локальный diff, не понимая архитектурной цены.
3️⃣ Behavior-Driven Development (
Хороший сценарий на человеческом языке описывает не внутреннюю реализацию, а ожидаемый outcome: given конкретный контекст, when происходит действие, then система должна вести себя так-то. В идеале это еще и executable check, а не просто красивая формулировка в wiki
Получается связка:
И вот это, кажется, важнее самой аббревиатурной игры в названии доклада. Проблема не в том, что у команд мало документов. Проблема в том, что документы часто не являются рабочим контуром разработки. Если PRD никак не связан с acceptance scenarios, ADR не виден агенту в момент изменения кода, а BDD-сценарии не запускаются в CI, то система живет в двух реальностях. В одной реальности у нас есть красивые намерения. В другой - агент или человек быстро меняет код и проходит пару локальных тестов.
Cichra делает акцент именно на этом разрыве: prompt-based workflow может быть продуктивным, но плохо сохраняет architectural consistency, boundaries и reviewability на масштабе. Поэтому нужны machine-readable specifications, ADR и closed testing loops. Мне кажется, это практичная мысль для команд, которые пробуют coding agents не как игрушку, а как часть SDLC.
Review в таком мире должен проверять не только "хороший ли diff". Он должен отвечать на вопросы: соответствует ли изменение исходному product intent, не нарушает ли оно уже принятое архитектурное решение, покрыто ли важное поведение проверяемым сценарием, есть ли evidence, что система действительно ведет себя как задумано. И это меняет роль документации. Она перестает быть архивом, который открывают перед квартальным планированием. Она становится интерфейсом между людьми, агентами и проверками.
Практически это можно начать легковесно. Для важной фичи держать рядом короткий PRD с problem/goal/user journeys. Для нетривиальных технических решений писать ADR не на десять страниц, а на один экран: context, decision, consequences. Для критических сценариев добавлять BDD-like acceptance checks и запускать их там же, где команда уже проверяет код. Важен не формат ради формата. Важно, чтобы решение можно было восстановить через несколько недель, дать его агенту как контекст и проверить, что реализация не уехала от исходного смысла.
#AI #AI4SDLC #Engineering #Architecture #Software #DevTools
Разбирался с докладом Michal Cichra из Safe Intelligenc, с которым он выступал на AI Engineer Europe 2026 в Лондоне 8-10 апреля 2026. Доклад мне понравился тем, что автор рассмотрел как агенты ломают неявные договоренности команд и что с этим делать. Например, человек может помнить, почему мы выбрали именно такую границу сервиса, почему не стали тащить зависимость в core, почему этот edge case важен для продукта, а тот можно отложить. Агент этого не помнит. Новый инженер через три месяца тоже часто не помнит. А markdown-спека, которая лежит отдельно от кода и проверок, быстро превращается в музей намерений.
Главная мысль доклада, как я ее понял: команде нужно фиксировать не только требования, но и решения. Причем так, чтобы их могли читать люди, использовать AI-агенты и проверять автоматические контуры. Здесь хорошо складываются три знакомых артефакта, которые зрелые инженерные команды использовали и до AI
1️⃣ Product Requirements Document (
PRD) отвечает за product intentКакую проблему решаем, для кого, какие user journeys считаются критичными, что будет считаться успехом. Это не просто "описание фичи для менеджеров", а источник контекста о том, зачем вообще существует изменение.
2️⃣ Architecture Decision Record (
ADR) фиксирует архитектурный выборКакие варианты рассматривали, какой trade-off приняли, почему это решение сейчас лучше альтернатив, какие ограничения оно накладывает на будущую разработку. Для AI-агента это особенно важно: иначе он будет оптимизировать локальный diff, не понимая архитектурной цены.
3️⃣ Behavior-Driven Development (
BDD) связывает намерение с поведениемХороший сценарий на человеческом языке описывает не внутреннюю реализацию, а ожидаемый outcome: given конкретный контекст, when происходит действие, then система должна вести себя так-то. В идеале это еще и executable check, а не просто красивая формулировка в wiki
Получается связка:
why -> decision -> expected behavior -> verification.И вот это, кажется, важнее самой аббревиатурной игры в названии доклада. Проблема не в том, что у команд мало документов. Проблема в том, что документы часто не являются рабочим контуром разработки. Если PRD никак не связан с acceptance scenarios, ADR не виден агенту в момент изменения кода, а BDD-сценарии не запускаются в CI, то система живет в двух реальностях. В одной реальности у нас есть красивые намерения. В другой - агент или человек быстро меняет код и проходит пару локальных тестов.
Cichra делает акцент именно на этом разрыве: prompt-based workflow может быть продуктивным, но плохо сохраняет architectural consistency, boundaries и reviewability на масштабе. Поэтому нужны machine-readable specifications, ADR и closed testing loops. Мне кажется, это практичная мысль для команд, которые пробуют coding agents не как игрушку, а как часть SDLC.
Review в таком мире должен проверять не только "хороший ли diff". Он должен отвечать на вопросы: соответствует ли изменение исходному product intent, не нарушает ли оно уже принятое архитектурное решение, покрыто ли важное поведение проверяемым сценарием, есть ли evidence, что система действительно ведет себя как задумано. И это меняет роль документации. Она перестает быть архивом, который открывают перед квартальным планированием. Она становится интерфейсом между людьми, агентами и проверками.
Практически это можно начать легковесно. Для важной фичи держать рядом короткий PRD с problem/goal/user journeys. Для нетривиальных технических решений писать ADR не на десять страниц, а на один экран: context, decision, consequences. Для критических сценариев добавлять BDD-like acceptance checks и запускать их там же, где команда уже проверяет код. Важен не формат ради формата. Важно, чтобы решение можно было восстановить через несколько недель, дать его агенту как контекст и проверить, что реализация не уехала от исходного смысла.
#AI #AI4SDLC #Engineering #Architecture #Software #DevTools
YouTube
BDD, ADR, PRD, WTF: Capturing Decisions for Humans and AI Alike — Michal Cichra, Safe Intelligence
"One thing harder than reading AI code is reading AI tests." Mikuel from Safe Intelligence argues spec driven development leaves a loop open: you have a markdown spec, but how do you know the product actually behaves that way? His answer is Cucumber, nearly…
❤9🔥9👍4
Building OpenCode with Dax Raad: разговор с создателем open-source coding agent'а (Рубрика #AI4SDLC)
Посмотрел свежий выпуск The Pragmatic Engineer, где Gergely Orosz разговаривает с Dax Raad, создателем OpenCode. Выпуск интересен не только историей продукта. Это редкий случай, когда автор одного из самых быстрорастущих AI coding tools последовательно отказывается продавать магию и говорит про AI с заметным скептицизмом.
Но начать надо с того, что OpenCode - это open-source coding agent, который начинался как terminal-based инструмент, а потом дорос и до GUI. По словам Dax, продукт вырос примерно с 650 тысяч до почти 8 миллионов MAU за несколько месяцев, а ежедневно им пользуется около миллиона человек. Цифры впечатляют, но история за ними интереснее.
1️⃣ Самый показательный эпизод - блокировка от Anthropic. Когда Anthropic закрыла OpenCode возможность работать через подписки Claude, со стороны это выглядело как угроза существованию продукта. Dax описывает ровно обратное: команда развернулась к OpenAI и другим провайдерам моделей, и этот эпизод стал ускорителем роста, а не ударом. Урок, который Dax из этого выводит, звучит почти как продуктовый манифест: правильное позиционирование важнее скорости исполнения. OpenCode выиграл не потому, что его harness был лучшим - Dax честно признает, что первые месяцы тот был просто good enough. Он выиграл, потому что первым занял категорию open-source coding agent, которую никто не успел застолбить. "Get positioning right and the world just keeps handing you wins" - его формулировка. Сначала позиция и market share, потом дошлифовка качества.
2️⃣ Про бизнес-модель он тоже рассказывает достаточно прямо. Зарабатывает компания через OpenCode Zen, и Dax спокойно раскладывает экономику inference: GPU - это капитальный актив, который амортизируется, а токены продаются, по его оценке, с маржой до 90% в зависимости от модели. На фоне разговоров про "AI убыточен для всех" полезная оптика, хотя стоит помнить, что это оценка человека, который на inference зарабатывает.
3️⃣ Самая горячая часть выпуска посвящена продуктивности. Dax говорит примерно так: до AI он тратил 95% энергии на размышления о том, что делать, и 5% на само исполнение. Сейчас - 96% на размышления и 4% на исполнение. Формально улучшение, но день ко дню работа ощущается такой же тяжелой. AI убирает doing, но не убирает thinking, а узким местом всегда было именно мышление. Уверенные предсказания о будущем AI он вообще называет формой self-reassurance: люди обычно предсказывают преимущество для собственной группы.
4️⃣ Отдельно мне понравился блок про инженерную культуру. Dax описывает картину, которая многим знакома: инженеры, которым важно качество, тонут в slop PRs от коллег, которым оно не важно, и выгорают на разгребании. Второе наблюдение тоньше: AI снимает психологическое трение - чувство вины за срезанный угол, и tech debt начинает копиться незаметно. Но есть и симметричный плюс: рефакторинг агентами стал дешевым, и этим стоит пользоваться агрессивнее, чем мы привыкли. Забавно, что в этой логике возвращаются "энтерпрайзные" паттерны вроде domain-driven design: им снова находится применение как guardrails - и для джунов, и для агентов.
5️⃣ Карьерный совет Dax простой: future-proof комбинация - это солидные знания в software engineering плюс глубокая доменная экспертиза. Инженеры систематически недооценивают вторую часть.
Для меня главный вывод такой: когда создатель инструмента, выросшего на волне AI coding, говорит, что AI меняет меньше, чем кажется, это стоит слушать внимательнее, чем презентации вендоров. Узкое место смещается не в генерацию кода, а в мышление, качество и владение доменом. Туда и стоит инвестировать.
#AI #AI4SDLC #Engineering #Management #Product #Software #Architecture
Посмотрел свежий выпуск The Pragmatic Engineer, где Gergely Orosz разговаривает с Dax Raad, создателем OpenCode. Выпуск интересен не только историей продукта. Это редкий случай, когда автор одного из самых быстрорастущих AI coding tools последовательно отказывается продавать магию и говорит про AI с заметным скептицизмом.
Но начать надо с того, что OpenCode - это open-source coding agent, который начинался как terminal-based инструмент, а потом дорос и до GUI. По словам Dax, продукт вырос примерно с 650 тысяч до почти 8 миллионов MAU за несколько месяцев, а ежедневно им пользуется около миллиона человек. Цифры впечатляют, но история за ними интереснее.
1️⃣ Самый показательный эпизод - блокировка от Anthropic. Когда Anthropic закрыла OpenCode возможность работать через подписки Claude, со стороны это выглядело как угроза существованию продукта. Dax описывает ровно обратное: команда развернулась к OpenAI и другим провайдерам моделей, и этот эпизод стал ускорителем роста, а не ударом. Урок, который Dax из этого выводит, звучит почти как продуктовый манифест: правильное позиционирование важнее скорости исполнения. OpenCode выиграл не потому, что его harness был лучшим - Dax честно признает, что первые месяцы тот был просто good enough. Он выиграл, потому что первым занял категорию open-source coding agent, которую никто не успел застолбить. "Get positioning right and the world just keeps handing you wins" - его формулировка. Сначала позиция и market share, потом дошлифовка качества.
2️⃣ Про бизнес-модель он тоже рассказывает достаточно прямо. Зарабатывает компания через OpenCode Zen, и Dax спокойно раскладывает экономику inference: GPU - это капитальный актив, который амортизируется, а токены продаются, по его оценке, с маржой до 90% в зависимости от модели. На фоне разговоров про "AI убыточен для всех" полезная оптика, хотя стоит помнить, что это оценка человека, который на inference зарабатывает.
3️⃣ Самая горячая часть выпуска посвящена продуктивности. Dax говорит примерно так: до AI он тратил 95% энергии на размышления о том, что делать, и 5% на само исполнение. Сейчас - 96% на размышления и 4% на исполнение. Формально улучшение, но день ко дню работа ощущается такой же тяжелой. AI убирает doing, но не убирает thinking, а узким местом всегда было именно мышление. Уверенные предсказания о будущем AI он вообще называет формой self-reassurance: люди обычно предсказывают преимущество для собственной группы.
4️⃣ Отдельно мне понравился блок про инженерную культуру. Dax описывает картину, которая многим знакома: инженеры, которым важно качество, тонут в slop PRs от коллег, которым оно не важно, и выгорают на разгребании. Второе наблюдение тоньше: AI снимает психологическое трение - чувство вины за срезанный угол, и tech debt начинает копиться незаметно. Но есть и симметричный плюс: рефакторинг агентами стал дешевым, и этим стоит пользоваться агрессивнее, чем мы привыкли. Забавно, что в этой логике возвращаются "энтерпрайзные" паттерны вроде domain-driven design: им снова находится применение как guardrails - и для джунов, и для агентов.
5️⃣ Карьерный совет Dax простой: future-proof комбинация - это солидные знания в software engineering плюс глубокая доменная экспертиза. Инженеры систематически недооценивают вторую часть.
Для меня главный вывод такой: когда создатель инструмента, выросшего на волне AI coding, говорит, что AI меняет меньше, чем кажется, это стоит слушать внимательнее, чем презентации вендоров. Узкое место смещается не в генерацию кода, а в мышление, качество и владение доменом. Туда и стоит инвестировать.
#AI #AI4SDLC #Engineering #Management #Product #Software #Architecture
YouTube
Building OpenCode with Dax Raad
OpenCode is one of the fastest-growing AI developer tools around, surging in just a few months from roughly 650,000 monthly active users to nearly 8 million, and almost 1M daily active users.
In this episode of The Pragmatic Engineer Podcast, we meet Dax…
In this episode of The Pragmatic Engineer Podcast, we meet Dax…
🔥21❤11👍10
Turbo ML Conf 18 июля: приходите на State of AI4SDLC (Рубрика #AI4SDLC)
18 июля в Москве пройдет Turbo ML Conf - конференция Т-Банка для тех, кто расширяет границы ML и превращает идеи в работающие продукты. Я выступаю там с докладом “State of AI4SDLC: как AI сдвигает узкие места процессов разработки” - и заодно расскажу, почему туда стоит прийти на весь день.
Сначала про доклад. AI в разработке уже стал повседневностью: кодинг, ревью, планирование, дебаггинг. Но ускорение отдельных шагов само по себе не делает разработку быстрее - узкое место просто переезжает в другую часть процесса. Поговорим о том, как встроить это ускорение в цикл разработки: с понятными целями, контекстом, доверием к результату и измеримым эффектом. А в завершении обсудим будущее разработки с AI: evals, цели и AI-driven SDLC.
Теперь про конференцию. Это один насыщенный офлайн-день и три параллельных трека:
- Fundamental Advances & Exploratory R&D - архитектуры моделей, interpretability, safety, reasoning;
- Applied ML at Scale & Business Impact - внедрение ML в продукты, GenAI и пользовательский опыт;
- ML Infrastructure, Platforms & Engineering - данные, обучение, inference и инфраструктура. Собственно, мой доклад будет в этом треке
Мне нравится, что за один день можно пройти весь стек: от research до production и платформ. В программе много крутых додкладов, а также будет демо-зона с ML-продуктами и решениями партнеров (CV, RecSys, NLP), а также будет стенд с демками наших агентов, где я скорее всего и проведу часть времени после доклада. Ну и отдельно стоит отметить отличный нетворкинг - у нас собирается сильная аудитория - ML-инженеры, разработчики, исследователи и AI-продакты с опытом от двух лет. А вечером будет afterparty с DJ-сетом, где разговоры из кулуаров обычно и превращаются в самое ценное.
Когда и где: 18 июля, Москва, ДК “Серп и Молот”. Участие по заявке: мест ограниченное количество и заявки модерируются, так что лучше зарегистрироваться заранее.
Приходите послушать про AI4SDLC и поговорить про то, куда движется разработка с AI, - буду рад увидеться лично.
#AI #AI4SDLC #ML #Engineering #Conference #Software
18 июля в Москве пройдет Turbo ML Conf - конференция Т-Банка для тех, кто расширяет границы ML и превращает идеи в работающие продукты. Я выступаю там с докладом “State of AI4SDLC: как AI сдвигает узкие места процессов разработки” - и заодно расскажу, почему туда стоит прийти на весь день.
Сначала про доклад. AI в разработке уже стал повседневностью: кодинг, ревью, планирование, дебаггинг. Но ускорение отдельных шагов само по себе не делает разработку быстрее - узкое место просто переезжает в другую часть процесса. Поговорим о том, как встроить это ускорение в цикл разработки: с понятными целями, контекстом, доверием к результату и измеримым эффектом. А в завершении обсудим будущее разработки с AI: evals, цели и AI-driven SDLC.
Теперь про конференцию. Это один насыщенный офлайн-день и три параллельных трека:
- Fundamental Advances & Exploratory R&D - архитектуры моделей, interpretability, safety, reasoning;
- Applied ML at Scale & Business Impact - внедрение ML в продукты, GenAI и пользовательский опыт;
- ML Infrastructure, Platforms & Engineering - данные, обучение, inference и инфраструктура. Собственно, мой доклад будет в этом треке
Мне нравится, что за один день можно пройти весь стек: от research до production и платформ. В программе много крутых додкладов, а также будет демо-зона с ML-продуктами и решениями партнеров (CV, RecSys, NLP), а также будет стенд с демками наших агентов, где я скорее всего и проведу часть времени после доклада. Ну и отдельно стоит отметить отличный нетворкинг - у нас собирается сильная аудитория - ML-инженеры, разработчики, исследователи и AI-продакты с опытом от двух лет. А вечером будет afterparty с DJ-сетом, где разговоры из кулуаров обычно и превращаются в самое ценное.
Когда и где: 18 июля, Москва, ДК “Серп и Молот”. Участие по заявке: мест ограниченное количество и заявки модерируются, так что лучше зарегистрироваться заранее.
Приходите послушать про AI4SDLC и поговорить про то, куда движется разработка с AI, - буду рад увидеться лично.
#AI #AI4SDLC #ML #Engineering #Conference #Software
👍7❤5🔥4
State of AI4SDLC на AI Dev Conf: как AI свдигает узкие места процессов разработки (Рубрика #AI4SDLC)
Появилась запись моего доклада с AI Dev Conf 2026. Главная мысль простая. AI-ассистенты сделали кодинг быстрее, но это не ускорило разработку целиком. Узкое место не исчезло, а переехало вверх по процессу: к качеству постановки задачи, к проверке результата и к операционной модели инженерной организации.
В докладе разбираю этот сдвиг по шагам:
- почему генерация кода перестает быть бутылочным горлышком;
- зачем спецификация и контекст становятся важнее скорости набора кода;
- какую роль начинают играть evals как способ доверять результату;
- что меняется при переходе от ассистентов, которые помогают человеку, к агентам, которые сами двигают задачу;
- и куда в итоге смещается работа инженера и инженерного руководителя.
#AI #AI4SDLC #Engineering #Agents #Conference #Software #Management
Появилась запись моего доклада с AI Dev Conf 2026. Главная мысль простая. AI-ассистенты сделали кодинг быстрее, но это не ускорило разработку целиком. Узкое место не исчезло, а переехало вверх по процессу: к качеству постановки задачи, к проверке результата и к операционной модели инженерной организации.
В докладе разбираю этот сдвиг по шагам:
- почему генерация кода перестает быть бутылочным горлышком;
- зачем спецификация и контекст становятся важнее скорости набора кода;
- какую роль начинают играть evals как способ доверять результату;
- что меняется при переходе от ассистентов, которые помогают человеку, к агентам, которые сами двигают задачу;
- и куда в итоге смещается работа инженера и инженерного руководителя.
#AI #AI4SDLC #Engineering #Agents #Conference #Software #Management
YouTube
Александр Поломодов — State of AI4SDLC как AI сдвигает узкие места процессов разработки
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
👍8🔥5❤3🗿1
What if the network was the sandbox? — Remy Guercio, Tailscale (Рубрика #AI4SDLC)
Посмотрел этот доклад Remy Guercio из Tailscale с конфы AI Engineer, 1 июня 2026, где разговор шел про то, как запускать AI агентовв организацию, если им нужны ключи, доступы, MCP tools и иногда production-данные. Сам Remy Guercio занимается стратегическими проектам в Tailscale, который многие знают как "удобный VPN на WireGuard". Но сама компания давно позиционирует себя шире - как платформа для связи с нулевым доверием (zero trust) и основанная на identity. То есть сеть, где устройство, пользователь, workload или CI job подключаются не как безымянный IP, а как сущность с identity, группами, тегами и политиками доступа.
На этом фоне Tailscale теперь заходит в AI governance через Aperture. Это продукт, сейчас в beta, который работает как AI gateway: стоит между вашими агентами/LLM-клиентами и провайдерами моделей вроде OpenAI, Anthropic, Google или самостоятельно развернутых OpenAI-совместимых решений. И главная идея доклада такая: если сеть на базе WireGuard уже умеет надёжно понимать, кто именно делает запрос, зачем класть настоящий API key внутрь sandbox'а с агентом?
Обычная модель выглядит так. Мы запускаем агента в контейнере, VM, GitHub Actions runner или другом sandbox. Вроде бы он изолирован. Но чтобы он был полезным, мы кладем внутрь разрешения: API key к Anthropic/OpenAI, OAuth token, доступ к tool'ам, иногда секреты к внутренним сервисам. Получается странная конструкция: sandbox ограничивает среду исполнения кода, но access control живет внутри этой же среды. Если агент работает долго, утащит ключ, обойдет обертку или начнет ходить напрямую, sandbox уже мало помогает.
Guercio предлагает инверсию: вынести AuthN/AuthZ на сетевой слой. Агенту не дают настоящий ключ. Ему дают только
Это и есть "network as sandbox" в практическом смысле. Не "контейнеры больше не нужны", конечно. Контейнер или VM все еще нужны для filesystem, process isolation и выполнения кода. Но сетевой слой становится границей разрешений: кто может вызвать модель, какой агент может ходить к какому endpoint'у, сколько он может потратить, какие tool calls видны в аудите.
Что Tailscale предлагает из коробки.
1️⃣ Aperture как продукт: единый AI gateway для организации. Он убирает раздачу API keys по ноутбукам, devcontainer'ам и CI; маршрутизирует запросы к разным провайдерам по model name; логирует запросы, ответы, tool use, bash-команды, MCP-вызовы, токены и стоимость; позволяет задавать budgets, quotas, ограничения по пользователям, группам, агентам и моделям; умеет отправлять события во внешние системы через webhooks для security, audit и compliance.
2️⃣ Aperture CLI как open source tooling: launcher для coding agents, который конфигурирует Claude Code, Codex, Gemini CLI, OpenCode, GitHub Copilot CLI и другие инструменты на работу через Aperture. Важная деталь: это не новый coding agent, а слой настройки и подключения к gateway. Репозиторий открыт, но сам проект помечен как alpha.
3️⃣
Плюс у Tailscale открыт значительный кусок клиентского кода:
Почему это важно для production AI.
1) Это убирает проблему утекания ключей. Пока AI в компании живет как набор личных токенов в IDE, CI secrets и локальных конфигов, никакого production governance нет.
2) Это дает нормальную атрибуцию и наблюдаемость без переписывания агента. Для production мало знать, что "Claude что-то сделал". Нужно знать, какой пользователь, какой agent, какой CI workflow, какая модель, какой function call, какой MCP-запрос, какая bash-команда, сколько токенов, какая стоимость и какой результат.
3) Это делает AI rollout управляемым для security, platform и finance. Можно разрешить дешевую модель всем, дорогую — отдельным группам, background agents — с жесткими лимитами, PR review bot — только в конкретном repo scope, а подозрительные tool calls отправлять webhook'ом в security-систему.
4) Это показывает, куда движется инфраструктура агентов. Production AI — это не только evals, prompts и RAG. Это еще и identity, policy, audit, cost control, routing, secrets management и observability.
Главный вывод для меня: sandbox для агента — это не только место, где он запускается. Это еще и место, где живут его разрешения. Если разрешения лежат внутри sandbox'а, агент потенциально владеет собственными ключами. Если разрешения вынесены в identity-aware network и gateway, агент становится гораздо менее опасным: он может действовать, но не может унести с собой право действовать.
#AI #AI4SDLC #Security #PlatformEngineering #DevOps #Architecture
Посмотрел этот доклад Remy Guercio из Tailscale с конфы AI Engineer, 1 июня 2026, где разговор шел про то, как запускать AI агентовв организацию, если им нужны ключи, доступы, MCP tools и иногда production-данные. Сам Remy Guercio занимается стратегическими проектам в Tailscale, который многие знают как "удобный VPN на WireGuard". Но сама компания давно позиционирует себя шире - как платформа для связи с нулевым доверием (zero trust) и основанная на identity. То есть сеть, где устройство, пользователь, workload или CI job подключаются не как безымянный IP, а как сущность с identity, группами, тегами и политиками доступа.
На этом фоне Tailscale теперь заходит в AI governance через Aperture. Это продукт, сейчас в beta, который работает как AI gateway: стоит между вашими агентами/LLM-клиентами и провайдерами моделей вроде OpenAI, Anthropic, Google или самостоятельно развернутых OpenAI-совместимых решений. И главная идея доклада такая: если сеть на базе WireGuard уже умеет надёжно понимать, кто именно делает запрос, зачем класть настоящий API key внутрь sandbox'а с агентом?
Обычная модель выглядит так. Мы запускаем агента в контейнере, VM, GitHub Actions runner или другом sandbox. Вроде бы он изолирован. Но чтобы он был полезным, мы кладем внутрь разрешения: API key к Anthropic/OpenAI, OAuth token, доступ к tool'ам, иногда секреты к внутренним сервисам. Получается странная конструкция: sandbox ограничивает среду исполнения кода, но access control живет внутри этой же среды. Если агент работает долго, утащит ключ, обойдет обертку или начнет ходить напрямую, sandbox уже мало помогает.
Guercio предлагает инверсию: вынести AuthN/AuthZ на сетевой слой. Агенту не дают настоящий ключ. Ему дают только
base_url на Aperture и, по сути, пустую заглушку вместо provider API key, чтобы существующий LLM-клиент продолжил работать. Сам Aperture живет в tailnet (Tailscale network), хранит ключи провайдерову себя, видит identity входящего соединения и решает: этому пользователю, устройству, CI job или tagged agent можно идти к такой модели, с таким лимитом и такими правилами. Если доступ запрещен или quota исчерпана, агенту нечего "попробовать в другом месте": ключа у него никогда не было.Это и есть "network as sandbox" в практическом смысле. Не "контейнеры больше не нужны", конечно. Контейнер или VM все еще нужны для filesystem, process isolation и выполнения кода. Но сетевой слой становится границей разрешений: кто может вызвать модель, какой агент может ходить к какому endpoint'у, сколько он может потратить, какие tool calls видны в аудите.
Что Tailscale предлагает из коробки.
1️⃣ Aperture как продукт: единый AI gateway для организации. Он убирает раздачу API keys по ноутбукам, devcontainer'ам и CI; маршрутизирует запросы к разным провайдерам по model name; логирует запросы, ответы, tool use, bash-команды, MCP-вызовы, токены и стоимость; позволяет задавать budgets, quotas, ограничения по пользователям, группам, агентам и моделям; умеет отправлять события во внешние системы через webhooks для security, audit и compliance.
2️⃣ Aperture CLI как open source tooling: launcher для coding agents, который конфигурирует Claude Code, Codex, Gemini CLI, OpenCode, GitHub Copilot CLI и другие инструменты на работу через Aperture. Важная деталь: это не новый coding agent, а слой настройки и подключения к gateway. Репозиторий открыт, но сам проект помечен как alpha.
3️⃣
tsnet как open source библиотека: Go-библиотека, позволяющая встроить Tailscale прямо в программу. То есть ваш внутренний MCP server, proxy, admin endpoint или собственный agent gateway может сам стать node'ой в tailnet и читать identity вызывающего клиента без отдельной OAuth-интеграции. Это сильная часть истории: Aperture — продукт, но underlying pattern можно повторять внутри своих платформенных сервисов.Плюс у Tailscale открыт значительный кусок клиентского кода:
tailscaled и tailscale CLI живут в GitHub-репозитории. Это не значит, что весь Tailscale как SaaS лежит open source, но для платформенных команд важно другое: примитивы вокруг клиента и tsnet можно изучать, расширять и использовать в своей инфраструктуре.Почему это важно для production AI.
1) Это убирает проблему утекания ключей. Пока AI в компании живет как набор личных токенов в IDE, CI secrets и локальных конфигов, никакого production governance нет.
2) Это дает нормальную атрибуцию и наблюдаемость без переписывания агента. Для production мало знать, что "Claude что-то сделал". Нужно знать, какой пользователь, какой agent, какой CI workflow, какая модель, какой function call, какой MCP-запрос, какая bash-команда, сколько токенов, какая стоимость и какой результат.
3) Это делает AI rollout управляемым для security, platform и finance. Можно разрешить дешевую модель всем, дорогую — отдельным группам, background agents — с жесткими лимитами, PR review bot — только в конкретном repo scope, а подозрительные tool calls отправлять webhook'ом в security-систему.
4) Это показывает, куда движется инфраструктура агентов. Production AI — это не только evals, prompts и RAG. Это еще и identity, policy, audit, cost control, routing, secrets management и observability.
Главный вывод для меня: sandbox для агента — это не только место, где он запускается. Это еще и место, где живут его разрешения. Если разрешения лежат внутри sandbox'а, агент потенциально владеет собственными ключами. Если разрешения вынесены в identity-aware network и gateway, агент становится гораздо менее опасным: он может действовать, но не может унести с собой право действовать.
#AI #AI4SDLC #Security #PlatformEngineering #DevOps #Architecture
YouTube
What if the network was the sandbox? — Remy Guercio, Tailscale
Standard sandboxing puts the API key inside the sandbox. The agent has the key, which it can exfiltrate, misuse, or — if it runs long enough — find creative ways to leverage beyond its intended scope. Remy Guercio from Tailscale argues that sandboxing conflates…
❤8👍7🔥5
SDLC с AI взгляд через метрики - Анна Громова @ AI Dev Conf (Рубрика #AI4SDLC)
Посмотрел майское выступление Анны Громовой из Т-Банка с конференции AI Dev Conf. Мы с Аней часто обсуждаем метрики эффективности AI по работе, поэтому мне особенно полезно, что появилась запись, на которую теперь можно давать ссылку: это актуальный и глубокий разбор того, как мы подходим к этой теме у себя в компании.
Главная мысль там очень практичная: AI в разработке нельзя нормально оценить, если вы не понимаете сам процесс поставки кода. Количество лицензий, MAU, запросов к ассистенту или сгенерированных строк может быть полезным сигналом adoption, но не отвечает на главный вопрос: стал ли SDLC быстрее, надежнее и дешевле для реального production-результата.
Аня начинает с фреймворков, которые многие знают по отдельности, но редко собирают вместе
- DORA - это метрики конвейера: lead time for changes, deployment frequency, recovery time, change failure rate; в докладе рядом с ними обсуждается и unplanned work. То есть как быстро и насколько стабильно команда довозит изменения до production.
- SPACE и DevEx добавляют человеческую сторону: удовлетворенность, коммуникации, flow, cognitive load, feedback loops. Потому что разработка - это не только pipeline, но и люди внутри него: ждут review, переключают контексты, ходят на встречи, разбираются с новым проектом и ищут доступы.
Кстати, я раньше уже подробно рассказывал про все эти подходы DORA, SPACE, DevEx.
Мне нравится, что в выступлении Аня не остановилась на теории, а показала реальные метрики: onboarding time, время до первого MR, pipeline time, testing time, review time, rework, размер MR, доля падающих pipeline, incident recovery, опросы разработчиков. То есть не у нас нет единой магической метрики продуктивности, а карта процесса, по которой можно искать узкие места.
Например, если вырос lead time, причина может быть не в том, что разработчики стали медленнее. Может оказаться, что у людей слишком долго оформляются доступы, документация плохо помогает при onboarding, новые end-to-end тесты замедлили pipeline или MR стали слишком большими и зависают на review.
И вот здесь AI становится интересным не как “ускоритель кодинга”, а как вмешательство в конкретные участки SDLC.
AI review может сократить ожидание первой реакции и часть рутинных итераций по стилю, опечаткам и простым багам. AI в дебаге проблем может быстрее сводить логи, код и симптомы к гипотезе о ключевой причине. Генерация юнит тестов закрывает скучную, но важную работу, до которой часто не доходят руки, и через это влияет на качество pipeline и change failure rate.
Но важная оговорка: если ускорить только написание кода, бутылочное горлышко просто переедет дальше. Сначала senior не успевает проверять сгенерированный код. Потом упираемся в флакающие тесты и CI/CD. Потом в тестовые окружения, релизный процесс или платформенные лимиты. AI не чинит слабую инженерную систему сам по себе, он часто просто ярче подсвечивает ее ограничения.
По словам Анны, в Т-Банке у AI-амбассадоров увидели снижение median merge time на 12% и lead time на 30%. Это не универсальный бенч и не обещание “просто добавьтеводы AI и получите минус 30%”: в докладе отдельно проговаривается, что за скобками остаются особенности репозиториев, связность и сложность кода. Но как пример правильного разговора про эффект AI это ценно: не “люди стали чаще нажимать кнопку”, а “что произошло с delivery-процессом”.
Из доклада ясно, что для осмысленного внедрения AI нужен baseline до старта, регулярный сбор метрик, связь количественных данных с опытом разработчиков и понимание, какую часть процесса мы действительно хотим улучшить. И еще важнее - не влюбляться в одну метрику. Adoption нужен, но сам по себе он ничего не доказывает. Throughput нужен, но без quality/risk можно просто быстрее производить проблемы. Экономика нужна, но без инженерного контекста легко начать оптимизировать стоимость токенов вместо стоимости результата.
Практически это означает: прежде чем спорить, какой AI-инструмент лучше, стоит честно описать свой SDLC. Где у вас теряется время? Где ломается feedback loop? Где review превращается в очередь? Где CI/CD съедает выигрыш от генерации кода? Где разработчики чувствуют cognitive load, а граф метрик показывает то же самое? Тогда разговор про AI становится взрослым. Не “магия ускорила разработку”, а “мы изменили конкретный участок инженерной системы, увидели такой эффект, проверили риски и поняли, где следующий bottleneck”.
#AI #AI4SDLC #Engineering #DevOps #Management #Metrics #Software #Processes
Посмотрел майское выступление Анны Громовой из Т-Банка с конференции AI Dev Conf. Мы с Аней часто обсуждаем метрики эффективности AI по работе, поэтому мне особенно полезно, что появилась запись, на которую теперь можно давать ссылку: это актуальный и глубокий разбор того, как мы подходим к этой теме у себя в компании.
Главная мысль там очень практичная: AI в разработке нельзя нормально оценить, если вы не понимаете сам процесс поставки кода. Количество лицензий, MAU, запросов к ассистенту или сгенерированных строк может быть полезным сигналом adoption, но не отвечает на главный вопрос: стал ли SDLC быстрее, надежнее и дешевле для реального production-результата.
Аня начинает с фреймворков, которые многие знают по отдельности, но редко собирают вместе
- DORA - это метрики конвейера: lead time for changes, deployment frequency, recovery time, change failure rate; в докладе рядом с ними обсуждается и unplanned work. То есть как быстро и насколько стабильно команда довозит изменения до production.
- SPACE и DevEx добавляют человеческую сторону: удовлетворенность, коммуникации, flow, cognitive load, feedback loops. Потому что разработка - это не только pipeline, но и люди внутри него: ждут review, переключают контексты, ходят на встречи, разбираются с новым проектом и ищут доступы.
Кстати, я раньше уже подробно рассказывал про все эти подходы DORA, SPACE, DevEx.
Мне нравится, что в выступлении Аня не остановилась на теории, а показала реальные метрики: onboarding time, время до первого MR, pipeline time, testing time, review time, rework, размер MR, доля падающих pipeline, incident recovery, опросы разработчиков. То есть не у нас нет единой магической метрики продуктивности, а карта процесса, по которой можно искать узкие места.
Например, если вырос lead time, причина может быть не в том, что разработчики стали медленнее. Может оказаться, что у людей слишком долго оформляются доступы, документация плохо помогает при onboarding, новые end-to-end тесты замедлили pipeline или MR стали слишком большими и зависают на review.
И вот здесь AI становится интересным не как “ускоритель кодинга”, а как вмешательство в конкретные участки SDLC.
AI review может сократить ожидание первой реакции и часть рутинных итераций по стилю, опечаткам и простым багам. AI в дебаге проблем может быстрее сводить логи, код и симптомы к гипотезе о ключевой причине. Генерация юнит тестов закрывает скучную, но важную работу, до которой часто не доходят руки, и через это влияет на качество pipeline и change failure rate.
Но важная оговорка: если ускорить только написание кода, бутылочное горлышко просто переедет дальше. Сначала senior не успевает проверять сгенерированный код. Потом упираемся в флакающие тесты и CI/CD. Потом в тестовые окружения, релизный процесс или платформенные лимиты. AI не чинит слабую инженерную систему сам по себе, он часто просто ярче подсвечивает ее ограничения.
По словам Анны, в Т-Банке у AI-амбассадоров увидели снижение median merge time на 12% и lead time на 30%. Это не универсальный бенч и не обещание “просто добавьте
Из доклада ясно, что для осмысленного внедрения AI нужен baseline до старта, регулярный сбор метрик, связь количественных данных с опытом разработчиков и понимание, какую часть процесса мы действительно хотим улучшить. И еще важнее - не влюбляться в одну метрику. Adoption нужен, но сам по себе он ничего не доказывает. Throughput нужен, но без quality/risk можно просто быстрее производить проблемы. Экономика нужна, но без инженерного контекста легко начать оптимизировать стоимость токенов вместо стоимости результата.
Практически это означает: прежде чем спорить, какой AI-инструмент лучше, стоит честно описать свой SDLC. Где у вас теряется время? Где ломается feedback loop? Где review превращается в очередь? Где CI/CD съедает выигрыш от генерации кода? Где разработчики чувствуют cognitive load, а граф метрик показывает то же самое? Тогда разговор про AI становится взрослым. Не “магия ускорила разработку”, а “мы изменили конкретный участок инженерной системы, увидели такой эффект, проверили риски и поняли, где следующий bottleneck”.
#AI #AI4SDLC #Engineering #DevOps #Management #Metrics #Software #Processes
YouTube
Анна Громова — SDLC с AI взгляд через метрики
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
❤17👍11🔥5🤔1
Agent-first IDP: как платформы к агентам готовят бигтехи и облака (Рубрика #PlatformEngineering)
Написал продолжение к эссе про внутренние платформы. В прошлый раз в тексте «IDP is Dead? Нет, умирает монополия GUI» я разбирал, почему внутренняя платформа теряет монополию своего GUI и превращается в платформу для агентов — слой возможностей, к которому обращаются не только люди, но и агенты. Это было про «почему». Новый текст — про «как».
И в новой статье я специально не ушёл в футурологию. Playbook собран на публичных инженерных материалах компаний, которые уже столкнулись с агентным потреблением платформ: внутренние платформы Block, Uber, LinkedIn, Spotify и доработки публичных облаков — AWS, Azure, Google Cloud. Логика простая: когда внутренние платформы бигтехов и облака независимо сходятся вокруг одних и тех же инженерных решений, это уже не мода, а новый слой платформенной архитектуры.
Из чего этот слой складывается:
- Уровни зрелости L0 → L4: от GUI-only до управляемой агентной поверхности;
- Три слоя, которые легко перепутать: модельный шлюз, инструментальный шлюз и реестр возможностей;
- Идентичность агента: агент — субъект доступа от имени пользователя, а не общий сервисный аккаунт «для AI»;
- Уровни доверия: read → recommend → act;
- Доменные агенты там, где сырой доступ к логам, IAM или SQL опасен;
- Evals и телеметрия агентных сценариев вместо MAU портала;
- Отдельная модель угроз: prompt injection, tool poisoning, data exfiltration и не только.
В конце я привожу примерный квартальный план на 30/60/90 дней и список того, чего делать точно не стоит.
Главный вывод такой: бигтехи и облака не дали готовую инструкцию, которую можно скопировать, но уже показали устойчивую архитектурную сходимость. Внутренним платформам не нужно изобретать этот путь заново — нужно признать, что их главный новый пользователь уже не открывает портал.
Подробнее можно прочитать в моем блоге
#AI #AI4SDLC #PlatformEngineering #Engineering #Architecture #Management
Написал продолжение к эссе про внутренние платформы. В прошлый раз в тексте «IDP is Dead? Нет, умирает монополия GUI» я разбирал, почему внутренняя платформа теряет монополию своего GUI и превращается в платформу для агентов — слой возможностей, к которому обращаются не только люди, но и агенты. Это было про «почему». Новый текст — про «как».
И в новой статье я специально не ушёл в футурологию. Playbook собран на публичных инженерных материалах компаний, которые уже столкнулись с агентным потреблением платформ: внутренние платформы Block, Uber, LinkedIn, Spotify и доработки публичных облаков — AWS, Azure, Google Cloud. Логика простая: когда внутренние платформы бигтехов и облака независимо сходятся вокруг одних и тех же инженерных решений, это уже не мода, а новый слой платформенной архитектуры.
Из чего этот слой складывается:
- Уровни зрелости L0 → L4: от GUI-only до управляемой агентной поверхности;
- Три слоя, которые легко перепутать: модельный шлюз, инструментальный шлюз и реестр возможностей;
- Идентичность агента: агент — субъект доступа от имени пользователя, а не общий сервисный аккаунт «для AI»;
- Уровни доверия: read → recommend → act;
- Доменные агенты там, где сырой доступ к логам, IAM или SQL опасен;
- Evals и телеметрия агентных сценариев вместо MAU портала;
- Отдельная модель угроз: prompt injection, tool poisoning, data exfiltration и не только.
В конце я привожу примерный квартальный план на 30/60/90 дней и список того, чего делать точно не стоит.
Главный вывод такой: бигтехи и облака не дали готовую инструкцию, которую можно скопировать, но уже показали устойчивую архитектурную сходимость. Внутренним платформам не нужно изобретать этот путь заново — нужно признать, что их главный новый пользователь уже не открывает портал.
Подробнее можно прочитать в моем блоге
#AI #AI4SDLC #PlatformEngineering #Engineering #Architecture #Management
Medium
Agent-first IDP: как платформы к агентам готовят бигтехи и облака
В прошлой статье я закончил тезисом: задача платформенной команды — не «прикрутить MCP», а превратить платформу в систему, пригодную для…
❤6🔥5👍2
Как я сейчас пишу longreads на важные для меня темы (Рубрика #Writing)
Решил поделиться рецептом того, как сейчас пишу важные и сложные для меня статьи на технические темы. Из последнего это статьи «IDP is Dead? Нет, умирает монополия GUI» и «Agent-first IDP: как платформы к агентам готовят бигтехи и облака».
- Для меня все начинается обычно с того, что какой-то вопрос становится достаточно важным с точки зрения работы или своего внутреннего проекта
- Дальше это все доходит до потребности с этим разобраться и выработать какой-то план или стратегию достижения цели
- Обычно у меня к тому моменту есть опыт + открытые вопросы + примерный план что делать, который я рассказывал людям, чье мнение и фидбек для меня ценны
- Дальше я ухожу делать deep research обычно сразу в трех инструментах от Anthropic, OpenAI и Perplexity - обычно у меня есть определенное мнение + research questions + опорные тезисы + статьи, которые я вкидываю как обязательные к рассмотрению
- Дальше изучаю результаты, делаю факт-чекинг и читаю/смотрю приведенные источники
- Обычно самое интересное рождается в тех местах, где разные сервисы расходятся - это повод задать доп. вопросы + попросить кросс-ревью
- Дальше у меня в голове собирается некоторый план того, как двигаться в нужную сторону и дальше я обычно пишу тезисный план, который отдаю внешнему сервису
- Дальше делаю ревью документа сам + несколько итераций ревью с разными моделями
- Потом делаю визуализации нужных моментов для финальной статьи - я очень люблю схемы и визуализацию основных моментов
На выходе у меня обычно получается md, pdf и html версия статьи, которую я финально прогоняю через ревью и корректирую если требуется. Ну и в самом финале идет публикация самой статьи, причем в зависимости от платформы это может быть как простой процесс, так и сложный (например, в Medium движке нет таблиц и других важных элментов, поэтому приходится много вставлять изображениями).
P.S.
Такой процесс помогает мне разбираться в теме и всего за часиков 8 рабочих можно сделать статью, которую я бы раньше писал неделю. Но основная ценность не просто в статье, а в интеграции новых знаний в свою картину мира - раньше это требовало сильно больше усилий.
#Writing #Research #Productivity
Решил поделиться рецептом того, как сейчас пишу важные и сложные для меня статьи на технические темы. Из последнего это статьи «IDP is Dead? Нет, умирает монополия GUI» и «Agent-first IDP: как платформы к агентам готовят бигтехи и облака».
- Для меня все начинается обычно с того, что какой-то вопрос становится достаточно важным с точки зрения работы или своего внутреннего проекта
- Дальше это все доходит до потребности с этим разобраться и выработать какой-то план или стратегию достижения цели
- Обычно у меня к тому моменту есть опыт + открытые вопросы + примерный план что делать, который я рассказывал людям, чье мнение и фидбек для меня ценны
- Дальше я ухожу делать deep research обычно сразу в трех инструментах от Anthropic, OpenAI и Perplexity - обычно у меня есть определенное мнение + research questions + опорные тезисы + статьи, которые я вкидываю как обязательные к рассмотрению
- Дальше изучаю результаты, делаю факт-чекинг и читаю/смотрю приведенные источники
- Обычно самое интересное рождается в тех местах, где разные сервисы расходятся - это повод задать доп. вопросы + попросить кросс-ревью
- Дальше у меня в голове собирается некоторый план того, как двигаться в нужную сторону и дальше я обычно пишу тезисный план, который отдаю внешнему сервису
- Дальше делаю ревью документа сам + несколько итераций ревью с разными моделями
- Потом делаю визуализации нужных моментов для финальной статьи - я очень люблю схемы и визуализацию основных моментов
На выходе у меня обычно получается md, pdf и html версия статьи, которую я финально прогоняю через ревью и корректирую если требуется. Ну и в самом финале идет публикация самой статьи, причем в зависимости от платформы это может быть как простой процесс, так и сложный (например, в Medium движке нет таблиц и других важных элментов, поэтому приходится много вставлять изображениями).
P.S.
Такой процесс помогает мне разбираться в теме и всего за часиков 8 рабочих можно сделать статью, которую я бы раньше писал неделю. Но основная ценность не просто в статье, а в интеграции новых знаний в свою картину мира - раньше это требовало сильно больше усилий.
#Writing #Research #Productivity
1👍43❤11🔥7👎4✍1💯1
AI Dev Podcast #3 / Как сделать Code Review инструмент / Опыт Т-Банка (Рубрика #AI4SDLC)
Послушал свежий выпуск AI Dev Podcast, где мои коллеги из Т-Банка — Надежда Егошина и Георгий Мкртчян — рассказывают ведущим Андрею Дмитриеву (ко-фаундеру jug.ru и автору канала @dmitrievandrey8) и Андрею Буракову (автору канала @another_sa), как у нас сделали AI Code Review. Слушал с особым интересом: тема близкая, да и ребята рассказывают про реальный путь, не сильно приукрашивая. Кстати, это один из доменных агентов, что встроен в общий pipeline разработки и доступен всем командам в компании.
Команда зашла со стороны вопроса «что инженер на самом деле делает на ревью?» и выделила 12 аспектов — архитектура, конкурентность, тестируемость и так далее. Но ценнее другое: главная задача ревьюера — понять, сделал ли человек то, что было в задаче. Поэтому инструмент интегрирован с таск-трекером и Confluence, читает требования, смотрит не на голый дифф, а на изменения в контексте всего репозитория, и в саммари раскладывает задачу на требования: что реализовано, что нет и что сделано «сверх задачи».
Больше всего в этом случае мне нравится, что это отличный пример совместной работы R&D и платформенных команд. Первую версию собрали исследователи: проресёрчили рынок, взяли open-source, сильно переделали — получился сервис, куда вставляешь ссылку на merge request и получаешь комментарии бота. А дальше продукт передали в платформенную команду, которая стала поднимать качество за счёт знания того, как реально устроены процессы ревью в разных командах, и глубокого погружения в домен. По-моему, это правильная модель: R&D быстро проверяет гипотезы, платформа превращает прототип в продукт масштаба всего IT.
Отдельно порадовала инженерная честность в оценке. Контуров два. Offline — собственный бенчмарк: методологию подсмотрели в статье ByteDance (я её в своё время разбирал тут), а сам бенчмарк собрали, пропарсив свой GitLab. Online — лайки и дизлайки на конкретные комментарии и A/B-тесты. И прямой ответ на вопрос «на сколько сократили баги и время ревью»: пока заявить не можем, продукт недавно вышел из прототипа. На фоне общего хайпа такая аккуратность подкупает.
Есть ещё два интересных момента
1️⃣ Доверие как продукт: сейчас инженер делает двойную работу, сначала валидирует ревьюера, потом сам ревьюит MR, и для авторевью у команды жёсткое требование — обязательная валидация человеком. Если слепо аппрувить за ботом, багов станет больше, а не меньше
2️⃣ Интересный тезис Георгия: дообучать модели сейчас смысла нет, они пробовали — улучшения минорные или в минус, а сила в грамотной экосистеме вокруг предобученных LLM. Тезис верен в контексте этой задачи в Т-Банке, но это не универсальное правило (лучше проверять в каждом конкретном случае)
В общем, из подкаста видно, что локальное ускорение этапов сдвигает работу дальше по пайплану
- Ускоряешь генерацию кода — узкое место едет в ревью
- Ускоряешь ревью — нагрузка едет в тестирование
- Ускоряешь тестирование — весело может стать в operations
Ну и тут AI Code Review показан как перестройка всего цикла разработки, где активом остаются контекст, доверие и человек в контуре.
#AI #AI4SDLC #CodeReview #Engineering #Product #Management
Послушал свежий выпуск AI Dev Podcast, где мои коллеги из Т-Банка — Надежда Егошина и Георгий Мкртчян — рассказывают ведущим Андрею Дмитриеву (ко-фаундеру jug.ru и автору канала @dmitrievandrey8) и Андрею Буракову (автору канала @another_sa), как у нас сделали AI Code Review. Слушал с особым интересом: тема близкая, да и ребята рассказывают про реальный путь, не сильно приукрашивая. Кстати, это один из доменных агентов, что встроен в общий pipeline разработки и доступен всем командам в компании.
Команда зашла со стороны вопроса «что инженер на самом деле делает на ревью?» и выделила 12 аспектов — архитектура, конкурентность, тестируемость и так далее. Но ценнее другое: главная задача ревьюера — понять, сделал ли человек то, что было в задаче. Поэтому инструмент интегрирован с таск-трекером и Confluence, читает требования, смотрит не на голый дифф, а на изменения в контексте всего репозитория, и в саммари раскладывает задачу на требования: что реализовано, что нет и что сделано «сверх задачи».
Больше всего в этом случае мне нравится, что это отличный пример совместной работы R&D и платформенных команд. Первую версию собрали исследователи: проресёрчили рынок, взяли open-source, сильно переделали — получился сервис, куда вставляешь ссылку на merge request и получаешь комментарии бота. А дальше продукт передали в платформенную команду, которая стала поднимать качество за счёт знания того, как реально устроены процессы ревью в разных командах, и глубокого погружения в домен. По-моему, это правильная модель: R&D быстро проверяет гипотезы, платформа превращает прототип в продукт масштаба всего IT.
Отдельно порадовала инженерная честность в оценке. Контуров два. Offline — собственный бенчмарк: методологию подсмотрели в статье ByteDance (я её в своё время разбирал тут), а сам бенчмарк собрали, пропарсив свой GitLab. Online — лайки и дизлайки на конкретные комментарии и A/B-тесты. И прямой ответ на вопрос «на сколько сократили баги и время ревью»: пока заявить не можем, продукт недавно вышел из прототипа. На фоне общего хайпа такая аккуратность подкупает.
Есть ещё два интересных момента
1️⃣ Доверие как продукт: сейчас инженер делает двойную работу, сначала валидирует ревьюера, потом сам ревьюит MR, и для авторевью у команды жёсткое требование — обязательная валидация человеком. Если слепо аппрувить за ботом, багов станет больше, а не меньше
2️⃣ Интересный тезис Георгия: дообучать модели сейчас смысла нет, они пробовали — улучшения минорные или в минус, а сила в грамотной экосистеме вокруг предобученных LLM. Тезис верен в контексте этой задачи в Т-Банке, но это не универсальное правило (лучше проверять в каждом конкретном случае)
В общем, из подкаста видно, что локальное ускорение этапов сдвигает работу дальше по пайплану
- Ускоряешь генерацию кода — узкое место едет в ревью
- Ускоряешь ревью — нагрузка едет в тестирование
- Ускоряешь тестирование — весело может стать в operations
Ну и тут AI Code Review показан как перестройка всего цикла разработки, где активом остаются контекст, доверие и человек в контуре.
#AI #AI4SDLC #CodeReview #Engineering #Product #Management
YouTube
AI Dev Podcast #3 / Как сделать Code Review инструмент / Опыт Т-Банка
Как из AI-прототипа для гиков вырастить продукт на всю компанию? Реальный опыт Т-Банка / AI Dev Conf Podcast #3
AI ускоряет разработку, но вместе с тем в три раза растет количество багов, а код, сгенерированный нейросетями, требует двойного контроля. Как…
AI ускоряет разработку, но вместе с тем в три раза растет количество багов, а код, сгенерированный нейросетями, требует двойного контроля. Как…
❤9🔥4👍3🤔2
AIDev: Studying AI Coding Agents on GitHub (Рубрика #AI4SDLC)
Прочитал короткую статью от 9 февраля 2026 года о том, как изучать coding agents по реальным PR, а не по демкам. В ней представлен публичный датасет, по которому agentic software engineering можно изучать не по демкам, а по следам реальных pull request'ов. Авторы - Hao Li, Haoxiang Zhang и Ahmed E. Hassan из Queen's University. Это хороший сигнал доверия: группа Hassan давно работает в empirical software engineering и mining software repositories. Paper подана на arXiv 9 февраля 2026 года и связана с MSR 2026 Mining Challenge; данные выложены на Hugging Face и Zenodo, код и ноутбуки - на GitHub.
Набор данных AIDev агрегирует 932 791 pull request, которые авторы относят к Agentic-PR: PR, созданным coding agents. В выборке пять инструментов: OpenAI Codex, Devin, GitHub Copilot, Cursor и Claude Code. Эти PR распределены по 116 211 репозиториям и связаны с 72 189 разработчиками; cutoff - 1 августа 2025 года. Для глубокого анализа есть поднабор: 33 596 PR из 2 807 репозиториев с более чем 100 звездами. Там уже есть review comments, review verdicts, commit-level diffs, связанные issues, timeline событий и автоматическая классификация типа задачи по Conventional Commits.
Методологически это dataset paper с главным результатом в виде инфраструктуры для интересных вопросов вида:
- Кто использует агентов (джуны, мидлы, сеньоры)
- Какие PR проходят review и merge
- Совпадает ли описание PR с diff
- Lобавляют ли агенты тесты
- Какие security/quality-паттерны всплывают в agent-authored code
Для меня здесь самый интересный сдвиг в единице измерения. В AI4SDLC долго мерили либо completion в IDE, либо synthetic benchmark вроде «реши issue». AIDev предлагает смотреть на весь lifecycle:
Отдельно отмечу, что у исследования есть несколько оговорок:
- Датасет построен по публичному GitHub, поэтому enterprise-разработка и закрытые репозитории почти наверняка выглядят иначе
- Качество выводов зависит от того, насколько надежно определены agent-authored PR для каждого инструмента; в короткой версии paper этот слой описан недостаточно подробно (надо будет копнуть вглубь)
- Поднабор PR из репозиториев с 100+ звездочек смещает картину в сторону заметных open-source проектов.
P.S.
Дальше расскажу про несколько интересных статей, что опираются на инсайты, что были добыты из этого датасета.
#AI #AI4SDLC #Engineering #Research #Agents #Software #DevOps #Processes
Прочитал короткую статью от 9 февраля 2026 года о том, как изучать coding agents по реальным PR, а не по демкам. В ней представлен публичный датасет, по которому agentic software engineering можно изучать не по демкам, а по следам реальных pull request'ов. Авторы - Hao Li, Haoxiang Zhang и Ahmed E. Hassan из Queen's University. Это хороший сигнал доверия: группа Hassan давно работает в empirical software engineering и mining software repositories. Paper подана на arXiv 9 февраля 2026 года и связана с MSR 2026 Mining Challenge; данные выложены на Hugging Face и Zenodo, код и ноутбуки - на GitHub.
Набор данных AIDev агрегирует 932 791 pull request, которые авторы относят к Agentic-PR: PR, созданным coding agents. В выборке пять инструментов: OpenAI Codex, Devin, GitHub Copilot, Cursor и Claude Code. Эти PR распределены по 116 211 репозиториям и связаны с 72 189 разработчиками; cutoff - 1 августа 2025 года. Для глубокого анализа есть поднабор: 33 596 PR из 2 807 репозиториев с более чем 100 звездами. Там уже есть review comments, review verdicts, commit-level diffs, связанные issues, timeline событий и автоматическая классификация типа задачи по Conventional Commits.
Методологически это dataset paper с главным результатом в виде инфраструктуры для интересных вопросов вида:
- Кто использует агентов (джуны, мидлы, сеньоры)
- Какие PR проходят review и merge
- Совпадает ли описание PR с diff
- Lобавляют ли агенты тесты
- Какие security/quality-паттерны всплывают в agent-authored code
Для меня здесь самый интересный сдвиг в единице измерения. В AI4SDLC долго мерили либо completion в IDE, либо synthetic benchmark вроде «реши issue». AIDev предлагает смотреть на весь lifecycle:
issue -» PR -» commits -» review -» comments -» CI/merge/close -» дальнейшая судьба изменения. Это гораздо ближе к реальной инженерной системе. Практическое применение тут довольно прямое. Если компания внедряет кодинговых агентов, то ей стоит строить похожую внутреннюю телеметрию. Не «сколько строк сгенерировано» и не «сколько лицензий активировано», а что происходит с agent-authored PR: размер diff, доля тестов, время до review, число замечаний, merge rate, rollback/hotfix, security findings, соответствие conventions и CI.Отдельно отмечу, что у исследования есть несколько оговорок:
- Датасет построен по публичному GitHub, поэтому enterprise-разработка и закрытые репозитории почти наверняка выглядят иначе
- Качество выводов зависит от того, насколько надежно определены agent-authored PR для каждого инструмента; в короткой версии paper этот слой описан недостаточно подробно (надо будет копнуть вглубь)
- Поднабор PR из репозиториев с 100+ звездочек смещает картину в сторону заметных open-source проектов.
P.S.
Дальше расскажу про несколько интересных статей, что опираются на инсайты, что были добыты из этого датасета.
#AI #AI4SDLC #Engineering #Research #Agents #Software #DevOps #Processes
arXiv.org
AIDev: Studying AI Coding Agents on GitHub
AI coding agents are rapidly transforming software engineering by performing tasks such as feature development, debugging, and testing. Despite their growing impact, the research community lacks a...
👍9❤3🔥1
Stop Making Models Bigger, Make Them Behave — Kobie Crawford, Snorkel (Рубрика #AI)
Посмотрел 20-минутный доклад Kobie Crawford из Snorkel AI с конференции AI Engineer London (10 апреля 2026). Это редкий доклад, который идет против привычного «новая модель больше и умнее». Главная мысль простая и неудобная для гонки параметров: возможности модели ограничены не столько архитектурой и числом параметров, сколько качеством данных и задач, на которых она дообучалась. А для агентов, которые ходят в инструменты, узкое место часто не reasoning, а tool discipline - дисциплина обращения с инструментами.
Самый показательный пример - финансовый анализ с tool use. По материалам Snorkel, дообученная reinforcement learning'ом Qwen3-4B обошла Qwen3-235B при разнице в размере примерно 1/60. На их бенчмарке SnorkelFinance маленькая модель набрала 59.7% против 51.37% у большой (цифры из других публикаций Snorkel). Среда для обучения - FinQA: RL-окружение из 290 экспертных вопросов по 22 публичным компаниям, сделанное вместе с командой rLLM из UC Berkeley и выложенное в OpenEnv. По заявлению авторов, один прогон стоил меньше $500 на 8xH100 и удваивал pass@1.
Что значит tool discipline на практике. Большие генералисты отлично рассуждают, но плохо дисциплинированы в инструментах: галлюцинируют имена колонок, игнорируют ограничения схемы и генерируют SQL, который возвращает бессмысленный результат. Лечится это не большей моделью, а привычками - сначала исследовать таблицы и схему, валидировать данные перед следующим шагом, ретраить и само-исправляться при ошибке. Маленькую модель именно этому и научили через RL.
Дальше доклад обобщает это в идею, которую Snorkel называет task fidelity: не все обучающие задачи одинаково полезны. Они вводят четыре критерия приемки
1) achievability (решаема)
2) non-triviality (нетривиальна)
3) functional correctness (решение реально работает)
4) reliability (оценка воспроизводима)
По их данным, дообучение на «хороших» задачах дало +6.2 п.п. к доле проходящих тестов, а на «плохих» - всего +1.1: примерно пятикратная разница только за счет качества данных.
Отдельно отмечу, что все это рассказ по материалами Snorkel - компании, которая продает курирование данных, так что интерес у нее прямой. Бенчмарк свой, домен узкий (финансовый tool use поверх SQL), и переносимость на другие агентные задачи - открытый вопрос.
Но если поверить ребятам на слово, то кажется, что маленькая дообученная модель с хорошим окружением и дисциплиной обращения с инструментами может оказаться дешевле и надежнее гиганта - особенно там, где агент работает со схемами и API. Для AI4SDLC это прямой сигнал: вкладываться не только в выбор модели, но и в качество задач и в guardrails, по которым агент ходит в инструменты.
P.S.
Я уже разбирал доклад на похожую тему "Everything I Learned Training Frontier Small Models - Maxime Labonne, Liquid AI"
#AI #AI4SDLC #Engineering #Research #Agents #Data #Software
Посмотрел 20-минутный доклад Kobie Crawford из Snorkel AI с конференции AI Engineer London (10 апреля 2026). Это редкий доклад, который идет против привычного «новая модель больше и умнее». Главная мысль простая и неудобная для гонки параметров: возможности модели ограничены не столько архитектурой и числом параметров, сколько качеством данных и задач, на которых она дообучалась. А для агентов, которые ходят в инструменты, узкое место часто не reasoning, а tool discipline - дисциплина обращения с инструментами.
Самый показательный пример - финансовый анализ с tool use. По материалам Snorkel, дообученная reinforcement learning'ом Qwen3-4B обошла Qwen3-235B при разнице в размере примерно 1/60. На их бенчмарке SnorkelFinance маленькая модель набрала 59.7% против 51.37% у большой (цифры из других публикаций Snorkel). Среда для обучения - FinQA: RL-окружение из 290 экспертных вопросов по 22 публичным компаниям, сделанное вместе с командой rLLM из UC Berkeley и выложенное в OpenEnv. По заявлению авторов, один прогон стоил меньше $500 на 8xH100 и удваивал pass@1.
Что значит tool discipline на практике. Большие генералисты отлично рассуждают, но плохо дисциплинированы в инструментах: галлюцинируют имена колонок, игнорируют ограничения схемы и генерируют SQL, который возвращает бессмысленный результат. Лечится это не большей моделью, а привычками - сначала исследовать таблицы и схему, валидировать данные перед следующим шагом, ретраить и само-исправляться при ошибке. Маленькую модель именно этому и научили через RL.
Дальше доклад обобщает это в идею, которую Snorkel называет task fidelity: не все обучающие задачи одинаково полезны. Они вводят четыре критерия приемки
1) achievability (решаема)
2) non-triviality (нетривиальна)
3) functional correctness (решение реально работает)
4) reliability (оценка воспроизводима)
По их данным, дообучение на «хороших» задачах дало +6.2 п.п. к доле проходящих тестов, а на «плохих» - всего +1.1: примерно пятикратная разница только за счет качества данных.
Отдельно отмечу, что все это рассказ по материалами Snorkel - компании, которая продает курирование данных, так что интерес у нее прямой. Бенчмарк свой, домен узкий (финансовый tool use поверх SQL), и переносимость на другие агентные задачи - открытый вопрос.
Но если поверить ребятам на слово, то кажется, что маленькая дообученная модель с хорошим окружением и дисциплиной обращения с инструментами может оказаться дешевле и надежнее гиганта - особенно там, где агент работает со схемами и API. Для AI4SDLC это прямой сигнал: вкладываться не только в выбор модели, но и в качество задач и в guardrails, по которым агент ходит в инструменты.
P.S.
Я уже разбирал доклад на похожую тему "Everything I Learned Training Frontier Small Models - Maxime Labonne, Liquid AI"
#AI #AI4SDLC #Engineering #Research #Agents #Data #Software
YouTube
Stop Making Models Bigger, Make Them Behave — Kobie Crawford, Snorkel
Qwen 3 235B was asked for YouTube's year over year ad revenue growth from 2023 to 2024. It queried a table that didn't exist, tried again, got nothing back both times, and hallucinated an answer. The 4B model Snorkel finetuned with RL called `get_table_name`…
❤8👍8✍3
Your Attention Is the Bottleneck, Not Your Agents — Zack Proser, WorkOS (Рубрика #AI4SDLC)
Посмотрел на днях доклад Zack Proser из WorkOS, который говорит про AI выгорание от работы с агентами. Думаю, что вам знакомо ощущения от работы с Claude или Codex, когда вроде бы сделано больше, чем раньше, но к середине дня ты уже выжат. Я сам реально начал это чувствовать, когда целый день управляешь агентами. Нужно сформулировать задачу, удержать контекст, выбрать границы, проверить результат, потом еще раз объяснить, где агент промахнулся. Формально скорость выше. Но ощущения flow, которое раньше появлялось, когда садишься писать сложный документ или кодишь нетривиальную фичу, почти нет. Вместо потока получается день менеджера: много переключений контекста, принятия решений и контроля за тем, что делают агенты
Собственно, главный тезис Зака из презентации как раз про это: агенты перестают быть узким местом, а человеческое внимание остается конечным ресурсом. По его словам, если дать агентам контекст, критерии проверки и инструменты, они могут крутиться почти бесконечно. Но человек все равно должен понять, что задача решена, качество достаточное, а решение совпадает с продуктовой и инженерной реальностью.
В докладе есть хороший пример из его работы в Applied AI-команде WorkOS. В Slack-боте для внутренних блог-постов сломался sentence case: бот портил акронимы вроде SSO. Вместо прыжков между Slack, Linear, терминалом и браузером Proser дал Claude Code доступ к Slack и Linear через MCP, попросил исправить баг и проверить результат в том же контуре. Важная деталь здесь не "агент написал код", а "агент дошел до завершенного verification loop".
Дальше Зак предлагает оптимизировать свою работу по слоям
1️⃣ Signal layer
Если Slack или Linear для вас главный источник переключений, не обязательно открывать их самому. Агент может читать mentions, DM, tickets, дедуплицировать запросы и вытаскивать только то, что действительно требует внимания. Это не отменяет коммуникацию, но защищает фокус от случайного шума.
2️⃣ Voice-first flow
Зак говорит, что голосом регулярно выдает около 184 слов в минуту, и это помогает быстрее запускать несколько рабочих веток в Claude Code, Cursor или Codex. Но для меня важна оговорка: голос не снимает необходимости думать. Он снижает трение между намерением и постановкой задачи. Если intent мутный, агент быстрее построит не то.
3️⃣ Remote control и "shower principle"
Часть хороших решений приходит не в IDE, а на прогулке или в душе, когда мозг выходит из жесткого focus mode. Раньше отойти от стола означало остановить работу. Proser показывает другой режим: утром загрузить агентов задачами, задать им контекст и проверки, потом уйти от стола и с телефона направлять их, когда появляется более ясная мысль. Не уверен, что это всем подойдет, но мысль ценная: продуктивность не равна сидению перед экраном.
4️⃣ Safety и verification gates
Зак формулирует это почти как инженерное правило: скорость требует безопасности. Минимальный gate - lint, build, unit tests. Следующий - проверка через браузер: агент сам проходит сценарий и убеждается, что, например, login не сломан. Еще выше - critic pass, когда отдельный агент сверяет результат с набором правил. Здесь агентная разработка перестает быть промптингом и становится процессом.
Отдельно мне понравилась идея weekly pass по истории агентных сессий. У Claude Code разговоры сохраняются локально в JSONL, и Proser предлагает регулярно отдавать их агенту с вопросом: где мы тратили лишние thinking tokens, где снимали неоднозначность, каких skills, MCP-серверов или шаблонов не хватало. Мы обычно выбрасываем контекст работы после мержа, хотя именно там лежит карта повторяющихся потерь внимания.
Есть и смешной, но точный эпизод про Oura Ring через MCP: агент может напомнить, что ты плохо спал и не стоит брать вторую половину плана. На фоне "burnout turbo", как Proser описывает бездумное ускорение LLM-ами, даже такая пауза становится частью операционной модели.
В Q&A к докладу был важный вопрос про обучение людей. Ответ Proser я бы сформулировал так: не делегируй AI то, чего сам еще не понимаешь. Если ты учишься, тебе все еще нужно руками пройти боль, построить ментальные модели и научиться ловить плохие решения. AI может ускорять обучение и объяснять пробелы, но не должен украсть базовую инженерную мышцу.
#AI #AI4SDLC #Engineering #Software #Management #DevEx #Process
Посмотрел на днях доклад Zack Proser из WorkOS, который говорит про AI выгорание от работы с агентами. Думаю, что вам знакомо ощущения от работы с Claude или Codex, когда вроде бы сделано больше, чем раньше, но к середине дня ты уже выжат. Я сам реально начал это чувствовать, когда целый день управляешь агентами. Нужно сформулировать задачу, удержать контекст, выбрать границы, проверить результат, потом еще раз объяснить, где агент промахнулся. Формально скорость выше. Но ощущения flow, которое раньше появлялось, когда садишься писать сложный документ или кодишь нетривиальную фичу, почти нет. Вместо потока получается день менеджера: много переключений контекста, принятия решений и контроля за тем, что делают агенты
Собственно, главный тезис Зака из презентации как раз про это: агенты перестают быть узким местом, а человеческое внимание остается конечным ресурсом. По его словам, если дать агентам контекст, критерии проверки и инструменты, они могут крутиться почти бесконечно. Но человек все равно должен понять, что задача решена, качество достаточное, а решение совпадает с продуктовой и инженерной реальностью.
В докладе есть хороший пример из его работы в Applied AI-команде WorkOS. В Slack-боте для внутренних блог-постов сломался sentence case: бот портил акронимы вроде SSO. Вместо прыжков между Slack, Linear, терминалом и браузером Proser дал Claude Code доступ к Slack и Linear через MCP, попросил исправить баг и проверить результат в том же контуре. Важная деталь здесь не "агент написал код", а "агент дошел до завершенного verification loop".
Дальше Зак предлагает оптимизировать свою работу по слоям
1️⃣ Signal layer
Если Slack или Linear для вас главный источник переключений, не обязательно открывать их самому. Агент может читать mentions, DM, tickets, дедуплицировать запросы и вытаскивать только то, что действительно требует внимания. Это не отменяет коммуникацию, но защищает фокус от случайного шума.
2️⃣ Voice-first flow
Зак говорит, что голосом регулярно выдает около 184 слов в минуту, и это помогает быстрее запускать несколько рабочих веток в Claude Code, Cursor или Codex. Но для меня важна оговорка: голос не снимает необходимости думать. Он снижает трение между намерением и постановкой задачи. Если intent мутный, агент быстрее построит не то.
3️⃣ Remote control и "shower principle"
Часть хороших решений приходит не в IDE, а на прогулке или в душе, когда мозг выходит из жесткого focus mode. Раньше отойти от стола означало остановить работу. Proser показывает другой режим: утром загрузить агентов задачами, задать им контекст и проверки, потом уйти от стола и с телефона направлять их, когда появляется более ясная мысль. Не уверен, что это всем подойдет, но мысль ценная: продуктивность не равна сидению перед экраном.
4️⃣ Safety и verification gates
Зак формулирует это почти как инженерное правило: скорость требует безопасности. Минимальный gate - lint, build, unit tests. Следующий - проверка через браузер: агент сам проходит сценарий и убеждается, что, например, login не сломан. Еще выше - critic pass, когда отдельный агент сверяет результат с набором правил. Здесь агентная разработка перестает быть промптингом и становится процессом.
Отдельно мне понравилась идея weekly pass по истории агентных сессий. У Claude Code разговоры сохраняются локально в JSONL, и Proser предлагает регулярно отдавать их агенту с вопросом: где мы тратили лишние thinking tokens, где снимали неоднозначность, каких skills, MCP-серверов или шаблонов не хватало. Мы обычно выбрасываем контекст работы после мержа, хотя именно там лежит карта повторяющихся потерь внимания.
Есть и смешной, но точный эпизод про Oura Ring через MCP: агент может напомнить, что ты плохо спал и не стоит брать вторую половину плана. На фоне "burnout turbo", как Proser описывает бездумное ускорение LLM-ами, даже такая пауза становится частью операционной модели.
В Q&A к докладу был важный вопрос про обучение людей. Ответ Proser я бы сформулировал так: не делегируй AI то, чего сам еще не понимаешь. Если ты учишься, тебе все еще нужно руками пройти боль, построить ментальные модели и научиться ловить плохие решения. AI может ускорять обучение и объяснять пробелы, но не должен украсть базовую инженерную мышцу.
#AI #AI4SDLC #Engineering #Software #Management #DevEx #Process
YouTube
Your Attention Is the Bottleneck, Not Your Agents — Zack Proser, WorkOS
Simon Willison fires up four parallel agents and is wiped out by 11am. That is the problem Zack Proser is solving: not that the tools are too slow but that human attention is still the hard constraint. His loop: voice brief at 184 words per minute, agent…
🔥16👍10❤5
WebMCP: How every website talks to agents — Tara Agyemang, Google Chrome(Рубрика #AI)
Интересное выступление Tara Agyemang из Google Chrome про WebMCP. Зацепило не само появление нового browser API, а более практичная мысль: нормальное управление браузерным flow для агентов может быть устроено не через “посмотри на экран и угадай, куда кликнуть”, а через явные инструменты, которые сайт сам отдает агенту.
Я реально чувствую, что это может быть интересной возможностью. Сейчас браузерный агент часто делает дорогую работу: читает DOM, смотрит accessibility tree, берет screenshot, угадывает визуальную структуру, вычисляет координаты и кликает. А потом ломается, потому что сверху загрузился баннер и все съехало. Это впечатляет как multimodal reasoning, но инженерно выглядит как обходной путь.
WebMCP предлагает другой способ. Сайт объявляет tools: например
Мне кажется, что тут прослеживается аналогия с accessibility фичами для повышения доступности для людей - когда интерфейс сделан только для зрячего человека с мышкой, другому исполнителю приходится восстанавливать смысл из внешних признаков. WebMCP выглядит как accessibility-слой для агентов: сайт объясняет не только как он выглядит, но и какие действия в нем реально существуют.
Важно, что Tara не продает WebMCP как замену обычному MCP. По ее объяснению, MCP обычно про server-side интеграции: агент идет в отдельный backend tool/API. WebMCP - про client-side браузерный контекст. Нужна открытая вкладка или webview, tools живут на странице, а пользователь видит состояние и может возвращать управление себе. Это human-in-the-loop workflow внутри привычного web UI.
Технически есть два пути.
1️⃣ Declarative API подходит для HTML forms: добавляешь атрибуты, браузер собирает schema из полей
2️⃣ Imperative API нужен для сложных flow: через JavaScript регистрируешь tool и внутри execute вызываешь существующую логику приложения.
В документации Chrome это progressive enhancement, а не переписывание сайта под агентов.
Статус стандарта пока ранний, и это важно не перепутать. WebMCP описан как proposed web standard; текущая спецификация опубликована Web Machine Learning Community Group как Draft Community Group Report, то есть это еще не W3C Standard и не документ на W3C Standards Track. Google анонсировал early preview 10 февраля 2026 года, а origin trial доступен с Chrome 149.
Если спрашивать про GA честно, я бы разделял два ответа. Для Chrome implementation Chrome Status сейчас показывает origin trial на M149-M156 и стадию ship с M157 для Desktop, Android и WebView. С учетом перехода Chrome на двухнедельный release cycle с M153 8 сентября 2026 года, M157 ориентировочно попадает на начало ноября 2026 года, если план не сдвинется. Но это не значит, что “веб-стандарт вышел в GA” в широком смысле: спецификация еще обсуждается, API меняется, а межбраузерная история будет зависеть от обратной связи и реализации другими браузерами.
Практический вывод такой: если у продукта есть сложные flow - покупка, заявка, support, booking, диагностики, многошаговые настройки, - стоит уже сейчас думать, какие действия в них являются “инструментами”, а какие просто визуальным оформлением. Хороший semantic HTML, accessibility, быстрые страницы и понятные states остаются базой. WebMCP добавляет следующий слой: безопасную и наблюдаемую ручку управления вместо мучения мультимодальной модели. Мне кажется, именно такие вещи будут отличать зрелую agent-ready платформу от красивой демки. Не “агент научился кликать как человек”, а “система дала агенту правильные интерфейсы и оставила человеку контроль”.
P.S.
Потом попробую поразбираться с этими возможностями в своих публичных проектах типа system-design.space или polomodov.tech:))
#AI #Agents #Web #Software #Architecture #Engineering
Интересное выступление Tara Agyemang из Google Chrome про WebMCP. Зацепило не само появление нового browser API, а более практичная мысль: нормальное управление браузерным flow для агентов может быть устроено не через “посмотри на экран и угадай, куда кликнуть”, а через явные инструменты, которые сайт сам отдает агенту.
Я реально чувствую, что это может быть интересной возможностью. Сейчас браузерный агент часто делает дорогую работу: читает DOM, смотрит accessibility tree, берет screenshot, угадывает визуальную структуру, вычисляет координаты и кликает. А потом ломается, потому что сверху загрузился баннер и все съехало. Это впечатляет как multimodal reasoning, но инженерно выглядит как обходной путь.
WebMCP предлагает другой способ. Сайт объявляет tools: например
search_concerts, purchase_ticket, filter_results или submit_application. У каждого tool есть имя, описание и schema параметров. Агент не угадывает назначение кнопки по пикселям, а видит меню допустимых действий. В демо Tara показывает это на игре-лабиринте и сайте с билетами: агент не “тыкает” в интерфейс, а последовательно вызывает инструменты страницы, при этом UI остается синхронизированным.Мне кажется, что тут прослеживается аналогия с accessibility фичами для повышения доступности для людей - когда интерфейс сделан только для зрячего человека с мышкой, другому исполнителю приходится восстанавливать смысл из внешних признаков. WebMCP выглядит как accessibility-слой для агентов: сайт объясняет не только как он выглядит, но и какие действия в нем реально существуют.
Важно, что Tara не продает WebMCP как замену обычному MCP. По ее объяснению, MCP обычно про server-side интеграции: агент идет в отдельный backend tool/API. WebMCP - про client-side браузерный контекст. Нужна открытая вкладка или webview, tools живут на странице, а пользователь видит состояние и может возвращать управление себе. Это human-in-the-loop workflow внутри привычного web UI.
Технически есть два пути.
1️⃣ Declarative API подходит для HTML forms: добавляешь атрибуты, браузер собирает schema из полей
2️⃣ Imperative API нужен для сложных flow: через JavaScript регистрируешь tool и внутри execute вызываешь существующую логику приложения.
В документации Chrome это progressive enhancement, а не переписывание сайта под агентов.
Статус стандарта пока ранний, и это важно не перепутать. WebMCP описан как proposed web standard; текущая спецификация опубликована Web Machine Learning Community Group как Draft Community Group Report, то есть это еще не W3C Standard и не документ на W3C Standards Track. Google анонсировал early preview 10 февраля 2026 года, а origin trial доступен с Chrome 149.
Если спрашивать про GA честно, я бы разделял два ответа. Для Chrome implementation Chrome Status сейчас показывает origin trial на M149-M156 и стадию ship с M157 для Desktop, Android и WebView. С учетом перехода Chrome на двухнедельный release cycle с M153 8 сентября 2026 года, M157 ориентировочно попадает на начало ноября 2026 года, если план не сдвинется. Но это не значит, что “веб-стандарт вышел в GA” в широком смысле: спецификация еще обсуждается, API меняется, а межбраузерная история будет зависеть от обратной связи и реализации другими браузерами.
Практический вывод такой: если у продукта есть сложные flow - покупка, заявка, support, booking, диагностики, многошаговые настройки, - стоит уже сейчас думать, какие действия в них являются “инструментами”, а какие просто визуальным оформлением. Хороший semantic HTML, accessibility, быстрые страницы и понятные states остаются базой. WebMCP добавляет следующий слой: безопасную и наблюдаемую ручку управления вместо мучения мультимодальной модели. Мне кажется, именно такие вещи будут отличать зрелую agent-ready платформу от красивой демки. Не “агент научился кликать как человек”, а “система дала агенту правильные интерфейсы и оставила человеку контроль”.
P.S.
Потом попробую поразбираться с этими возможностями в своих публичных проектах типа system-design.space или polomodov.tech:))
#AI #Agents #Web #Software #Architecture #Engineering
YouTube
The agent-ready web: Simplify user actions with WebMCP — Tara Agyemang, Google
Buying two concert tickets costs an AI agent the entire DOM, the accessibility tree, a screenshot, pixel coordinate math, and then a click that might miss because an ad just loaded and shifted the layout. Tara Agyemang from the Google Chrome team introduces…
🔥5👍4❤2