[2/2] Пример промпта для кодинг агента на Июнь 2026
Если внимательно вчитаться, немало интересных фишек можно почерпнуть.
Ах да, конкретно эту задачу запускаю через Opus 4.8 ultracode. Но в GPT 5.5 high в такой формулировке должно работать не хуже. Ну и примечательно, что еще пол года назад подобный промпт практически не имел бы никакого смысла, в виду своей сложности и отсутствия поддержки субагентов.
PS. Кстати, как вам название для нового агента? :)
—
@ai_driven - AI-Driven Development. Родион Мостовой
Давай добавим нового агента для супер глубокого и скрупулезного исследования контекста и назовем его `ScrupoloAgent`. У него будет 3 tools: get_ontology, read_file (с обязательным указание диапазона строк при чтении для экономии контекста), ask (вызывает @ContextResearchAgent.cs ). См. @agent-development.md.
Идея в том, что этот Scrupulo - фактически техлид-менеджер, который может итеративно задавать любые вопросы к ContextResearchAgent, относящиеся к теме, в тч уточняющие, чтобы предельно глубоко разобраться в теме. У нас уже есть отличный промпт deep режима для этих целей в @codealive-app/src/agents/CodeAlive.Agents/Prompts/codebase/context-research-agent-prompt.liquid , возьми deep промпт в основу для Scrupolo Agent. Scrupolo может вызывать ContextResearchAgent в параллель. Важно, что Scrupolo должен сделать минимум 3 вызова ContextResearchAgent прежде, чем отвечать на вопрос, а финальным шагом Scrupolo должен разрешить все противоречия и неоднозначности через верификацию через четение файлов и дополнительные вызовы ask если нужно; а если какие-то из противоречий достоверно разрешить не удается, то Scrupolo в своем ответе в таких места должен так явно и указать, что "участок/утверждение противоречивое и достоверно разрешить противоречие не удалось".
Главным агентом (Scrupulo) пусть будет qwen3.5-397b-a17b max, а для ContextResearchAgent используй qwen3.6-35b-a3b max (в deep режиме).
Нужно сначала покрыть этого агента минимальными тестами в CodeAlive.Agents.
Затем когда все будет готово прогнать этого агента через бенчмарка RepoQA - при этом важно четко фиксировать токены главного - то, как нужно расширить трейсинг и бенчмарк для грамотного учета токенов, цен и тулов главного агента и субагенов продумай через отдельного субагента на opus max. Таблицу Runs в бенчмарке тоже нужно будет обновить соответствующим образом. В самом конце - запусти opus max субагента провести глубокое ревью, а также убедись, что все консистентно.
В основной флоу CodeAlive Scrupolo пока интегрировать не нужно - сейчас нужна только качественная реализация, верификация через тесты и прогон через RepoQA (agent-framework).
Начни с глубокого исследования контекста CodeAlive через субагентов + в параллель через /codealive-context-engine на основе кода и примеров выясни как в agent-framework эффективно делать мульти-агентную систему с учетом лучших практик, fault tolerance и тд, можешь даже еще одного агента в интернет отправить изучать актуальный контекст лучших практик по мультиагентным системам в 2026-м.
Как только будет готов план, сохрани его в @specs и проведи ревью через Codex GPT 5.5 xhigh и улучши план, затем приступай к реализации.
Делай системно, не срезая углов. Если после исследования ко мне останутся вопросы - задавай.
Если внимательно вчитаться, немало интересных фишек можно почерпнуть.
Ах да, конкретно эту задачу запускаю через Opus 4.8 ultracode. Но в GPT 5.5 high в такой формулировке должно работать не хуже. Ну и примечательно, что еще пол года назад подобный промпт практически не имел бы никакого смысла, в виду своей сложности и отсутствия поддержки субагентов.
PS. Кстати, как вам название для нового агента? :)
—
@ai_driven - AI-Driven Development. Родион Мостовой
👍19🤯3
Бенчмарки! Новый митап про DeepSWE, SWE-rebench v2 и др
Друзья, вы все еще верите бенчмаркам? Я вот все меньше. Наверняка уже все видели DeepSWE бенчмарк - пожалуй, наиболее противоречивый бенчмарк за последнее время, причем с полярными мнениями: для одних это единственный объективный бенчмарк, для других он абсолютно не имеет отношения к реальности. В общем, я подумал, что будет интересно разобраться глубже в современных бенчмарках - обсудить их достоинства и недостатки, чтобы понимать есть ли вообще смысл обращать внимание на SWE бенчмарки в 2026-м. Отдельно разберем обновленный SWE-rebench v2.
На митап мы позвали, вероятно, наиболее подкованного человека из русскоязычного пространства - Ибрагима Бадертдинова, он один из ключевых авторов бенчмарка SWE-rebench, который как раз недавно обновили. А еще, Ибрагим автор канала @c0mmit. А неудобные вопросы будет задавать горячо любимый друг нашего канала Максим Этихлид (@etechlead).
Будем обсуждать важность harness, утечки, бенчхакинг, важность флоу проекта (AGENTS.md, верификации и т. д.) и, конечно, методологии.
Дата и время: 9 июня 14:00 по МСК, 16:00 по Алматы, 13:00 CET, 12:00 по Лондону.
Ссылка на регистрацию на встречу.
Готовьте свои коварные вопросы, ведь будет уникальная возможность задать их Ибрагиму - автору одного из топовых бенчмарков.
—
Кстати, у нас было интервью с Ибрагимом, в котором мы разбирали подробно бенчмарк SWE-rebench, поэтому рекомендую к просмотру всем AI-энтузиастам и в качестве подготовки к нашему новому стриму: https://youtu.be/a5jf-kyV12Y
@ai_driven | AI-Driven Development: Родион Мостовой.
Друзья, вы все еще верите бенчмаркам? Я вот все меньше. Наверняка уже все видели DeepSWE бенчмарк - пожалуй, наиболее противоречивый бенчмарк за последнее время, причем с полярными мнениями: для одних это единственный объективный бенчмарк, для других он абсолютно не имеет отношения к реальности. В общем, я подумал, что будет интересно разобраться глубже в современных бенчмарках - обсудить их достоинства и недостатки, чтобы понимать есть ли вообще смысл обращать внимание на SWE бенчмарки в 2026-м. Отдельно разберем обновленный SWE-rebench v2.
На митап мы позвали, вероятно, наиболее подкованного человека из русскоязычного пространства - Ибрагима Бадертдинова, он один из ключевых авторов бенчмарка SWE-rebench, который как раз недавно обновили. А еще, Ибрагим автор канала @c0mmit. А неудобные вопросы будет задавать горячо любимый друг нашего канала Максим Этихлид (@etechlead).
Будем обсуждать важность harness, утечки, бенчхакинг, важность флоу проекта (AGENTS.md, верификации и т. д.) и, конечно, методологии.
Дата и время: 9 июня 14:00 по МСК, 16:00 по Алматы, 13:00 CET, 12:00 по Лондону.
Ссылка на регистрацию на встречу.
Готовьте свои коварные вопросы, ведь будет уникальная возможность задать их Ибрагиму - автору одного из топовых бенчмарков.
—
Кстати, у нас было интервью с Ибрагимом, в котором мы разбирали подробно бенчмарк SWE-rebench, поэтому рекомендую к просмотру всем AI-энтузиастам и в качестве подготовки к нашему новому стриму: https://youtu.be/a5jf-kyV12Y
@ai_driven | AI-Driven Development: Родион Мостовой.
Luma
Можно ли верить SWE бенчмаркам в 2026? Прожарка бенчмарков от профи. DeepSWE, SWE rebench v2, Terminal Bench 2.1... · Luma
Друзья, вы все еще верите бенчмаркам? Я вот все меньше. Наверняка уже все видели DeepSWE бенчмарк - пожалуй, наиболее противоречивый бенчмарк за последнее…
👍10
Забрали Фейбл? Вы расстроились?
Я расстроился. Мне очень понравилась новая модель и я уже даже начал планировать пост в с юзкейсами в канал.
А ключевые юзкейсы там если кратко - это задачи, с которыми модели предыдущего поколения все еще справляются плохо: продумывание нестандартной архитектуры, поиск запутанных и очень сложных багов, помощь с генерацией действительно качественного контента. Словом, кажется, что у этой модели появился тот самый мифический judgement ("суждение"), о котором писали в Sequoia. Это то, что часто называют вкусом или насмотренностю и то, что предлагалось не делегировать LLMкам.
Так вот, все-таки у большинства вайб-кодеров и agentic engineers такие задачки возникают не часто, поэтому подход с usage-based для этой модели меня лично не сильно огорчил - результат бы точно стоил своих денег, с учетом точечного использования.
Так забрали или нет?
Сейчас обсуждают и переживают о том, что антропики теперь будут проверять паспорт у пользователей и давать доступ только гражданам США.
Только вот "проблема" в том, что и это не ограничит людей без американского паспорта от использования Фейбл+ моделей.
Цены по API на перепродажу таких моделей просто скакнут немного. Короче, кому надо доступ-то все равно получат. А простым вайб кодеры вроде нас с вами жизнь подусложнят.
Так вот, антропики в любом случае обещали доступ к Фейбл после 22-го июня перевести на usage-based - т. е., фактически, на оплату за токены. А когда доступ откроют гражданам США, то довольно быстро и у остальных появится возможность использовать эту замечательную модель, только с оплатой за токены (ага, считайте все тот же usage-based).
Раньше санкции на USA-LLM обходили только из подсанкционных стран, теперь (если так пойдет) штаты вынудят на обход и все остальные страны.
А вообще, идея ограничивать что-то по национальному или расовому признаку мне крайне неблизка, да и делать так по-моему не очень умно.
И, конечно, трудно придумать более мощный PR для Антропик, чем подобные события.
@ai_driven | AI-Driven Development: Родион Мостовой.
Я расстроился. Мне очень понравилась новая модель и я уже даже начал планировать пост в с юзкейсами в канал.
А ключевые юзкейсы там если кратко - это задачи, с которыми модели предыдущего поколения все еще справляются плохо: продумывание нестандартной архитектуры, поиск запутанных и очень сложных багов, помощь с генерацией действительно качественного контента. Словом, кажется, что у этой модели появился тот самый мифический judgement ("суждение"), о котором писали в Sequoia. Это то, что часто называют вкусом или насмотренностю и то, что предлагалось не делегировать LLMкам.
Так вот, все-таки у большинства вайб-кодеров и agentic engineers такие задачки возникают не часто, поэтому подход с usage-based для этой модели меня лично не сильно огорчил - результат бы точно стоил своих денег, с учетом точечного использования.
Так забрали или нет?
Сейчас обсуждают и переживают о том, что антропики теперь будут проверять паспорт у пользователей и давать доступ только гражданам США.
Только вот "проблема" в том, что и это не ограничит людей без американского паспорта от использования Фейбл+ моделей.
Цены по API на перепродажу таких моделей просто скакнут немного. Короче, кому надо доступ-то все равно получат. А простым вайб кодеры вроде нас с вами жизнь подусложнят.
Так вот, антропики в любом случае обещали доступ к Фейбл после 22-го июня перевести на usage-based - т. е., фактически, на оплату за токены. А когда доступ откроют гражданам США, то довольно быстро и у остальных появится возможность использовать эту замечательную модель, только с оплатой за токены (ага, считайте все тот же usage-based).
Раньше санкции на USA-LLM обходили только из подсанкционных стран, теперь (если так пойдет) штаты вынудят на обход и все остальные страны.
А вообще, идея ограничивать что-то по национальному или расовому признаку мне крайне неблизка, да и делать так по-моему не очень умно.
И, конечно, трудно придумать более мощный PR для Антропик, чем подобные события.
@ai_driven | AI-Driven Development: Родион Мостовой.
👍15👎3
Друзья, познакомлю вас со своей замечательной сестрой - Кариной. Она у нас профессиональная актриса и певица - играет главные роли в спектаклях и дает концерты. А еще она занимается подготовкой к публичным выступлениям таких, как мы с вами - программистов, лидов и стартаперов. Я лично привел к ней нескольких своих друзей и они в полном восторге от занятий (уверенность в себе подросла, выступления проходят совсем на другом уровне, работа стала еще успешнее и вот это вот все ).
В общем, с чистой совестью пиарю Карину в своем канале и горячо ее рекомендую всем, кто хотел прокачать голос и скилл публичных выступлений.
По поводу занятий пишите ей в личку: см. комментарий к посту.
Еще, Карина только что запустила свой tg-канал про публичные выступления, так что если тема для вас актуальна или может стать актуальной в будущем, то подписывайтесь смело: @golosmost
В общем, с чистой совестью пиарю Карину в своем канале и горячо ее рекомендую всем, кто хотел прокачать голос и скилл публичных выступлений.
По поводу занятий пишите ей в личку: см. комментарий к посту.
Еще, Карина только что запустила свой tg-канал про публичные выступления, так что если тема для вас актуальна или может стать актуальной в будущем, то подписывайтесь смело: @golosmost
Telegram
Карина Мостовая| Голос и публичные выступления
Тренер по голосу и публичным выступлениям, актриса и певица
IT, стартапы, публичные выступления — для тех, кто много говорит и хочет делать это в кайф.
Голос — это не только про звук. Это про то, как близко ты подпускаешь себя к себе.
@mostovaya_karina
IT, стартапы, публичные выступления — для тех, кто много говорит и хочет делать это в кайф.
Голос — это не только про звук. Это про то, как близко ты подпускаешь себя к себе.
@mostovaya_karina
❤19👎11
GLM 5.2 - чуть лучше GPT 5.5 в SWE-Marathon
Как вам задача переписать Kubernetes на Rust?
Или создать копию Slack?
Безумие - скажете вы? "SWE-Marathon" скажут ребята из Abundant.
Бенмарк измеряет сразу несколько вещей:
1. Прежде всего, автономность - то есть возможно агента крутиться без пинков до решения задачи столько, сколько нужно. Размер задачи там 7.6M токенов в медиане и 877.4M в пределе.
2. Внимательность к контексту - на длительных задачах навык модели удерживать контекст, не теряя цели и детали крайне важен.
3. Агентность, т. е. способность грамотно применять tools use (function calling).
4. И...Честность . Да, да, каким-то моделям более свойственно читерить, каким-то менее - то есть, некоторые модели банально хакают тесты и подстраиваются под них (ну, вы и сами знаете). Модели в целом довольно ленивы, как правило, а некоторые еще и жульничают. Любопытно, кстати, что этот показатель зависит не только от модели, но и от обвязки (harness).
Собсна, мне этот бенч особенно понравился, т. к. крупные автономные задачи на тысячи и десятки тысячи строк в моем воркфлоу - довольно типичная история, и это как раз про марафон. Спасибо Ибрагиму, что показ мне этот бенч у нас на недавнем стриме.
Так вот, интересно, что новенькая GLM 5.2 там выбивает очень бодрые результаты на уровне GPT 5.5. Из неочевидного: токенов при этом выжирает почти в 8 раз больше, чем GPT 5.5, при том, что из топов жульничает меньше всех. Моделька открытая, т. е. потенциально организации могут такую мощь и в закрытом контуре развернуть. Ждем в ближайшее время на OpenCode Go и на Synthetic.
Напоследок, поворчу про бенч: вообще, такие задачи нужно как минимум в режиме
Там, кстати, еще Kimi K2.7 Code - пробовал кто ее? В OpenCode Go вижу уже доступна. Бенчей нормальных они, к сожалению, не дали.
И подключайтесь завтра в 13:30 МСК, 15:30 по Алматы на стрим с Иваном Закутным, будем говорить про ошибки Spec-Driven Development: https://youtube.com/live/N01bvw44P60?feature=share
Бенчмарк SWE-Marathon, блогпост по GLM 5.2.
@ai_driven | AI-Driven Development: Родион Мостовой.
Как вам задача переписать Kubernetes на Rust?
Или создать копию Slack?
Безумие - скажете вы? "SWE-Marathon" скажут ребята из Abundant.
Бенмарк измеряет сразу несколько вещей:
1. Прежде всего, автономность - то есть возможно агента крутиться без пинков до решения задачи столько, сколько нужно. Размер задачи там 7.6M токенов в медиане и 877.4M в пределе.
2. Внимательность к контексту - на длительных задачах навык модели удерживать контекст, не теряя цели и детали крайне важен.
3. Агентность, т. е. способность грамотно применять tools use (function calling).
4. И...
Собсна, мне этот бенч особенно понравился, т. к. крупные автономные задачи на тысячи и десятки тысячи строк в моем воркфлоу - довольно типичная история, и это как раз про марафон. Спасибо Ибрагиму, что показ мне этот бенч у нас на недавнем стриме.
Так вот, интересно, что новенькая GLM 5.2 там выбивает очень бодрые результаты на уровне GPT 5.5. Из неочевидного: токенов при этом выжирает почти в 8 раз больше, чем GPT 5.5, при том, что из топов жульничает меньше всех. Моделька открытая, т. е. потенциально организации могут такую мощь и в закрытом контуре развернуть. Ждем в ближайшее время на OpenCode Go и на Synthetic.
Напоследок, поворчу про бенч: вообще, такие задачи нужно как минимум в режиме
/goal запускать, а по-хорошему на кастомном поэтапном флоу (а-ля ultracode только более контролируемом). Следов goal я paper не нашел, поэтому задал вопрос одному из авторов в X.Там, кстати, еще Kimi K2.7 Code - пробовал кто ее? В OpenCode Go вижу уже доступна. Бенчей нормальных они, к сожалению, не дали.
И подключайтесь завтра в 13:30 МСК, 15:30 по Алматы на стрим с Иваном Закутным, будем говорить про ошибки Spec-Driven Development: https://youtube.com/live/N01bvw44P60?feature=share
Бенчмарк SWE-Marathon, блогпост по GLM 5.2.
@ai_driven | AI-Driven Development: Родион Мостовой.
❤11👍9
И... тут дядя Боб свой опенсорсный оркестратор зарезил с акцентом на локальные модели: https://github.com/unclebob/swarm-forge
Интересно, что написан он на Clojure... А файлы CLAUDE.md/AGENTS.md отсутствуют, так что не знаю что и думать)
Еще из забавного - мне казалось, что может быть интересным покопаться в его промптах. И там действииельно есть такая строкадедушки дядюшки Боба подумал я... но нет, просто популярный интерпретатор для Clojure. Вот так вот, век живи, век учись :)
А если серьезно, то даже в том же промпте Боб Мартин упомянает, к примеру, crap4clj - а это как раз нишевая, но очень интересная метрика от Google, которая пытается <объективно> оценить качество кода, на основе его цикломатической сложности и % покрытия тестами - я, кстати, давно хотел посвятить этой метрике отдельный пост и прикольно, что дядюшка эту метрику тоже использует - учитесь, вайбкодеры ;))
А сворм этот если кто попробует - расскажите. Пока выглядит скорее загадочно.
@ai_driven
Интересно, что написан он на Clojure... А файлы CLAUDE.md/AGENTS.md отсутствуют, так что не знаю что и думать)
Еще из забавного - мне казалось, что может быть интересным покопаться в его промптах. И там действииельно есть такая строка
Prefer the Babashka APS tools for gherkin-parser - "бабашка"?? какая-то секретная техника от А если серьезно, то даже в том же промпте Боб Мартин упомянает, к примеру, crap4clj - а это как раз нишевая, но очень интересная метрика от Google, которая пытается <объективно> оценить качество кода, на основе его цикломатической сложности и % покрытия тестами - я, кстати, давно хотел посвятить этой метрике отдельный пост и прикольно, что дядюшка эту метрику тоже использует - учитесь, вайбкодеры ;))
А сворм этот если кто попробует - расскажите. Пока выглядит скорее загадочно.
@ai_driven
👍11❤4
Друзья, через пол часа стартуем стрим с Иваном Закутным, будем говорить про ошибки Spec-Driven Development - у Ивана очень интересный практический опыт на эту тему.
Стартуем в 13:30 МСК, 15:30 по Алматы: https://youtube.com/live/N01bvw44P60?feature=share
Стартуем в 13:30 МСК, 15:30 по Алматы: https://youtube.com/live/N01bvw44P60?feature=share
YouTube
Когда Spec-Driven Development хуже вайб-кодинга? Иван Закутный и Родион Мостовой.
Tg-канал Родиона AI-Driven Development: https://t.me/ai_driven
Tg-канал Ивана: https://t.me/neuralstack
Tg-канал Ивана: https://t.me/neuralstack
👍14
"Исходи из того, что пьяный пользователь использует наш продукт"
Вы же знаете как я люблю UX (понятность и удобство продукта) ? В общем, небольшой, но очень мощный пет-проект сейчас пилю для безопасного хранения API ключей и прочих секретов, там немало GUI/CUI и в очередной раз сталкиваюсь с тем, что агент делает плохой UX, его постоянно приходится поправлять. Добавил вот такую строчку в AGENTS.md, чтобы поправлять его не так часто:
Т. е. "При каждом изменении продукта, продумывай флоу с точки зрения пьяного пользователя". Понятно, что не панацея, но точно сильно лучше, чем ничего. Увы, так получается, что программисты сами часто не понимают как сделать хороший UX/DX. И вообще, мало кто понимает. А лучшим UX-чекапом будет наблюдение за вашим целевым пользователем-человеком за тем, как он использует ваш продукт с нуля без всяких объяснений.
И повторюсь, что я искренне верю, что будь в приложениях продуманный UX, люди в мире был бы немного счастливее :)
P.S. Много о чем есть рассказать на тему безопасности в эпоху агентной разработки - напишите в комментариях какие конкретно сабтопики для вас наиболее актуальны. И напомню про свои хуки безопасности для агентов, которыми делился недавно.
@ai_driven
Вы же знаете как я люблю UX (
For every product-facing change, think through the "drunk user" path: a tired, distracted, impatient user should still understand what just happened, what is safe to click next, and whether the system is waiting, broken, or done. Avoid ambiguous labels, hidden toggles, silent waits, stale loading states, and choices that require remembering implementation details. Prefer one explicit next best action.
Т. е. "При каждом изменении продукта, продумывай флоу с точки зрения пьяного пользователя". Понятно, что не панацея, но точно сильно лучше, чем ничего. Увы, так получается, что программисты сами часто не понимают как сделать хороший UX/DX. И вообще, мало кто понимает. А лучшим UX-чекапом будет наблюдение за вашим целевым пользователем-человеком за тем, как он использует ваш продукт с нуля без всяких объяснений.
И повторюсь, что я искренне верю, что будь в приложениях продуманный UX, люди в мире был бы немного счастливее :)
P.S. Много о чем есть рассказать на тему безопасности в эпоху агентной разработки - напишите в комментариях какие конкретно сабтопики для вас наиболее актуальны. И напомню про свои хуки безопасности для агентов, которыми делился недавно.
@ai_driven
👍11😁4
Похоже, что последнее обновление Codex App врубило какую-то дико назойливую песочницу, которая задает кучу лишних вопросов когда не надо, да еще и с ходу не отключается.
В общем, нашел как отключить полностью.
В файле
Как обычно, используем осторожно. Обязательно в связке с собственными хуками типа моих.
@ai_driven
В общем, нашел как отключить полностью.
В файле
~/.codex/config.toml нужно указать:default_permissions = ":danger-full-access"
approval_policy = "never"
Как обычно, используем осторожно. Обязательно в связке с собственными хуками типа моих.
@ai_driven
Telegram
AI-Driven Development. Родион Мостовой
Safety Hooks моей мечты
Наконец-то сделал хуки моей мечты - достаточно безопасные и практически без false-positive. Хуки вымученные, эволюционировали на граблях можно сказать.
Собсна, любой, кто проработал с агентами какое-то время отлично знает, что иногда…
Наконец-то сделал хуки моей мечты - достаточно безопасные и практически без false-positive. Хуки вымученные, эволюционировали на граблях можно сказать.
Собсна, любой, кто проработал с агентами какое-то время отлично знает, что иногда…
❤6