SDD на максималках и Lovable для бекендов: новинки YC из мира AI dev tools
С некоторых пор я полюбил отсматривать стартапы, прошедшие отбор в Y Combinator (на минуточку, топовейший акселератор). Во многом потому, что YC - один из немногих акселей, который смело вкладывается в Dev Tools продукты (из примеров: GitLab, Amplitude, Algolia, OneSignal и т.д.).
В сумме AI dev tools в этом батче там штук 10, но вот эти мне показались наиболее интересными:
Specific - позволяет генерить бекенд (эндпоинты) на естественном языке - вроде, полезная штука для каких-нибудь Lovable приложений (хоть, лавабл уже и сам поддерживает создание бекендов). Этот я успел немного потыкать - с задачей написать эндпоинт для перевода текста через ллмки OpenAI оно так справится и не смогло.
Deeptrace - штуковина, которая коннектится к вашим логам, кодбазе и алертам и на каждый алерт провод расследование, (пытаясь) выявить корень проблемы. Пока что доступна только демка, но сама идея интересна - мб кто-то из нас что-то подобное тоже пилит, тогда присмотритесь к их лендосу. Лендосы YC стартапов - это всегда отдельная интересная история - я уверен, что их там активно натаскивают на хорошие, понятные (продающие) лендинги.
Compyle - лозунг "Lovable for Software Engineers". А по сути, это тот же Codex Cloud, только умеющий задавать вопросы перед тем, как приступить к кодогенерации. Это как раз пример SDD (Spec-Driven Development) - фактически, они помогают из вайб-промпта создать спеку. Получился эдакий Plan Mode на максималках. Вообще, забавно, что они так и пишут прямо у себя на сайте, что эта штука под капотом юзает Claude Code. Из интересного - как и наш CodeAlive, поддерживает работу с мультирепозиториями. Пока что работает бесплатно.
Ну, и интереса ради с помощью этой тулы я за ван шот законтрибьютил нужную нам фичу в опенсорный проект Fluid на .NET (это шаблонизатор, который классно подходит для промптов). Вот PR, с виду выглядит все четко и тесты проходят, ждем что скажут ревьюеры). Мне, в целом, понравился опыт.
Fastshot - Lovable для мобильных приложений.
Полный список по ссылке.
Что нам с этого, спросите вы?
Ну, во-первых, не исключено, что кто-то мог искать подобные продукты. Во-вторых, факт прохождение стартапа в YC сам по себе весьма ценен и означает, что идея очень даже имеет право на жизнь, а значит, кто-то из вас может вдохновиться,как и мы когда-то , попробовать сделать свой стартап, ну или просто успешный пет-проект (главное только, чтоб не B2B).
А какой продукт или идея из осеннего батча YC вам приглянулась больше всего?
Кстати, неочевидное открытие, которые я сделал пока готовил этот пост - это то, что в компания SST тоже резидент YC, причем аж в 2021 они проходили программу и получали от них деньги. Для тех, кто не в курсе SST - авторы одного из наиболее успешного open source кодагента OpenCode.
@ai_driven
С некоторых пор я полюбил отсматривать стартапы, прошедшие отбор в Y Combinator (на минуточку, топовейший акселератор). Во многом потому, что YC - один из немногих акселей, который смело вкладывается в Dev Tools продукты (из примеров: GitLab, Amplitude, Algolia, OneSignal и т.д.).
В сумме AI dev tools в этом батче там штук 10, но вот эти мне показались наиболее интересными:
Specific - позволяет генерить бекенд (эндпоинты) на естественном языке - вроде, полезная штука для каких-нибудь Lovable приложений (хоть, лавабл уже и сам поддерживает создание бекендов). Этот я успел немного потыкать - с задачей написать эндпоинт для перевода текста через ллмки OpenAI оно так справится и не смогло.
Deeptrace - штуковина, которая коннектится к вашим логам, кодбазе и алертам и на каждый алерт провод расследование, (пытаясь) выявить корень проблемы. Пока что доступна только демка, но сама идея интересна - мб кто-то из нас что-то подобное тоже пилит, тогда присмотритесь к их лендосу. Лендосы YC стартапов - это всегда отдельная интересная история - я уверен, что их там активно натаскивают на хорошие, понятные (продающие) лендинги.
Compyle - лозунг "Lovable for Software Engineers". А по сути, это тот же Codex Cloud, только умеющий задавать вопросы перед тем, как приступить к кодогенерации. Это как раз пример SDD (Spec-Driven Development) - фактически, они помогают из вайб-промпта создать спеку. Получился эдакий Plan Mode на максималках. Вообще, забавно, что они так и пишут прямо у себя на сайте, что эта штука под капотом юзает Claude Code. Из интересного - как и наш CodeAlive, поддерживает работу с мультирепозиториями. Пока что работает бесплатно.
Ну, и интереса ради с помощью этой тулы я за ван шот законтрибьютил нужную нам фичу в опенсорный проект Fluid на .NET (это шаблонизатор, который классно подходит для промптов). Вот PR, с виду выглядит все четко и тесты проходят, ждем что скажут ревьюеры). Мне, в целом, понравился опыт.
Fastshot - Lovable для мобильных приложений.
Полный список по ссылке.
Что нам с этого, спросите вы?
Ну, во-первых, не исключено, что кто-то мог искать подобные продукты. Во-вторых, факт прохождение стартапа в YC сам по себе весьма ценен и означает, что идея очень даже имеет право на жизнь, а значит, кто-то из вас может вдохновиться,
А какой продукт или идея из осеннего батча YC вам приглянулась больше всего?
Кстати, неочевидное открытие, которые я сделал пока готовил этот пост - это то, что в компания SST тоже резидент YC, причем аж в 2021 они проходили программу и получали от них деньги. Для тех, кто не в курсе SST - авторы одного из наиболее успешного open source кодагента OpenCode.
@ai_driven
👍22❤13
Claude Code всё?
Ну что, друзья, Open Source LLMs для кодинга стремительно догоняют своих закрытыхбратьев сестер. Недавно вышли аж 3 значимых модели от китайцев - это Minimax M2, GLM 4.6 и Kimi K2 Thinking, очень мощные модели, догоняющие Sonnet 4.5 и GPT-5.
Я думаю, для многих не секрет, что китайцы сейчас, во-первых, начали предоставлять подписки на свои LLM (GLM, MiniMax), во-вторых, дают возможность юзать их из Claude Code.
Но, по мне, так ключевая проблема китайских подписок в Privacy - субъективно, вероятность того, что данные будут использованы для обучения (как минимум) существенно выше. И вот тут на сцене появляется сервис Synthetic
1. Synthetic подписка - Claude Code x3
Суть сервиса в том, что они предоставляют дешевый доступ к множеству современных LLM - но главное, умеют это делать по подписке. Так вот, даже в подписке за 20$ они пишут, что лимиты на лучшие модели x3 от тех, что Claude дают за те же деньги. Minimax M2, GLM 4.6 и Kimi K2 Thinking там есть. Важно, что они заверяют, что дата центры с их GPUшками находятся в US и EU, что компания у них американская и что данные юзеров для дообучения они никогда не используют.
С Claude Code (CC) они тоже умеют интегрироваться нативно и даже дают готовый конфиг, который позволяет легко и просто запускать их Claude Code с их подпиской одной командой:
После этого просто пишем в терминале
Еще, люди в чатах жаловались, что подписки от китайцев на китайские модели работают довольно медленно. Мои быстрые эксперименты с Synthetic показали, что их модели прям шустренько отвечают.
Отмечу, что в таком варианте подписке есть еще один неочевидный плюс, в отличие от китайских - новые LLM выходят стремительно и неизвестно какая опенсорс LLM будет лучшей для кодинга завтра. Здесь же выглядит так, что ребята добавляют поддержку хороших моделей очень быстро (на реддите писали, что K2 Thinking они первые в US развернули).
2. API по подписке
Интересно, что любую из доступных always-on моделей можно так же использовать и через API по подписке.
3. Деплой своих моделей
Неочевидный приятный бонус - этот сервис так же умеет разворачивать почти любую LLM с HugginFace (on demand) и это прямо находка для тех, кто деплоит локальные ллмки в организациях - есть возможность очень быстро и дешево протестировать LLMку или ее кванты. Мною проверено - работает.
Приятная рефералка
Пользуясь случаем, поделюсь своей реф ссылкой на этой сервис https://synthetic.new/?referral=eWEfhLA6nZXwE1D - в случае подписки, +10$ на баланс прилетит и мне и вам.
@ai_driven
Ну что, друзья, Open Source LLMs для кодинга стремительно догоняют своих закрытых
Я думаю, для многих не секрет, что китайцы сейчас, во-первых, начали предоставлять подписки на свои LLM (GLM, MiniMax), во-вторых, дают возможность юзать их из Claude Code.
Но, по мне, так ключевая проблема китайских подписок в Privacy - субъективно, вероятность того, что данные будут использованы для обучения (как минимум) существенно выше. И вот тут на сцене появляется сервис Synthetic
1. Synthetic подписка - Claude Code x3
Суть сервиса в том, что они предоставляют дешевый доступ к множеству современных LLM - но главное, умеют это делать по подписке. Так вот, даже в подписке за 20$ они пишут, что лимиты на лучшие модели x3 от тех, что Claude дают за те же деньги. Minimax M2, GLM 4.6 и Kimi K2 Thinking там есть. Важно, что они заверяют, что дата центры с их GPUшками находятся в US и EU, что компания у них американская и что данные юзеров для дообучения они никогда не используют.
С Claude Code (CC) они тоже умеют интегрироваться нативно и даже дают готовый конфиг, который позволяет легко и просто запускать их Claude Code с их подпиской одной командой:
# Add to ~/.zshrc
synclaude() {
ANTHROPIC_BASE_URL=https://api.synthetic.new/anthropic \
ANTHROPIC_AUTH_TOKEN=${SYNTHETIC_API_KEY} \
ANTHROPIC_DEFAULT_OPUS_MODEL=hf:moonshotai/Kimi-K2-Thinking \
ANTHROPIC_DEFAULT_SONNET_MODEL=hf:MiniMaxAI/MiniMax-M2 \
ANTHROPIC_DEFAULT_HAIKU_MODEL=hf:MiniMaxAI/MiniMax-M2 \
CLAUDE_CODE_SUBAGENT_MODEL=hf:zai-org/GLM-4.6 \
CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 \
claude "$@"
}
После этого просто пишем в терминале
synclaude и радуемся специальному клоду (не забудьте задать ключи SYNTHETIC_API_KEY у себя в env). Я успел проверить - работает довольно бодро и стабильно.Еще, люди в чатах жаловались, что подписки от китайцев на китайские модели работают довольно медленно. Мои быстрые эксперименты с Synthetic показали, что их модели прям шустренько отвечают.
Отмечу, что в таком варианте подписке есть еще один неочевидный плюс, в отличие от китайских - новые LLM выходят стремительно и неизвестно какая опенсорс LLM будет лучшей для кодинга завтра. Здесь же выглядит так, что ребята добавляют поддержку хороших моделей очень быстро (на реддите писали, что K2 Thinking они первые в US развернули).
2. API по подписке
Интересно, что любую из доступных always-on моделей можно так же использовать и через API по подписке.
3. Деплой своих моделей
Неочевидный приятный бонус - этот сервис так же умеет разворачивать почти любую LLM с HugginFace (on demand) и это прямо находка для тех, кто деплоит локальные ллмки в организациях - есть возможность очень быстро и дешево протестировать LLMку или ее кванты. Мною проверено - работает.
Приятная рефералка
Пользуясь случаем, поделюсь своей реф ссылкой на этой сервис https://synthetic.new/?referral=eWEfhLA6nZXwE1D - в случае подписки, +10$ на баланс прилетит и мне и вам.
@ai_driven
1👍34❤7
Мой воркфлоу: Opus 4.5, Gemini 3 Pro, GPT-5.1-Codex-Max
Коль скоро новыйая Opus теперь доступна в подписке Claude за 20$, самое время для нового поста.
В "свободное от работы время" я пишу Next.js фулл стэк приложение полностью нейронками. Интересно, что еще год назад, когда мы делали CodeAlive и нужно было запрогать фронтэнд, мы нанимали разработчика для этого - сейчас уже, покодив пару недель фронт, в принципе, я делаю вывод, что любой бекендщик с какой-то элементарной базой по фронтэнду (стэк, линтинг), может вполне успешно генерить красивый и функциональный фронт разной сложности. Конечно, UX в таком случае всегда будет слабым местом, но это уже совсем другая история, о которой я обязательно отдельно расскажу чуть позже.
А теперь, к сравнению. Все, что ниже почти полностью базируется на моем опыте.
Opus 4.5 - бизнес аналитик и архитектор.
Горячо рекомендую Opus 4.5 для создания/дошлифовки спеки или плана (SDD) - мне понравилось как он работает в Plan Mode внутри CC - особенно актуально когда вы даете на вход не до конца проработанную фичу (а фичи вообще редко когда сразу хорошо продуманы), Claude в этом случае прежде, чем перейти к реализации, задаст вам ряд хороших уточняющих вопросов - для взрослой разработки самое то. Кстати, на создание одного такого плана у меня ушло 5$ extra usage (это было ещё до того, как Опус открыли для Pro подписки).
Отмечу ещё, что Опус за one shot решила заковыристую задачу по фронтэнду, с которой Gemini 3 Pro не справилась даже за несколько запросов.
Из неочевидного - бенчмарки на качество код ревью показывают очень низкие результаты для Opus 4.5. В CC перключиться на Opus можно командой
Едем дальше - по остальным моделям сейчас картина следующая:
Gemini 3 Pro + Nano Banana Pro - дизайнер и очень скиловый frontend разработчик, который почти наверняка напишет вам куда более крутой дизайн, чем большинство студий. Проще всего использовать внутри Antigravity, там же удобно запрягать эту модельки сходить потестировать ваше приложение в браузере - уж больно хорошо субагент в Antigravity управляет браузером. В "ежедневной" агентной разработке пока не нашел места для новой Gemini.
Sonnet 4.5 - быстрый, но иногда невнимательный джун-исполнитель, который может пропускать пункты спеки или делать их "на отвали", поэтому ей лучше не давать большие задачи и выполнение спеки. А еще, 1Сники очень хвалят эту модель как выдающуюся для BSL.
GPT-5.1-Codex-Max (medium) - медленный, но довольно внимательный к деталям джун-исполнитель. Пока лучший вариант для выполнения больших задач по спеке (не считая комбайнов типа CodeMachine).
GPT-5.1-Codex-Max (xhigh) - а это программист-олимпиадник, способный придумать и реализовать наиболее запутанные алгоритмы и найти причину даже самых коварных багов. Еще, вероятно, это лучшая CLI-комбинация для глубокого код ревью. Напомню, что запускается эта модель командой
Бонус: GPT 5.1 Pro - это, пожалуй, лучший выбор если вы хотите за one-shot нагенерить план реализации и архитектуру для целого сервиса или эпика по тех. заданию - буквально, скидываете ей описание сервиса или фичи, функциональные и нефункциональные требования и получаете почти готовый план реализации. Она подумает 10-20 минут и выдаст наиболее продуманный результат, который потом можно дорабатывать через ту же Opus и отдавать дальше на реализацию исполнителям. Лайфхак: просите эту модель продумать только архитектуру, схему БД, DTOшки, использовать UML/C4 и НЕ писать код. А конкретный код и финальную реализацию пусть пишут кодагенты, подстраиваясь под ваш проект. В сложном код ревью прошка тоже с большей вероятностью отработает лучше всех. Это весьма продвинутый подход к SDD (Spec-Driven Development) - напишите, если интересно подробнее почитать про этот флоу, там есть что описывать.
Кстати, друг нашего канала Максим Этихлид тоже выпустил отличный обзор на новенькие LLMки, если еще не читали, как всегда - рекомендую.
А какие результаты новые модельки показывают на ваших задачах? На сколько преобразился ваш воркфлоу за последний месяц?
@ai_driven
Коль скоро нов
В "свободное от работы время" я пишу Next.js фулл стэк приложение полностью нейронками. Интересно, что еще год назад, когда мы делали CodeAlive и нужно было запрогать фронтэнд, мы нанимали разработчика для этого - сейчас уже, покодив пару недель фронт, в принципе, я делаю вывод, что любой бекендщик с какой-то элементарной базой по фронтэнду (стэк, линтинг), может вполне успешно генерить красивый и функциональный фронт разной сложности. Конечно, UX в таком случае всегда будет слабым местом, но это уже совсем другая история, о которой я обязательно отдельно расскажу чуть позже.
А теперь, к сравнению. Все, что ниже почти полностью базируется на моем опыте.
Opus 4.5 - бизнес аналитик и архитектор.
Горячо рекомендую Opus 4.5 для создания/дошлифовки спеки или плана (SDD) - мне понравилось как он работает в Plan Mode внутри CC - особенно актуально когда вы даете на вход не до конца проработанную фичу (а фичи вообще редко когда сразу хорошо продуманы), Claude в этом случае прежде, чем перейти к реализации, задаст вам ряд хороших уточняющих вопросов - для взрослой разработки самое то. Кстати, на создание одного такого плана у меня ушло 5$ extra usage (это было ещё до того, как Опус открыли для Pro подписки).
Отмечу ещё, что Опус за one shot решила заковыристую задачу по фронтэнду, с которой Gemini 3 Pro не справилась даже за несколько запросов.
Из неочевидного - бенчмарки на качество код ревью показывают очень низкие результаты для Opus 4.5. В CC перключиться на Opus можно командой
/model.Едем дальше - по остальным моделям сейчас картина следующая:
Gemini 3 Pro + Nano Banana Pro - дизайнер и очень скиловый frontend разработчик, который почти наверняка напишет вам куда более крутой дизайн, чем большинство студий. Проще всего использовать внутри Antigravity, там же удобно запрягать эту модельки сходить потестировать ваше приложение в браузере - уж больно хорошо субагент в Antigravity управляет браузером. В "ежедневной" агентной разработке пока не нашел места для новой Gemini.
Sonnet 4.5 - быстрый, но иногда невнимательный джун-исполнитель, который может пропускать пункты спеки или делать их "на отвали", поэтому ей лучше не давать большие задачи и выполнение спеки. А еще, 1Сники очень хвалят эту модель как выдающуюся для BSL.
GPT-5.1-Codex-Max (medium) - медленный, но довольно внимательный к деталям джун-исполнитель. Пока лучший вариант для выполнения больших задач по спеке (не считая комбайнов типа CodeMachine).
GPT-5.1-Codex-Max (xhigh) - а это программист-олимпиадник, способный придумать и реализовать наиболее запутанные алгоритмы и найти причину даже самых коварных багов. Еще, вероятно, это лучшая CLI-комбинация для глубокого код ревью. Напомню, что запускается эта модель командой
codex --config model_reasoning_effort="xhigh".Бонус: GPT 5.1 Pro - это, пожалуй, лучший выбор если вы хотите за one-shot нагенерить план реализации и архитектуру для целого сервиса или эпика по тех. заданию - буквально, скидываете ей описание сервиса или фичи, функциональные и нефункциональные требования и получаете почти готовый план реализации. Она подумает 10-20 минут и выдаст наиболее продуманный результат, который потом можно дорабатывать через ту же Opus и отдавать дальше на реализацию исполнителям. Лайфхак: просите эту модель продумать только архитектуру, схему БД, DTOшки, использовать UML/C4 и НЕ писать код. А конкретный код и финальную реализацию пусть пишут кодагенты, подстраиваясь под ваш проект. В сложном код ревью прошка тоже с большей вероятностью отработает лучше всех. Это весьма продвинутый подход к SDD (Spec-Driven Development) - напишите, если интересно подробнее почитать про этот флоу, там есть что описывать.
Кстати, друг нашего канала Максим Этихлид тоже выпустил отличный обзор на новенькие LLMки, если еще не читали, как всегда - рекомендую.
А какие результаты новые модельки показывают на ваших задачах? На сколько преобразился ваш воркфлоу за последний месяц?
@ai_driven
4❤38👍36
Запись моего доклада про Context Engineering на Kolesa Conf + Анонсы встреч
В октябре я выступил с докладом на самой масштабной конференции в Казахстане Kolesa Conf - спасибо ребятам из Kolesa Group за максимально проработанную подготовку и отличную организацию!
В докладе я рассказывал в основном про грамотную работу с контекстом, а также о том, как готовят контекст AI агенты и специализированные инструменты на примере CodeAlive.
Ссылка на запись: https://youtu.be/LKxGwFiSQD0?si=fCiOBhjWiGjksene
Анонсы
В понедельник 29 декабря на этом канале в прямом эфире проведем интервью с одним из создателей Zenflow в 16:00 по Алматы, 14:00 МСК, 12:00 по CET.
Также ближайшее время ожидайте:
1. Интервью с CTO об опыте успешного внедрения AI в разработку
2. Интервью с одним из создателей SWE Rebench (популярный AI кодинг бенчмарк)
3. Интервью с одним из победителей ERC чемпионата про создание AI агентов для энтерпрайз задач.
4. Прожарка UX AI-generated интерфейсов профессиональным UX дизайнером (кстати, можете уже присылать мне в ЛС @rodion_m_tg интерфейсы своих аппок, мы выберем 5 лучших).
Так что следите за каналом - будет интересно.
@ai_driven
В октябре я выступил с докладом на самой масштабной конференции в Казахстане Kolesa Conf - спасибо ребятам из Kolesa Group за максимально проработанную подготовку и отличную организацию!
В докладе я рассказывал в основном про грамотную работу с контекстом, а также о том, как готовят контекст AI агенты и специализированные инструменты на примере CodeAlive.
Ссылка на запись: https://youtu.be/LKxGwFiSQD0?si=fCiOBhjWiGjksene
Анонсы
В понедельник 29 декабря на этом канале в прямом эфире проведем интервью с одним из создателей Zenflow в 16:00 по Алматы, 14:00 МСК, 12:00 по CET.
Также ближайшее время ожидайте:
1. Интервью с CTO об опыте успешного внедрения AI в разработку
2. Интервью с одним из создателей SWE Rebench (популярный AI кодинг бенчмарк)
3. Интервью с одним из победителей ERC чемпионата про создание AI агентов для энтерпрайз задач.
4. Прожарка UX AI-generated интерфейсов профессиональным UX дизайнером (кстати, можете уже присылать мне в ЛС @rodion_m_tg интерфейсы своих аппок, мы выберем 5 лучших).
Так что следите за каналом - будет интересно.
@ai_driven
YouTube
Контекст решает: усиливаем AI-агентов для всей R&D-команды
Доклад для разработчиков, тестировщиков и аналитиков о том, как работают с контекстом Claude Code, Cursor, Copilot и другие AI-инструменты, включая детальный разбор работы с контекстом в CodeAlive. Узнаем про Context Engineering, сравним подходы с Embeddings…
👍16❤5
2 часа до митапа по Zenflow и SDD
PRD/спека to production-ready code за ваншот - это реальность? Если решать задачу в лоб, то, конечно нет. Но если как сдедует отревьюить спеку, создать по ней проработанный план и запустить этот план на поэтапную реализацию через оркестратор код-агентов, то задача становится куда более реальной. И продуктов, которые бы позволили автоматизировать все эти шаги сейчас на рынке почти нет.
Zenflow
Но хорошая новость в том, что ребята из Zencoder постарались элегантно объединить все шаги выше и назвали этот новый тул Zenflow - фактически, это оркестратор разных AI-агентов (надо отдать должное команде, что на старте есть возможность работать со сторонними агентами - Claude и Codex). Признаюсь, я давно ждал такой оркестратор и уже около недели пользуюсь этим продуктом. И он мне нравится.
У меня накопилось некоторое количество вопросов по этому инструменту, поэтому я позвал Николая Андрейчука из команды Zenflow провести митап специально для аудитории нашего канала.
Встречаемся сегодня в 16:00 по Алматы, 14:00 МСК, 12:00 по CET.
Встреча пройдет в Zoom, поэтому у тех, кто подключиться в прямой эфир будет возможность задать вопросы Николаю.
PS. А уже в этот вторник встречаемся на UX прожарку с Алексеем Тушкановым в 17:00 по Алматы, 15:00 МСК и 13:00 по CET.
@ai_driven
PRD/спека to production-ready code за ваншот - это реальность? Если решать задачу в лоб, то, конечно нет. Но если как сдедует отревьюить спеку, создать по ней проработанный план и запустить этот план на поэтапную реализацию через оркестратор код-агентов, то задача становится куда более реальной. И продуктов, которые бы позволили автоматизировать все эти шаги сейчас на рынке почти нет.
Zenflow
Но хорошая новость в том, что ребята из Zencoder постарались элегантно объединить все шаги выше и назвали этот новый тул Zenflow - фактически, это оркестратор разных AI-агентов (надо отдать должное команде, что на старте есть возможность работать со сторонними агентами - Claude и Codex). Признаюсь, я давно ждал такой оркестратор и уже около недели пользуюсь этим продуктом. И он мне нравится.
У меня накопилось некоторое количество вопросов по этому инструменту, поэтому я позвал Николая Андрейчука из команды Zenflow провести митап специально для аудитории нашего канала.
Встречаемся сегодня в 16:00 по Алматы, 14:00 МСК, 12:00 по CET.
Встреча пройдет в Zoom, поэтому у тех, кто подключиться в прямой эфир будет возможность задать вопросы Николаю.
PS. А уже в этот вторник встречаемся на UX прожарку с Алексеем Тушкановым в 17:00 по Алматы, 15:00 МСК и 13:00 по CET.
@ai_driven
👍15❤9
Прожарка UX через 45 минут в прямом эфире
Хороший продуманный UX всегда был редкостью - до сих пор остается огромное множество красивых, но совершенно непонятных и неудобных интерфейсов - причем, как в дорогих продуктах, так и в AI-generated интерфейсах. Если AI уже прекрасно генерирует интерфейсы почти любой сложности, то абсолютно не факт, что эти интерфейсы будут понятны вашим пользователям. Это как раз та проблема, с которой мы столкнулись в CodeAlive. К счастью, нам повезло посотрудничать с очень опытным UX-специалистом, он помог нам провести несколько сессий и выявить ключевые проблемы в наших флоу. Поскольку я повсеместно вижу неудобные приложения и периодически сам страдаю от этого - в целом, я вижу определенную миссию в распространении знаний о том, что же такое хороший UX.
Так вот, совместно с Алексеем Тушкановым мы запускаем новый эксперементальный формат прожарки UX ваших интерфейсов. Мы собрали несколько реальных приложений и их фаундеров и в прямом эфире проведем разбор их интерфейсов по фреймворку Алексея. А заодно проверим, на сколько современный AI может быть полезен в задачах на улучшение UX.
В общем, формат должен быть особенно интересен тем, ктовайбкодит создает свои приложения и заинтересован в их успехе.
Встреча сегодня в 17:00 по Алматы, 15:00 МСК и 13:00 по CET.
Хороший продуманный UX всегда был редкостью - до сих пор остается огромное множество красивых, но совершенно непонятных и неудобных интерфейсов - причем, как в дорогих продуктах, так и в AI-generated интерфейсах. Если AI уже прекрасно генерирует интерфейсы почти любой сложности, то абсолютно не факт, что эти интерфейсы будут понятны вашим пользователям. Это как раз та проблема, с которой мы столкнулись в CodeAlive. К счастью, нам повезло посотрудничать с очень опытным UX-специалистом, он помог нам провести несколько сессий и выявить ключевые проблемы в наших флоу. Поскольку я повсеместно вижу неудобные приложения и периодически сам страдаю от этого - в целом, я вижу определенную миссию в распространении знаний о том, что же такое хороший UX.
Так вот, совместно с Алексеем Тушкановым мы запускаем новый эксперементальный формат прожарки UX ваших интерфейсов. Мы собрали несколько реальных приложений и их фаундеров и в прямом эфире проведем разбор их интерфейсов по фреймворку Алексея. А заодно проверим, на сколько современный AI может быть полезен в задачах на улучшение UX.
В общем, формат должен быть особенно интересен тем, кто
Встреча сегодня в 17:00 по Алматы, 15:00 МСК и 13:00 по CET.
1👍11
Разбор SOTA агента от Ильи Рис - победителя ERC3
Ну что, друзья как начался ваш год? Надеюсь, что хорошо и что вы отдыхаете!
Пока все отдыхают, мы с Ильей собрались и записали бомбическое интервью об архитектуре его AI-агента, который недавно взял первое место в соревновании ERC-3 Рината Абдуллина среди агентов на базе опенсорс моделей. В итоге получился великолепный материал по Context Engineering в мультиагентных системах. Поэтому хочется отдельно сказать спасибо Илье за такую открытость. Напомню, кстати, что статья Ильи про архитектуру его RAG системы, наверное, является наиболее залайканым материалом по RAG на Хабре за все время (+161!).
Мне было особенно интересно разобрать именно решение Ильи, т. к. мне часто приходится общаться с энтерпрайзами и банками, а они очень уж любят открытые модели и почти не используют проприетарные.
В общем, без лишних слов - тот редкий случай, когда множество инсайтов обеспечены даже матерым агентоводам.
Запись интервью-разбора: https://youtu.be/3JYHMMw5WSU
Таймкоды:
00:00:02 Вступление. Илья Rice и его победа в бенчмарке агентов ERC-3
00:06:03 Что из себя представляет соревнование ERC-3: симуляция энтерпрайз среды
00:13:39 Open Source решение и инструмент визуализации трейсов
00:18:07 Архитектура решения: определение пользователя (WhoAmI) и прав доступа
00:24:14 Динамический системный промпт: как не засорять контекст
00:38:06 Хак с пагинацией: Wrapper для API инструментов
00:41:14 Структура ответа агента: State, Plan, Action, Function
00:44:02 Почему отказались от нативного Tool Calling в пользу Structured Output
00:51:13 Стоит ли верить публичным бенчмаркам?
00:55:45 Разбор реального кейса: задача по смене статуса проекта
01:03:30 Почему не использовали классический RAG
01:05:58 Динамическая подгрузка инструкций для инструментов
01:11:14 Валидатор (The Validator): отдельная LLM для проверки действий агента
01:21:43 Работа с контекстом: работа с ошибками агента
01:33:20 Техника Sliding Window: обрезка истории для экономии внимания модели
01:36:05 Store Benchmark: Оркестратор и специализированные субагенты
01:44:26 Выбор моделей: почему Open Source
01:45:41 Заключение
Исходный код агента Ильи: https://github.com/IlyaRice/Enterprise-RAG-Challenge-3-AI-Agents
Трейсы агента: https://ilyarice.github.io/Enterprise-RAG-Challenge-3-AI-Agents/
Чат с исходным кодом агента в CodeAlive: https://app.codealive.ai/public/chat/3geNycM--lLbA3vxL272vA
P. S. А уже в этот вторник 6-го января в 12:00 по Лондону, 13:00 по CET, 15:00 по МСК и 17:00 по Алматы состоится встреча с Ибрагимом - автором SWE-бенчмарка SWE-rebench и автором тг-канала @c0mmit. Добавляйте событие в календарь, чтобы не пропустить.
Ну что, друзья как начался ваш год? Надеюсь, что хорошо и что вы отдыхаете!
Пока все отдыхают, мы с Ильей собрались и записали бомбическое интервью об архитектуре его AI-агента, который недавно взял первое место в соревновании ERC-3 Рината Абдуллина среди агентов на базе опенсорс моделей. В итоге получился великолепный материал по Context Engineering в мультиагентных системах. Поэтому хочется отдельно сказать спасибо Илье за такую открытость. Напомню, кстати, что статья Ильи про архитектуру его RAG системы, наверное, является наиболее залайканым материалом по RAG на Хабре за все время (+161!).
Мне было особенно интересно разобрать именно решение Ильи, т. к. мне часто приходится общаться с энтерпрайзами и банками, а они очень уж любят открытые модели и почти не используют проприетарные.
В общем, без лишних слов - тот редкий случай, когда множество инсайтов обеспечены даже матерым агентоводам.
Запись интервью-разбора: https://youtu.be/3JYHMMw5WSU
Таймкоды:
00:00:02 Вступление. Илья Rice и его победа в бенчмарке агентов ERC-3
00:06:03 Что из себя представляет соревнование ERC-3: симуляция энтерпрайз среды
00:13:39 Open Source решение и инструмент визуализации трейсов
00:18:07 Архитектура решения: определение пользователя (WhoAmI) и прав доступа
00:24:14 Динамический системный промпт: как не засорять контекст
00:38:06 Хак с пагинацией: Wrapper для API инструментов
00:41:14 Структура ответа агента: State, Plan, Action, Function
00:44:02 Почему отказались от нативного Tool Calling в пользу Structured Output
00:51:13 Стоит ли верить публичным бенчмаркам?
00:55:45 Разбор реального кейса: задача по смене статуса проекта
01:03:30 Почему не использовали классический RAG
01:05:58 Динамическая подгрузка инструкций для инструментов
01:11:14 Валидатор (The Validator): отдельная LLM для проверки действий агента
01:21:43 Работа с контекстом: работа с ошибками агента
01:33:20 Техника Sliding Window: обрезка истории для экономии внимания модели
01:36:05 Store Benchmark: Оркестратор и специализированные субагенты
01:44:26 Выбор моделей: почему Open Source
01:45:41 Заключение
Исходный код агента Ильи: https://github.com/IlyaRice/Enterprise-RAG-Challenge-3-AI-Agents
Трейсы агента: https://ilyarice.github.io/Enterprise-RAG-Challenge-3-AI-Agents/
Чат с исходным кодом агента в CodeAlive: https://app.codealive.ai/public/chat/3geNycM--lLbA3vxL272vA
P. S. А уже в этот вторник 6-го января в 12:00 по Лондону, 13:00 по CET, 15:00 по МСК и 17:00 по Алматы состоится встреча с Ибрагимом - автором SWE-бенчмарка SWE-rebench и автором тг-канала @c0mmit. Добавляйте событие в календарь, чтобы не пропустить.
YouTube
Как создать стабильную мульти-агентную систему для Enterprise в 2026 | Илья Рис - победитель ERC3
Разбираем архитектуру агентных систем: как готовить контекст для AI-агентов, зачем нужна валидация их решений и почему важно не перегружать агента лишней информацией. Илья рассказывает о подходах к фильтрации данных, работе с историей диалогов и объясняет…
1👍22❤16
Рефлексия для Claude Code или пусть он настроит себя сам
А вы знали, что можно настраивать Claude Code, прямо через Claude Code?
Для этого достаточно написать в чат, например:
> Добавь хук, который блокирует глобальные rm -rf команды
> Добавь хук, который спрашивает разрешение на команды с 'db reset'
или так:
> Установи Grafana MCP
> Измени мой API-ключ CodeAlive в конфиге MCP
Классно же?
Так вот, я удивлюсь если вы знали о такой возможности, потому что в действительности в дефолтном Claude Code такая возможность отсутствует. Поэтому я сделал плагин, который позволяет вносить в настройки CC почти любые изменения, просто написав об этом текстом самому клоду, как в примерах выше - плагин так и называется Claude Code Reflection.
Что еще входит в плагин:
Управление скиллами
Просмотр, настройка, удаление, перемещение user scope - project scope и даже ревью.
Управление субагентами
Создание, изменение и удаление субагентов с корректными разрешениями.
Создание и публикация плагинов
Сделали классный скилл или скиллы и хотите упаковать их в плагин и отдать в пользование этому миру? Не проблема, claude-plugins-manager скилл там как раз для этого.
Напомню, что поскольку весь функционал плагина реализован в виде скиллов, они очень экономны к контексту (менее 500 токенов в сумме).
Ну, и бонусом: Claude Best Practices Skill
Скилл проверяет, на сколько хорошо ваш проект (кодовая база) и сам клод оптимизированы под эффективную работу Claude и фактически делает аудит контекста и кода, и дает рекомендации по оптимизации. Еще, это скилл можно в принципе поспрашивать про актуальные лучшие практики CC.
---
Устанавливается двумя командами. Запускаем claude и:
Теперь перезапускам Claude Code и вуаля - теперь ваш клод как после сеанса к психотерапевту, прокаченный рефлексией.
Код, конечно, открыт, а звезды приветствуются: https://github.com/CodeAlive-AI/claude-code-reflection-skills
Кстати, пока я занимался этими мета-скиллами, осознал сколько же всевозможных сущностей с разными нюансами появилось в CC, отсюда возникла идея для нового стрима с разбором всего этого разнообразия и практическими кейсами под каждую сущность, интересно ли кому-то такое?
@ai_driven
А вы знали, что можно настраивать Claude Code, прямо через Claude Code?
Для этого достаточно написать в чат, например:
> Добавь хук, который блокирует глобальные rm -rf команды
> Добавь хук, который спрашивает разрешение на команды с 'db reset'
или так:
> Установи Grafana MCP
> Измени мой API-ключ CodeAlive в конфиге MCP
Классно же?
Так вот, я удивлюсь если вы знали о такой возможности, потому что в действительности в дефолтном Claude Code такая возможность отсутствует. Поэтому я сделал плагин, который позволяет вносить в настройки CC почти любые изменения, просто написав об этом текстом самому клоду, как в примерах выше - плагин так и называется Claude Code Reflection.
Что еще входит в плагин:
Управление скиллами
Просмотр, настройка, удаление, перемещение user scope - project scope и даже ревью.
Управление субагентами
Создание, изменение и удаление субагентов с корректными разрешениями.
Создание и публикация плагинов
Сделали классный скилл или скиллы и хотите упаковать их в плагин и отдать в пользование этому миру? Не проблема, claude-plugins-manager скилл там как раз для этого.
Напомню, что поскольку весь функционал плагина реализован в виде скиллов, они очень экономны к контексту (менее 500 токенов в сумме).
Ну, и бонусом: Claude Best Practices Skill
Скилл проверяет, на сколько хорошо ваш проект (кодовая база) и сам клод оптимизированы под эффективную работу Claude и фактически делает аудит контекста и кода, и дает рекомендации по оптимизации. Еще, это скилл можно в принципе поспрашивать про актуальные лучшие практики CC.
---
Устанавливается двумя командами. Запускаем claude и:
# Сначала добавляем маркетплейс, чтобы плагин появился в поле зрения
/plugin marketplace add https://github.com/CodeAlive-AI/claude-code-reflection-skills.git
# Теперь ставим сам плагин
/plugin install claude-code-reflection-skills@claude-code-reflection-skills
Теперь перезапускам Claude Code и вуаля - теперь ваш клод как после сеанса к психотерапевту, прокаченный рефлексией.
Код, конечно, открыт, а звезды приветствуются: https://github.com/CodeAlive-AI/claude-code-reflection-skills
Кстати, пока я занимался этими мета-скиллами, осознал сколько же всевозможных сущностей с разными нюансами появилось в CC, отсюда возникла идея для нового стрима с разбором всего этого разнообразия и практическими кейсами под каждую сущность, интересно ли кому-то такое?
@ai_driven
GitHub
GitHub - CodeAlive-AI/agents-reflection-skills: A comprehensive collection of meta-skills for Claude Code that enable self-management…
A comprehensive collection of meta-skills for Claude Code that enable self-management and reflection capabilities - CodeAlive-AI/agents-reflection-skills
3👍93❤15
Новый сезон - AI-Driven Development
Давненько ничего не писал сюда - уж очень был увлечен и стартапом и адаптацией кодбазы под агентов. Материалов и экспертов накопилось множество, поэтому я возобновляю и блог и YouTube канал.
AI-Ready Codebase
Открываем сезон с Максимом, автором канала Этихлид с разговором о том, что на практике нужно сделать в больших кодовых базах, чтобы получать от кодагентов желаемый результат.
О чем будем говорить с Максимом
— Почему большой проект нельзя просто «бросить в агента» и что делать вместо этого
— Иерархия MD-файлов как навигационный слой поверх кода: архитектура, сущности, процессы
— Минимальный набор документации для legacy-проекта: что писать и в каком объёме
— Онтологии и графы зависимостей: зачем строить и как поддерживать
— Агенты для исследования legacy: формат «поставил — подождал — получил отчёт»
— Граундинг на существующий код при внедрении новых фич: как агент находит противоречия раньше людей
— Проблема памяти агентов и почему MD-файлы пока лучшее, что у нас есть
Встречи проходят Live, поэтому будет возможность задавать вопросы спикерам.
Дата и время: вторник 3 марта 16:00 МСК.
Длительность: 1.5 часа.
Добавляйте встречу в календарь, чтобы не забыть: https://luma.com/43ur3kl3
Расписание новых встреч (под спойлером, чтобы с толку не сбивало :))
Четверг 5 марта 16:00 МСК встреча с Денисом DEKSDEN (автор канала @deksden_notes ) про его флоу агентной разработки для генерации десяток тысяч строк prod-ready кода. Ссылка на событие .
Понедельник 9 марта 13:00 МСК - встреча с Иваном Закутным (автор канала @neuralstack ) про First Principle Framework в контексте агентной разработки и инструмент quint-code. Ссылка на событие .
Чуть позже будут еще анонсы, следите за каналом.
А если вы знаете интересных гостей, которым есть что полезного рассказать - присылайте кандидатов в личку или в комментарии к этому посту.
@ai_driven — AI-Driven Development
Давненько ничего не писал сюда - уж очень был увлечен и стартапом и адаптацией кодбазы под агентов. Материалов и экспертов накопилось множество, поэтому я возобновляю и блог и YouTube канал.
AI-Ready Codebase
Открываем сезон с Максимом, автором канала Этихлид с разговором о том, что на практике нужно сделать в больших кодовых базах, чтобы получать от кодагентов желаемый результат.
О чем будем говорить с Максимом
— Почему большой проект нельзя просто «бросить в агента» и что делать вместо этого
— Иерархия MD-файлов как навигационный слой поверх кода: архитектура, сущности, процессы
— Минимальный набор документации для legacy-проекта: что писать и в каком объёме
— Онтологии и графы зависимостей: зачем строить и как поддерживать
— Агенты для исследования legacy: формат «поставил — подождал — получил отчёт»
— Граундинг на существующий код при внедрении новых фич: как агент находит противоречия раньше людей
— Проблема памяти агентов и почему MD-файлы пока лучшее, что у нас есть
Встречи проходят Live, поэтому будет возможность задавать вопросы спикерам.
Дата и время: вторник 3 марта 16:00 МСК.
Длительность: 1.5 часа.
Добавляйте встречу в календарь, чтобы не забыть: https://luma.com/43ur3kl3
Расписание новых встреч (под спойлером, чтобы с толку не сбивало :))
Понедельник 9 марта 13:00 МСК - встреча с Иваном Закутным (автор канала
Чуть позже будут еще анонсы, следите за каналом.
А если вы знаете интересных гостей, которым есть что полезного рассказать - присылайте кандидатов в личку или в комментарии к этому посту.
@ai_driven — AI-Driven Development
Luma
AI-Ready Codebase: Максим Этихлид и Родион Мостовой · Zoom · Luma
О чем будем говорить с Максимом
— Почему большой проект нельзя просто «бросить в агента» и что делать вместо этого
— Иерархия MD-файлов как навигационный слой…
— Почему большой проект нельзя просто «бросить в агента» и что делать вместо этого
— Иерархия MD-файлов как навигационный слой…
👍32❤7
Тест-система как гарант качества AI-generated кода
Я пишу большой гайд о том, как грамотно использовать и получать высококачественный результат от AI-агентов и многоуровневая надежная тест-система там является центральной фигурой, эдакой страховочой сеткой (safety net), гарантирующей корректность кода на выходе.
И ключевая идея подхода, который я продвигаю в том, что следует стремиться к такой тест-системе, которая будет ловить 100% проблем и багов еще до того как они попали на прод - т. е., цель тест системы в том, чтобы баги не доходили до прода в принципе. И дальше самое важное - если вдруг какой-то баг дошел до прода - значит, это, прежде всего, баг тест-системы - значит, мы где-то облажались с дизайном тест-системы.
И вот тут важно, прошу заметить, что в моей парадигме к "тестам" системы относятся не только классические юнит/интеграционные/e2e тесты, но и PRD assessment, review спеки, review кода и прогон статическим анализатором и визуальные тесты - это все очень важные части тест-системы. Более детально именно составляющие тест-системы я напишу в отдельном посте (хотя, фактически, там описание каждого этапа заслуживает отдельного поста :))
В качестве примера - упрощенный протокол по багфиксу:
Полностью протокол тут: https://github.com/CodeAlive-AI/ai-driven-development/blob/main/BUG-FIX-PROTOCOL.md
P.S. Этот протокол предполагает, что принцип работы тест системы вашего проекта описан в папке docs/test-system. Ещё, из этого протокола легко генерится скилл.
Поделитесь в комментариях какие интересные техники вы применяете для верификации изменений от AI агента и какие инсайты для себя открыли на этом пути?
@ai_driven — AI-Driven Development
Я пишу большой гайд о том, как грамотно использовать и получать высококачественный результат от AI-агентов и многоуровневая надежная тест-система там является центральной фигурой, эдакой страховочой сеткой (safety net), гарантирующей корректность кода на выходе.
И ключевая идея подхода, который я продвигаю в том, что следует стремиться к такой тест-системе, которая будет ловить 100% проблем и багов еще до того как они попали на прод - т. е., цель тест системы в том, чтобы баги не доходили до прода в принципе. И дальше самое важное - если вдруг какой-то баг дошел до прода - значит, это, прежде всего, баг тест-системы - значит, мы где-то облажались с дизайном тест-системы.
И вот тут важно, прошу заметить, что в моей парадигме к "тестам" системы относятся не только классические юнит/интеграционные/e2e тесты, но и PRD assessment, review спеки, review кода и прогон статическим анализатором и визуальные тесты - это все очень важные части тест-системы. Более детально именно составляющие тест-системы я напишу в отдельном посте (хотя, фактически, там описание каждого этапа заслуживает отдельного поста :))
В качестве примера - упрощенный протокол по багфиксу:
1. Разберись, что сломалось и придумай как это воспроизвести. Что-то непонятно - спроси, не гадай.
2. Воспроизведи баг через тест - если воспроизвести невозможно, явно скажи об этом с обоснованием.
3. Найди настоящую причину. Не симптом, а корень.
4. Придумай грамотный фикс, а не костыль. Если тянет на большой рефакторинг — остановись и спроси меня.
5. Почини с минимальными правками, чтобы не аффектить другие части системы.
6. Запусти тест. Тест зелёный? Соседние тесты не сломались? Идём дальше.
7. Оглянись: раз тест система не поймала эту проблему, значит пласт подобных проблем может быть где-то ещё в проекте - проведи глубокое ревью и найди подобные проблемы.
8. И теперь главное - почему наша тест-система упустила этот баг? Проведи аудит тест системы и найди способом улучшить тест-систему так, чтобы не допустить подобные проблемы в будущем.
Каждый баг-фикс — это два фикса: код и патчинг тест-системы, которая его проморгала.
Полностью протокол тут: https://github.com/CodeAlive-AI/ai-driven-development/blob/main/BUG-FIX-PROTOCOL.md
P.S. Этот протокол предполагает, что принцип работы тест системы вашего проекта описан в папке docs/test-system. Ещё, из этого протокола легко генерится скилл.
Поделитесь в комментариях какие интересные техники вы применяете для верификации изменений от AI агента и какие инсайты для себя открыли на этом пути?
@ai_driven — AI-Driven Development
GitHub
ai-driven-development/BUG-FIX-PROTOCOL.md at main · CodeAlive-AI/ai-driven-development
Articles and practices for effective AI-driven development - CodeAlive-AI/ai-driven-development
4👍33❤10
Друзья, начинаем митап про AI кодинг в больших проектах через 5 минут. Приходите!
"Во всех кионтеатрах всех стран", :)) выбирайте что душе угодно.
Ссылка на Зум в Luma: https://luma.com/event/manage/evt-AuFhLXtqp1DlqGi/overview
Трансляции:
https://www.youtube.com/live/F2cpHNF0Jwg
https://rutube.ru/video/private/93a8d325a1a8be7dccc785542fe9a1ae/?p=PEbI8DRIhdVL1CAamGDD6w
Важно: Смотреть можно откуда угодно, но вопросы читаем только из Зума.
"Во всех кионтеатрах всех стран", :)) выбирайте что душе угодно.
Ссылка на Зум в Luma: https://luma.com/event/manage/evt-AuFhLXtqp1DlqGi/overview
Трансляции:
https://www.youtube.com/live/F2cpHNF0Jwg
https://rutube.ru/video/private/93a8d325a1a8be7dccc785542fe9a1ae/?p=PEbI8DRIhdVL1CAamGDD6w
Важно: Смотреть можно откуда угодно, но вопросы читаем только из Зума.
YouTube
AI-Ready Codebase
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
👍14❤9
Промпт-инжиниринг умер... или нет?
Действительно, нынешние модели (reasoning версии, прежде всего) теперь менее капризны и придирчивы к промптингу, но тем не менее все еще остается множество нюансов, которые следует учитывать при создании/отладке промпта. И часть из них совсем неочевидны.
Мы в CodeAlive постоянно улучшаем наши промпты и недавно прямо через промпт сделали файлы кликабельными, на основе этих скиллов генерируется ответ (LLM просто оборачивает название файла в ссылку). Сделали, написали тест - все ок.
Но через какое-то время мы заметили, что чатик периодически выплёвывает сырые XML-теги прямо в ответ. Пользователь спрашивает про код, а ему в ответе почти рандомно вылетает
Короче, как вы уже поняли, проблема оказалась в промпте - мы активно используем технику с XML-тегами для структурирования инпута в LLM, и в некоторых местах, когда нужно сослаться на конкретную секцию писали что-то вроде "в секции <smthng> лежат ссылки на репозитории" - так вот, этот нюанс, что мы ссылались именно через тэг и создавал тот неприятный артефакт в ответе от LLM.
В принципе, починилось это простым выпиливанием скобок:
"см. секцию <repository_links>" -> "см. секцию repository_links"
Ну, в общем, чтоб во всех этих техниках, ошибках и мис-юзах не утонуть, я, уже по традиции, соорудил скилл для вашего агента, который умеет как писать новые промпты, так и проводит аудит существующих - техник и ошибок там довольно много всяких с четким описанием юзкейсов, так что в должно быть полезно всем, кто хоть как-то соприкасается с промптингом.
Скилл: https://github.com/CodeAlive-AI/prompt-engineering-skill
Ставится одной командой:
—
Кстати, про автоматизированную отладку и улучшение промптов (мета-промптинг) я уже рассказывал в своем посте - ведь как бы здорово вы не написали промпт, все равно нужно провести ряд экспериментов конкретно на вашей LLM, чтобы убедиться, что все работает корректно.
Расскажите в комментариях о ваших факапах с промптингом и неочевидными техниками, которые пришлось применить, чтобы достичь желаемого результата.
@ai_driven
Действительно, нынешние модели (reasoning версии, прежде всего) теперь менее капризны и придирчивы к промптингу, но тем не менее все еще остается множество нюансов, которые следует учитывать при создании/отладке промпта. И часть из них совсем неочевидны.
Мы в CodeAlive постоянно улучшаем наши промпты и недавно прямо через промпт сделали файлы кликабельными, на основе этих скиллов генерируется ответ (LLM просто оборачивает название файла в ссылку). Сделали, написали тест - все ок.
Но через какое-то время мы заметили, что чатик периодически выплёвывает сырые XML-теги прямо в ответ. Пользователь спрашивает про код, а ему в ответе почти рандомно вылетает
<repository_links>. Вроде мелочь, но выглядит как баг - надо фиксить.Короче, как вы уже поняли, проблема оказалась в промпте - мы активно используем технику с XML-тегами для структурирования инпута в LLM, и в некоторых местах, когда нужно сослаться на конкретную секцию писали что-то вроде "в секции <smthng> лежат ссылки на репозитории" - так вот, этот нюанс, что мы ссылались именно через тэг и создавал тот неприятный артефакт в ответе от LLM.
В принципе, починилось это простым выпиливанием скобок:
"см. секцию <repository_links>" -> "см. секцию repository_links"
Ну, в общем, чтоб во всех этих техниках, ошибках и мис-юзах не утонуть, я, уже по традиции, соорудил скилл для вашего агента, который умеет как писать новые промпты, так и проводит аудит существующих - техник и ошибок там довольно много всяких с четким описанием юзкейсов, так что в должно быть полезно всем, кто хоть как-то соприкасается с промптингом.
Скилл: https://github.com/CodeAlive-AI/prompt-engineering-skill
Ставится одной командой:
npx skills add CodeAlive-AI/prompt-engineering-skill—
Кстати, про автоматизированную отладку и улучшение промптов (мета-промптинг) я уже рассказывал в своем посте - ведь как бы здорово вы не написали промпт, все равно нужно провести ряд экспериментов конкретно на вашей LLM, чтобы убедиться, что все работает корректно.
Расскажите в комментариях о ваших факапах с промптингом и неочевидными техниками, которые пришлось применить, чтобы достичь желаемого результата.
@ai_driven
GitHub
GitHub - CodeAlive-AI/prompt-engineering-skill: Universal prompt engineering skill for AI coding agents (Claude Code, Cursor, Gemini…
Universal prompt engineering skill for AI coding agents (Claude Code, Cursor, Gemini CLI, Codex, Goose, Windsurf, and 40+ more) - CodeAlive-AI/prompt-engineering-skill
1❤12👍6
AI-Driven Development. Родион Мостовой
Тест-система как гарант качества AI-generated кода Я пишу большой гайд о том, как грамотно использовать и получать высококачественный результат от AI-агентов и многоуровневая надежная тест-система там является центральной фигурой, эдакой страховочой сеткой…
Внимательно слежу за творчеством Андрея Бреслава и его новым продуктом CodeSpeak и интересно, на сколько мы в одну сторону думаем - только на днях я написал о важности тест-системы (верификации изменений), а ребята так же на днях выпустили новую фичу для автоматизации покрытия Python-проекта тестами: https://codespeak.dev/blog/coverage-20260302
Интересно, будем пробовать.
Ещё, CodeSpeak умеет генерировать код по спеке и наоборот спеку из кода - в принципе, сейчас и обычные агенты с таким неплохо справляются при должной сноровке, но поскольку Андрей супер-профессионал (создатель языка Kotlin на минуточку), есть высокие шансы, что CodeSpeak сможет выдавать сильно более качественный результат. Постараюсь вытащить Андрея на интервью к нам на канал.
А на очереди у меня как раз пост про повышение верифицируемости кодовых баз на Python.
Кто уже успел попробовать CodeSpeak - поделитесь фидбеком, очень интересно как это на практике работает, особенно на средних и больших проектах.
@ai_driven
Интересно, будем пробовать.
Ещё, CodeSpeak умеет генерировать код по спеке и наоборот спеку из кода - в принципе, сейчас и обычные агенты с таким неплохо справляются при должной сноровке, но поскольку Андрей супер-профессионал (создатель языка Kotlin на минуточку), есть высокие шансы, что CodeSpeak сможет выдавать сильно более качественный результат. Постараюсь вытащить Андрея на интервью к нам на канал.
А на очереди у меня как раз пост про повышение верифицируемости кодовых баз на Python.
Кто уже успел попробовать CodeSpeak - поделитесь фидбеком, очень интересно как это на практике работает, особенно на средних и больших проектах.
@ai_driven
codespeak.dev
CodeSpeak can improve test coverage in your project
New features: Improve test coverage, Takeover without preconfigured specs
👍16❤4
Митап: Agentic Engineering полного цикла или как сгенерировать пару десятков тысяч prod-ready кода
Друзья, вы тоже замечали, что использовать кодагентов в разработке можно очень по-разному? Кто-то на пару с AI агентом становится эффективнее на 10%, а кто-то на 1000%. Так вот, Денис, наш завтрашний эксперт, явно из второй категории.
Уже в этот четверг Денис (автор канала @deksden_notes) покажет нам свой воркфлоу агентной разработки.
Из известных мневайб-кодеров экспертов по агентной разработке, Денис, пожалуй, абсолютный чемпион по расходу токенов - агенты, генерирующие тысячи строк кода в параллель для него совершенная обыденность. Но интереснее всего - это воркфлоу Дениса, а именно все то, что происходит до кодогенерации (спека, планирование) и после нее (верификация, тестирование). На встрече Денис расскажет про свой протокол агентной разработки поделиться наиболее ценными инсайтами из своего воркфлоу.
Кстати, свой протокол разработки Денис подробно описал в своем канале (получилось аж 9 постов), поэтому могу смело рекомендовать сие чтиво: https://t.me/deksden_notes/197
Дата и время: 5 марта 16:00 МСК.
Ссылка на регистрацию: https://luma.com/e7clxtiw
@ai_driven — AI-Driven Development
Друзья, вы тоже замечали, что использовать кодагентов в разработке можно очень по-разному? Кто-то на пару с AI агентом становится эффективнее на 10%, а кто-то на 1000%. Так вот, Денис, наш завтрашний эксперт, явно из второй категории.
Уже в этот четверг Денис (автор канала @deksden_notes) покажет нам свой воркфлоу агентной разработки.
Из известных мне
Кстати, свой протокол разработки Денис подробно описал в своем канале (получилось аж 9 постов), поэтому могу смело рекомендовать сие чтиво: https://t.me/deksden_notes/197
Дата и время: 5 марта 16:00 МСК.
Ссылка на регистрацию: https://luma.com/e7clxtiw
@ai_driven — AI-Driven Development
Telegram
DEKSDEN notes
#DeksdenFlow - 0, TLDR
🟢 Тема с flow для агентной разработки получила довольно большое внимание, в связи с чем я решил таки потратить время и засесть за цикл постов про свой flow, который я использую для разработки.
▶️ Основной тейк этой темы: делаем…
🟢 Тема с flow для агентной разработки получила довольно большое внимание, в связи с чем я решил таки потратить время и засесть за цикл постов про свой flow, который я использую для разработки.
▶️ Основной тейк этой темы: делаем…
❤12👍10
AI-Driven Development. Родион Мостовой
Митап: Agentic Engineering полного цикла или как сгенерировать пару десятков тысяч prod-ready кода Друзья, вы тоже замечали, что использовать кодагентов в разработке можно очень по-разному? Кто-то на пару с AI агентом становится эффективнее на 10%, а кто…
Мы начали!
YouTube: https://www.youtube.com/watch?v=O3RKuenDtK4
YouTube: https://www.youtube.com/watch?v=O3RKuenDtK4
Zoom
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise cloud communications.
👍8❤1
Сегодня в 14:00 МСК продолжаем разбираться в Full-Cycle Agentic Engineering вместе с Денисом @deksden_notes.
Сегодня больше будем говорить про практическую часть:
* Флоу артефактов: откуда что берется из документов и как собирается
* CLI: особенности организации фронтенда для быстрого тестирования
* Memory bank: как устроен и как с ним работать
* Vertical slices: принципы архитектуры, удобной для агентов
* Связка сценариев и UI QA: POM,
* Кросс-эпик сценарии (что бы это ни значило)
Стрим проведем в ютубе, ссылка будет ближе к встрече.
Событие тут: https://luma.com/904bned9
Запись будет.
Сегодня больше будем говорить про практическую часть:
* Флоу артефактов: откуда что берется из документов и как собирается
* CLI: особенности организации фронтенда для быстрого тестирования
* Memory bank: как устроен и как с ним работать
* Vertical slices: принципы архитектуры, удобной для агентов
* Связка сценариев и UI QA: POM,
data-test-id, автотесты* Кросс-эпик сценарии (что бы это ни значило)
Стрим проведем в ютубе, ссылка будет ближе к встрече.
Событие тут: https://luma.com/904bned9
Запись будет.
👍20🤔1
AI-Driven Development. Родион Мостовой
Сегодня в 14:00 МСК продолжаем разбираться в Full-Cycle Agentic Engineering вместе с Денисом @deksden_notes. Сегодня больше будем говорить про практическую часть: * Флоу артефактов: откуда что берется из документов и как собирается * CLI: особенности организации…
Начинаем, друзья - https://www.youtube.com/watch?v=lbsBHC5BR8I
YouTube
Agentic Engineering AI Workflow с DEKSDEN часть 2
Канал AI-Driven Development: https://t.me/ai_driven
Канал DEKSDEN: https://t.me/deksden_notes
Канал Этихлид: https://t.me/etechlead
Канал DEKSDEN: https://t.me/deksden_notes
Канал Этихлид: https://t.me/etechlead
❤9👍2
Самый важный этап агентной разработки - уточнение требований и проработка спецификации
Знаете какой челлендж агентной разработки пока толком не решён? И на каком этапе наша роль как инженеров все ещё критически важна? Этап планирования изменений и принятия ключевых решений. В этом месте вы можете сказать - так есть же SDD, чем тебе не решение? И действительно, уже существует множество фреймворков, призванных помочь в проработке спеки: open spec, BMAD, GSD, GitHub spec kit и т. д., но проблема этих фреймворков во-первых, в качестве уточняющих вопросов, во-вторых в количестве этих вопросов - их либо слишком много, либо нет вообще. Так вот, когда человек на вход агенту отдает какую-то хотелку, для хорошего агента ключевая задача на этом этапе - это не код сгенерировать, а на основе граундинга контекста проекта (бизнесового, продуктового и технического) правильно принять ключевые решения - так, чтобы найти тот самый оптимум, который и задачу решит в приемлемый срок желательно без багов (в конце концов, временные затраты на тестирование пока никто не отменял) и не умножит тех. долг до big ball of mud, в котором каждое новое изменение что-то ломает, а каждый новый фикс этого нарушает стабильность вообще в другом месте - это, к слову, тот самый лимит, в который упёрлась Opus 4.6 со своим роем агентов при попытке создать C Compiler.
Соответственно, чем сложнее и масштабнее система, тем важнее именно этот этап проработки спеки.
И вот здесь важно, что от агента требуется именно помочь оператору в принятии ключевых оптимальных решений - я убежден, что это и есть главная цель SDD. Поэтому, хороший SDD фреймворк - это, прежде всего, операционная система анализа и принятия решений и, в итоге, основа любой зрелой системы агентной разработки. Особенно в компаниях, где профессионально разрабатывают софт.
Причем это работает на всех уровнях - от доработки PRD и UX до архитектурных и технических решений.
Так вот, SDD и верификация изменений - это темы, которые сейчас увлекают меня больше всего, поэтому дальше в канале мы будем много говорить об этом, так и проводить митапы с разбором разных подходов.
Знаете какой челлендж агентной разработки пока толком не решён? И на каком этапе наша роль как инженеров все ещё критически важна? Этап планирования изменений и принятия ключевых решений. В этом месте вы можете сказать - так есть же SDD, чем тебе не решение? И действительно, уже существует множество фреймворков, призванных помочь в проработке спеки: open spec, BMAD, GSD, GitHub spec kit и т. д., но проблема этих фреймворков во-первых, в качестве уточняющих вопросов, во-вторых в количестве этих вопросов - их либо слишком много, либо нет вообще. Так вот, когда человек на вход агенту отдает какую-то хотелку, для хорошего агента ключевая задача на этом этапе - это не код сгенерировать, а на основе граундинга контекста проекта (бизнесового, продуктового и технического) правильно принять ключевые решения - так, чтобы найти тот самый оптимум, который и задачу решит в приемлемый срок желательно без багов (в конце концов, временные затраты на тестирование пока никто не отменял) и не умножит тех. долг до big ball of mud, в котором каждое новое изменение что-то ломает, а каждый новый фикс этого нарушает стабильность вообще в другом месте - это, к слову, тот самый лимит, в который упёрлась Opus 4.6 со своим роем агентов при попытке создать C Compiler.
Соответственно, чем сложнее и масштабнее система, тем важнее именно этот этап проработки спеки.
И вот здесь важно, что от агента требуется именно помочь оператору в принятии ключевых оптимальных решений - я убежден, что это и есть главная цель SDD. Поэтому, хороший SDD фреймворк - это, прежде всего, операционная система анализа и принятия решений и, в итоге, основа любой зрелой системы агентной разработки. Особенно в компаниях, где профессионально разрабатывают софт.
Причем это работает на всех уровнях - от доработки PRD и UX до архитектурных и технических решений.
Так вот, SDD и верификация изменений - это темы, которые сейчас увлекают меня больше всего, поэтому дальше в канале мы будем много говорить об этом, так и проводить митапы с разбором разных подходов.
👍17❤4
AI-Driven Development. Родион Мостовой
Самый важный этап агентной разработки - уточнение требований и проработка спецификации Знаете какой челлендж агентной разработки пока толком не решён? И на каком этапе наша роль как инженеров все ещё критически важна? Этап планирования изменений и принятия…
Сегодня в 13:00 по МСК мы проводим митап как раз на тему системного мышления и его применения в SDD - Иван Закутный (@neuralstack) расскажет нам про FPF (First Principle Framework) операционную систему мышления для LLM и как он на основе FPF сделал обвязку для Claude Code, набравшую более 1000 звёзд на GitHub.
Добавляйте встречу в календарь, чтобы не пропустить: https://luma.com/z0hnbsnl
Добавляйте встречу в календарь, чтобы не пропустить: https://luma.com/z0hnbsnl
👍12
AI-Driven Development. Родион Мостовой
Сегодня в 13:00 по МСК мы проводим митап как раз на тему системного мышления и его применения в SDD - Иван Закутный (@neuralstack) расскажет нам про FPF (First Principle Framework) операционную систему мышления для LLM и как он на основе FPF сделал обвязку…
Мы Начинаем митап по FPF и Spec Driven Dev - https://www.youtube.com/watch?v=brDGV_btDJY
YouTube
Трушный Spec-Driven Dev или AI агенты с системным мышлением и First Principle Framework (FPF)
Канал Ивана: https://t.me/neuralstack
Канал AI-Driven Development: https://t.me/ai_driven
FPF Simple Skill: https://github.com/CodeAlive-AI/fpf-simple-skill
Quint Code: https://github.com/m0n0x41d/quint-code
Оригинал FPF Анатолия Левенчука: https://github.com/ailev/FPF…
Канал AI-Driven Development: https://t.me/ai_driven
FPF Simple Skill: https://github.com/CodeAlive-AI/fpf-simple-skill
Quint Code: https://github.com/m0n0x41d/quint-code
Оригинал FPF Анатолия Левенчука: https://github.com/ailev/FPF…
👍13