DEKSDEN notes

▶️ Агенты как раннеры

Пришла в голову идея затестить как работают агенты как раннеры. Запускал идентичные тесты (набор юнит-тестов одного из проектов) в разных средах

Сравнивал:
- jetbrains тестовый раннер из их ИДЕ
- запуск в jetbrains команды pnpm test:unit (terminal)
- запуск этой же команды в codex 0.65 из под агента
- запуск этой же команды в СС 2.0.59 из под агента (glm)

Итоги:
- jb: 41s
- jb terminal: 39s
- codex: 109s
- cc: 43s

🤷‍♂️

скрины в комментах

👀1

402 views11:32

DEKSDEN notes

Оправа / Упряжка

Словарик тут: https://t.me/deksden_notes/174

Вот авторы бенча решили прогнать его в родной оправе моделей и зарядили клода внутри СС. Результат на графике - цифры показательные. почему то опус 4.1 только припал, во всех других случаях рост, почти до исчарпания бенчмарка.

👉 Резюме: оправа капец как важна и дает эффект. Поэтому тестировать модели надо не в курсоре, а в родных упряжках (kimi cli, например). Ну или не делать вывода о модели в чужой упряже.

#post
@deksden_notes

👏7❤2

404 views12:35

DEKSDEN notes

Codex 5.2 WEN? (следующий вторник?)

"Утечки" бенчмарков довольно впечатляющие. Публику прогревают капитально - клиенты должны знать что у клозедов еще есть тузы в рукавах и не стоит отменять подписки в пользу гемини 3!

Обратите внимание с кем сравниваем))

Кстати, с опусом не сравнили! посмотрим на цифры как выйдет.

В любом случае - круто как работает конкуренция! Как пользователь я рад

(ц) "Такое мы ждем"

#post
@deksden_notes

❤3

506 views18:31

DEKSDEN notes

Forwarded from Oleksandr Oliinyk

Сделал менеджера Саб Агентов для Антигравити - можно использовать в качестве саб агентов и Codex и Claude Code -
https://github.com/OleynikAleksandr/antigravity-subagents

GitHub

GitHub - OleynikAleksandr/antigravity-subagents: **Antigravity SubAgents** provides the infrastructure for **Antigravity IDE**…

**Antigravity SubAgents** provides the infrastructure for **Antigravity IDE** to utilize specialized Sub-Agents. - OleynikAleksandr/antigravity-subagents

❤7👾1

366 views12:55

DEKSDEN notes

Codex : todo список задач

... у меня пропал совсем. Модель туда не пишет, и я его уже порядком времени не видел! У всех так?

Если да - что бы это значило? Ждем нормлаьный spec / plan mode? с проработкой плана и потом подруливанием модели чтобы она его откатала по полной? Было б прикольно

#post
@deksden_notes

🤷4

340 views18:28

DEKSDEN notes

Claude code :: background agents (2.0.60+)

Теперь можно запустить агента в фоне, и продолжать чатится, пока он будет работать - почти как bash команды отправляются в фон, и управляются через менеджер фоновых заданий.

Агента можно опрашивать - чего там у него делается. на скрине - пример (взят с реддита)

Выглядит удобным. Как применять для работы - надо придумать.

👉 upd: там еще и resumable агенты сюда же! то есть после получения ответа от агента можно будет продолжить с ним же! Интересно.

https://code.claude.com/docs/en/sub-agents#resumable-subagents

#post
@deksden_notes

👍6❤4🔥4

381 viewsedited 23:17

DEKSDEN notes

Google Stitch 🎁 Shipmas

У гугловского Стича неделя релизов!

Первый - теперь оно генеририт код и экспортирует его! Можно получить работающий прототип.

Внутри - нанобанана про.

https://x.com/stitchbygoogle/status/1998151360446181626?s=46

Такими темпами и попробовать его руки дойдут!))

(Ц) за таким мы посматриваем!

X (formerly Twitter)

Stitch by Google (@stitchbygoogle) on X

Welcome to Shipmas Day 1. 🚢🎁 We have a new ship every day this week and a big launch Wednesday!

First up: We’re unlocking the Redesign Agent by taking the image output and letting you generate code.

Powered by Nano Banana Pro, our agent has been taking…

👍2

393 views14:05

DEKSDEN notes

Тестирование, бизнес-процессы

Я уже затрагивал эту тему ранее, в канале, в лонгриде про тестирование : https://t.me/deksden_notes/249

▶️ Сейчас хотел сказать про немного другой аспект той же проблемы.

Когда я делаю какие то системы, я прежде всего на любую фичу планирую какой то интеграционный тест. По мне елать агентами какую то фичу без такого теста - штука бесмысленная! Даже если сделать все юнит тесты, проработать их стратегию тестирования отдельно, даже если сделать полуинтеграционные тесты, и интеграционыне, все равно могут получаться неработающие системы

ℹ️ Напомню применяемую мною иерархию тестирования:

- юнит тесты: тестируют базовую логику модулей в изоляции; все зависимости обязательно мокнуты, то есть демонстрируют строго детерминированное поведение;

- полу-интеграционные тесты: когда части системы тестируются во взаимодействии с другими, но другие части могут быть частично моками или стабами;

- компонентные тесты: когда в UI есть что то сложное, и его надо отдельно протестировать на правильность поведения;

- тесты - сценарии: по сути большие интеграционные тесты, бизнес-процессы; когда система работает в приближенном к боевому состоянию и тестируется именно полнофункциональная работа по какому то пользовательскому сценарию с реальными компонентами.

👉 Основной поинт этого поста: главным для меня является интеграционный тест / бизнес-процесс. Без него совсем нельзя в AI SWE. Можно без юнит тестов, без компонентных и полу-интеграционных. Они просто подтягивают качество элементов системы. Но основным способом проверять функционирование системы я вижу только бизнес-процесс, без него из элементов может система то и не сложится. "Угадал все буквы но не смог назвать слово!"

❓ Зачем тогда другие тесты? Потому что без них бывает довести интеграционный тест до зеленого состояния совсем затруднительно - слишком много проблем в элементах, из которых состоит система. Если в каждом из них есть "люфт", то система может стать практически неработоспособной - будет все время "виляться" во многих местах, и стабилизировать будет сложно.

Поэтому качество системы подтягиваем на всех возможных уровнях: начиная с lint, продолжаем юнит тестами и полу-интеграционными/компонентными.

❓Что за сценарии? Это практически те же юзкейсы из фич/эпиков аджайла. То есть "хотелка" про то, как пользователь работает в системе, только переведенная в "автоматический" режим.

👉 А вот второй поинт поста: для запуска таких тяжелых сценариев я всегда делаю агентное воркфлоу. Подход такой: я делаю некую инструкцию для ИИ агента:
- как пересобрать систему (потому что часто тест гоняется после проведенной доработки, и нужно собрать систему чтобы подтянуть изменения),
- как поднимать систему в тестовом состоянии (если у вас 3-5 компонентов, то это тоже уже процесс),
- как запустить тестовый сценарий (каким раннером)
- какие ключевые метрики мы ожидаем (если сценарий оформлен как тест в некоем раннере, то тут просто - тест зеленый);
- иногда бывает что этот сценарий - это не тест, а полностью агентный воркфлоу, когда агент чего то запускает, чего то делает, и контролирует результат; по сути - тот же тест, но в виде агентного воркфлоу;
- как интерпретирвоать результаты - чтобы агент понимал критерии успеха и неуспеха,
- как фиксировать отклонения: какую информацию и где собирать если есть отклонение (в каких логах покопаться, откуда их вытаскивать, может быть в БД сходить или в хранилище и исследовать артефакты);
- где лежат фикстуры процесса: тестовые наборы данных (файлы примеров, сиды БД, ...).

Идеальный вариант - писать интеграционный тест с агентом, чтобы он сам прокликал ui и сделал этот сценарий в playwright. Антигравити с браузером как раз для таких штук и будут оптимальна!

▶️ Вы верно увидели сходство: по сути, я оформляю СКИЛЛ для запуска этого бизнес-процесса.

👉 Когда кодекс запустит скиллы, придет пора оформить это в виде реального скилла, раз этот формат прижился!

👌 И - да, тесты вполне может гонять зайка, что дешево, шустро и в качественной упряжке.

А вы гоняете тесты под агентами?

DEKSDEN notes

Тестирование в эпоху AI агентов ч1/3

Попробую изложить имеющиеся соображения по тестированию и подходов к нему в некотором преломлении к агентам. Может быть покапитанствую местами - но куда ж без этого)

Сначала о термине "тестирование". Это огромная тема…

👍5❤‍🔥3🔥3

388 viewsedited 19:19

DEKSDEN notes

Еще один: Mistral Vibe CLI

Давайте уже CLI от каждого вендора, раз пошла такая ... мода!

🔗 https://mistral.ai/news/devstral-2-vibe-cli

Ничего не могу сказать про сабж кроме того, что он есть. Не уверен что в ближайшее сам буду тестировать.

Но для "попробовать" - самое время, пока Devstral 2 модель мистраль дает пробовать бесплатно. Потом - оплачиваем токены.

▶️ Хаб агента тут: https://github.com/mistralai/mistral-vibe

Питон, как ни странно. Не ts, не rust. Это они с кими теперь в одном лагере питонистов.

вебпоиска в тулах нету.

кастомные слеш команды есть, без параметров

агенты есть, с настройкой модели, но в toml файлах ("нестандартный", не md как у CC).

Если пускается в ZED, видимо поддерживает ACP.

#post
@deksden_notes

mistral.ai

Introducing: Devstral 2 and Mistral Vibe CLI. | Mistral AI

State-of-the-art, open-source agentic coding models and CLI agent.

❤1

337 viewsedited 09:06

DEKSDEN notes

И еще один: goose (by block)

Еще одного консольного агента увидел:

🔗 https://block.github.io/goose/

Его отселили в новый Foundation под эгидой Linux Foundation, вместе с протоколом MCP и AGENTS md стандартом.

Причем, сам агент вроде бы неплохой, на расте, с субагентами, расширениями, mcp, планмодом и так далее! Жаль смотреть я его видимо не буду - он по токенам работает.

Ну, будем иметь ввиду, что есть и такое

#post
@deksden_notes

block.github.io

goose

your open source AI agent, automating engineering tasks seamlessly

314 views09:41

DEKSDEN notes

Откуда они все ползут?! Codebuff

Вы удивитесь, но я набрел на еще один CLI агент

🔗 https://www.codebuff.com/

Есть небольшой Free tier - 500 кредитов

TypeScript, вроде шустрее СС.

Фичи слегка нестандартные, надо будет посмотреть внимательнее. Knowledge files, Agents Store...

#post
@deksden_notes

Codebuff

Codebuff – AI Coding Assistant for Your Terminal

Code faster with AI using Codebuff. Edit your codebase and run terminal commands via natural language instruction.

😁2

369 views10:37

DEKSDEN notes

Статистика СС

В свежем релизе .64 в СС добавили слеш команду /stats

Можно играцца

❤1

362 views12:42

DEKSDEN notes

DeepAgents CLI

Ну - давайте еще одного CLI агента! Давно их что то не было, уже 2 часа прошло

Очередной тут, от ЛэнгЧейна:

https://github.com/langchain-ai/deepagents/tree/master/libs/deepagents-cli

https://blog.langchain.com/evaluating-deepagents-cli-on-terminal-bench-2-0/

▶️ Этот напитоненый, с memory, с агентами, и, из свежих особенностей - поддерживает скиллы!

Подписок нет.

примерно так.

#post
@deksden_notes

GitHub

deepagents/libs/deepagents-cli at master · langchain-ai/deepagents

Deep Agents is an agent harness built on langchain and langgraph. Deep Agents are equipped with a planning tool, a filesystem backend, and the ability to spawn subagents - making them well-equipped...

😁1

372 views17:09

DEKSDEN notes

Преждевременный Jules

Когда на рынок высыпала такая толпа CLI агентов, работу лучше перехватывать чем раньше, тем больше достанется!

Поэтому Жульес нынче может сканировать до 5 репозиториев и находить там тэги и предлагать их поправить. То есть теперь даже issue на гитхабе не делаем - ставим теги #todo и он сам создаст задачи

В общем, чем дальше, тем интереснее

Читаем тут:

🔗 https://jules.google/docs/changelog/#enable-suggested-tasks-to-let-jules-find-issues-proactively

(ц) На ходу подметки рвут!

#post
@deksden_notes

🔥5

373 views17:23

DEKSDEN notes

Google Stitch + Gemini 3 pro

В ститче включили g3mini

https://x.com/stitchbygoogle/status/1998837129905058198?s=46

Уже можно тестить!

X (formerly Twitter)

Stitch by Google (@stitchbygoogle) on X

Welcome to Shipmas Day 3 part 1… the big one. 🚢🎁

Today, we remove the ceiling on what you can generate.

Starting today, our new default agent is Thinking with Gemini 3 Pro.

This agent uses advanced reasoning to "think" through your design before writing…

❤2

421 views20:12

DEKSDEN notes

Google Jules :: Scheduled Tasks

Выкатили новую фичу - задачи с запуском по расписанию! Довольно очевидная фича для фонового агента, нужная и удобная. Теперь можно делать что то по расписанию. Например, обслуживать меморибанк, или проводить ревью.

👌 Возможно, у меня появился вариант наконец припахать Жульеса!

🔗 https://jules.google/docs/changelog/#put-routine-maintenance-on-autopilot-with-scheduled-tasks

#post
@deksden_notes

🔥4

435 views22:02

DEKSDEN notes

Codex Camp :: пятница, 12.12

Сабж тут: расскажут про кодекс, покажут мастеркласс, будет PM. Может будут новости про грядущие фичи!

🔗 https://every.to/courses/codex-camp/purchase

Бесплатно, к слову!

every.to

A daily newsletter on what comes next in tech. 100K+ readers.

🔥3👍1

513 views23:02

DEKSDEN notes

Codex v0.69

Молчаливый релиз. Ноль инфы в заметках про релиз, текущие альфы 0.70 - аналогично, инфы нету

Это знак?

П.С. Конечно, коммиты мы посмотреть не можем

🤔1

463 views09:15

DEKSDEN notes

GPT-5.2 в Кодекс

Хотел дать первый фидбэк от работы с моделью в кодексе. Гоняю на xhigh, использую на этапе планирования.

В целом - нравится! Она не менее умная, чем была 5.1, думает правда порой мучительно долго, зато думает и результативно. Отлично прорабатывает комплексные вопросы - рефакторинги с кучей вводных, долгие.

Готовится, изучает минут по 10-15, чего ранее не наблюдал. Нравится глубина анализа, подходит к вопросам внимательно.

Пишет уже не как аутист, а ближе к человеческой речи - заметно получше, даже без промптов на стиль общения.

Резюме: годный вариант, отлично подходит на этап планирвоания! Если на базе этой модели сделают кодинговый кодекс (а обещают) - будет очень даже неплохо.

А у вас какое впечатление?

Сравнения с опусом 4.5 пока внимательного не делал, но это вполне валидный вопрос - надо будет при случает посравнивать. Буду рад фидбэку и на этот счет.

(ц) Такое мы пользуем!

▶️ Upd: очень нравится насколько скурпулезно модель делает план. С рефлексией - так вообще супер! Видимо, работа с большим контекстом здесь помогает - выхватывает из чата недоработанные моменты, даже небольшие. Сделали план, доработали - очень детально, тщательно. Понравилось! Это xhigh

Пробую сейчас код ею делать на Medium. ОЧЕНЬ неспешно все идет. Ну - лишь бы качество в итоге получилось хорошее!

#post
@deksden_notes

🔥8👍2

383 viewsedited 12:00

DEKSDEN notes

PortKiller - macOS / appleSilicon

Полезная утилитка - убиваем процессы на портах.

только мак на м процессорах

может кому то пригодится!

🔗 https://github.com/productdevbook/port-killer

👍4

355 viewsedited 10:39

DEKSDEN notes

Cline CLI (preview)

Я не писал про него, но проект Cline заслуживает упоминания - это достаточно интересный агент. Один из первых с субагентами вышел. Много фишек реализовано.

Пока только анонсирую, не смотрел сам близко. Интересная штука, надо будет его рассмотреть поближе, поковыряться в исходниках. Они интересные решения делали

https://cline.bot/cline-cli

https://docs.cline.bot/cline-cli/overview

https://cline.bot/blog/cline-cli-my-undying-love-of-cline-core

Вышел в октябре, не так давно. Из очевидно интересного - он стартует сервер на компе, и cli подключается к нему. Теоретически легко подключается туда же и ИДЕ, и мобильный клиент. Немного похоже на openCode.

#post
@deksden_notes

cline.bot

Cline - AI Coding, Open Source and Uncompromised

Open-source AI coding agent with Plan/Act modes, MCP integration, and terminal-first workflows. Trusted by 5M+ developers worldwide.

364 views14:51

About

Blog

Apps

Platform