🔥 ЗАЙку не бросила хозяйка!
Не так давно я упоминал про тест GLM с Coding Plan:
https://t.me/deksden_notes/87
https://t.me/deksden_notes/111
Нынче, сразу за Соннетом 4.5 появился доработанный GLM-4.6!
https://docs.z.ai/guides/llm/glm-4.6
Есть даже тесты в сравнении с соннетом 4.5 - что очень необычно: он же вышел буквально вчера. Вот это оперативность! Поспешили)) Даже видно как статейку на сайте через search/replace готовили - там соннет иногда упоминается как 4.6)) но все равно приятно, молодцы.
Что 🆕 нового:
- контекст 200к! 🔥
- доработали кодинг в общем, и фронт в частности;
- сильнее рассуждения и агентность
- лучше работает с текстом и держит стиль
Бенчи по ссылке на картинках, там все немного лучше!
Респект китайцам. Обновляем env переменную в настройках СС))
#post
@deksden_notes
Не так давно я упоминал про тест GLM с Coding Plan:
https://t.me/deksden_notes/87
https://t.me/deksden_notes/111
Нынче, сразу за Соннетом 4.5 появился доработанный GLM-4.6!
https://docs.z.ai/guides/llm/glm-4.6
Есть даже тесты в сравнении с соннетом 4.5 - что очень необычно: он же вышел буквально вчера. Вот это оперативность! Поспешили)) Даже видно как статейку на сайте через search/replace готовили - там соннет иногда упоминается как 4.6)) но все равно приятно, молодцы.
Что 🆕 нового:
- контекст 200к! 🔥
- доработали кодинг в общем, и фронт в частности;
- сильнее рассуждения и агентность
- лучше работает с текстом и держит стиль
Бенчи по ссылке на картинках, там все немного лучше!
Респект китайцам. Обновляем env переменную в настройках СС))
#post
@deksden_notes
🔥8👍1
▶️ Кодекс Cli и Gpt-5-Codex-high, приёмчики
Работа с Кодексом может давать иллюзию что модель сильно умнее и особенно "париться" с ней не стоит. Когда агент по 40 минут работает и делает что то серьёзное - это впечатляет. 🔥
Однако особенно расслабляться пока рано: кодекс не волшебный. Да, он тоже может упустить что то при работе, не доделать. Да, с роcтом сложности задачи возникают все те же самые проблемы.
🟢 Напомню - что рецепт один, актуален и для СС, и для Кодекса, да и для любого агента:
- готовим грамотный контекст
- правильно нарезаем задачу
- следим за выполнением и переполнением контекста
- используем steering техники
👉 Как это все выглядит в переложении на Кодекс?
1) подготовка контекста: начинаем задачу с "чистого листа" - новый чат /new; у нас есть меморибанк по проекту, поэтому просим агента "подготовится к обсуждению (... тема нашего рефакторинга), прочитать меморибанк, создать необходимый контекст для осбуждения темы";
я сделал типовой промпт (так называются кастомные слеш команды в кодексе) на эту тему - про проект: чтобы агент прочитал меморибанк проекта, изучил код системы, и прочие необхоидмые файлы.
при выполнении агент читает документацию, смотрит файлы кода - уходит до 25-30% контекста на это (очевидно, зависит от размеров проекта);
2) после начинаем обсуждать тематику рефакторинга - я набрасываю тему и прошу его изучить задачу, изучить код, документацию, тесты, провести анализ, подумать и предложить варианты решения задачи, и возвращаться с отчётом для обсуждения;
3) при обсуждении несколько раз просим максимально интегрировать решение в систему, DRY, TRIZ, использовать имеющийся код максимально, следовать лучшим паттернам и подходам, делать грамотную архитектуру и отличный DX, обходиться без усложнений и оверинжиниринга, но делать полнофункциональное элегантное решение, соблюдать баланс простоты и функциональности, делать надёжно;
4) не забываем при планировании - планировать обновление меморибанка;
5) когда обсудили план работ - пишем файл с планом в папку '.protocols/' под очередным номером: прописываем что делаем, где, как именно, на что обращать внимание, каким стандартам следовать, чему соответствует реализация, каким требованиям и где описана в документации, и прочие полезные при реализации детали;
пропишите: написать такой файл плана, чтобы можно было сделать этот план без доступа к контексту обсуждения, включить в план все сведения для его воплощения.
6) после формирования плана оцените, сколько осталось контекста - если немного, лучше сделать /compact, прочитать план снова и просить подготовить контекст заново, и только потом стартовать план на выполнение;
7) при выполнении обязательно просим помечать в плане прогресс; когда останавливается агент - тоже просим отмечать прогресс в плане;
😍 если подошли к заполнению контекста и агент остановился - просим прописать прогресс и делаем /compact с дальнейшим чтением плана и просьбой восстановить контекст; продолжаем когда он прочитал себе в контекст что нужно;
9) при завершении - обязательно просим верифицировать полноту выполнения плана
▶️ Итог: вы можете делать рефакторинги на 1.5 часа в 2-3 контекста с нормальным качеством! Может быть количество доделываемых пунктов вас немного удивит))
🤟
#post
@deksden_notes
Работа с Кодексом может давать иллюзию что модель сильно умнее и особенно "париться" с ней не стоит. Когда агент по 40 минут работает и делает что то серьёзное - это впечатляет. 🔥
Однако особенно расслабляться пока рано: кодекс не волшебный. Да, он тоже может упустить что то при работе, не доделать. Да, с роcтом сложности задачи возникают все те же самые проблемы.
🟢 Напомню - что рецепт один, актуален и для СС, и для Кодекса, да и для любого агента:
- готовим грамотный контекст
- правильно нарезаем задачу
- следим за выполнением и переполнением контекста
- используем steering техники
👉 Как это все выглядит в переложении на Кодекс?
1) подготовка контекста: начинаем задачу с "чистого листа" - новый чат /new; у нас есть меморибанк по проекту, поэтому просим агента "подготовится к обсуждению (... тема нашего рефакторинга), прочитать меморибанк, создать необходимый контекст для осбуждения темы";
я сделал типовой промпт (так называются кастомные слеш команды в кодексе) на эту тему - про проект: чтобы агент прочитал меморибанк проекта, изучил код системы, и прочие необхоидмые файлы.
при выполнении агент читает документацию, смотрит файлы кода - уходит до 25-30% контекста на это (очевидно, зависит от размеров проекта);
2) после начинаем обсуждать тематику рефакторинга - я набрасываю тему и прошу его изучить задачу, изучить код, документацию, тесты, провести анализ, подумать и предложить варианты решения задачи, и возвращаться с отчётом для обсуждения;
3) при обсуждении несколько раз просим максимально интегрировать решение в систему, DRY, TRIZ, использовать имеющийся код максимально, следовать лучшим паттернам и подходам, делать грамотную архитектуру и отличный DX, обходиться без усложнений и оверинжиниринга, но делать полнофункциональное элегантное решение, соблюдать баланс простоты и функциональности, делать надёжно;
4) не забываем при планировании - планировать обновление меморибанка;
5) когда обсудили план работ - пишем файл с планом в папку '.protocols/' под очередным номером: прописываем что делаем, где, как именно, на что обращать внимание, каким стандартам следовать, чему соответствует реализация, каким требованиям и где описана в документации, и прочие полезные при реализации детали;
пропишите: написать такой файл плана, чтобы можно было сделать этот план без доступа к контексту обсуждения, включить в план все сведения для его воплощения.
6) после формирования плана оцените, сколько осталось контекста - если немного, лучше сделать /compact, прочитать план снова и просить подготовить контекст заново, и только потом стартовать план на выполнение;
7) при выполнении обязательно просим помечать в плане прогресс; когда останавливается агент - тоже просим отмечать прогресс в плане;
😍 если подошли к заполнению контекста и агент остановился - просим прописать прогресс и делаем /compact с дальнейшим чтением плана и просьбой восстановить контекст; продолжаем когда он прочитал себе в контекст что нужно;
9) при завершении - обязательно просим верифицировать полноту выполнения плана
▶️ Итог: вы можете делать рефакторинги на 1.5 часа в 2-3 контекста с нормальным качеством! Может быть количество доделываемых пунктов вас немного удивит))
🤟
#post
@deksden_notes
🔥13👍4❤1
▶️ Codex :: cloud tasks
❓ Интересно! cli будет интерфейсом к облачному кодексу и будет им рулить?
https://github.com/openai/codex/pull/3197
Любопытно ///
🆕 Upd: параметры в промпты (у кодекса так зовут кастомные слеш команды) тоже завозят - https://github.com/openai/codex/pull/4470
#post
@deksden_notes
❓ Интересно! cli будет интерфейсом к облачному кодексу и будет им рулить?
https://github.com/openai/codex/pull/3197
Любопытно ///
🆕 Upd: параметры в промпты (у кодекса так зовут кастомные слеш команды) тоже завозят - https://github.com/openai/codex/pull/4470
#post
@deksden_notes
GitHub
Add cloud tasks by easong-openai · Pull Request #3197 · openai/codex
Adds a TUI for managing, applying, and creating cloud tasks
❤🔥4👍1
▶️Codex :: SDK
Не Claude Agents / Code SDK единым! У кодекса тоже будет SDK. Уже готовят.
Можно почитать readme тут:
https://github.com/openai/codex/pull/4513/files#diff-9be9f99d130daf9a9aea3153e83306403823122bffa83285f1545b5048f04dda
хорошие новости, будем встраивать)
#post
@deksden_notes
Не Claude Agents / Code SDK единым! У кодекса тоже будет SDK. Уже готовят.
Можно почитать readme тут:
https://github.com/openai/codex/pull/4513/files#diff-9be9f99d130daf9a9aea3153e83306403823122bffa83285f1545b5048f04dda
хорошие новости, будем встраивать)
#post
@deksden_notes
GitHub
Add initial set of doc comments to the SDK by pakrym-oai · Pull Request #4513 · openai/codex
Also perform minor code cleanup.
🔥5👍4
♊️Gemini Cli :: Agents
Команда Gemini Cli работает над созданием своей системы агентов:
https://github.com/google-gemini/gemini-cli/pull/9778
Живьём пока вроде бы такого не видно, но "под капотом" работа идет. Даже модель с контекстом 1m токенов "сломалась" на эту тему.
❓ Интересно - сколько будет держаться Кодекс?) Gemini делает, Qwen сделал ...
#post
@deksden_notes
Команда Gemini Cli работает над созданием своей системы агентов:
https://github.com/google-gemini/gemini-cli/pull/9778
Живьём пока вроде бы такого не видно, но "под капотом" работа идет. Даже модель с контекстом 1m токенов "сломалась" на эту тему.
❓ Интересно - сколько будет держаться Кодекс?) Gemini делает, Qwen сделал ...
#post
@deksden_notes
GitHub
refactor(agents): Introduce Declarative Agent Framework by abhipatel12 · Pull Request #9778 · google-gemini/gemini-cli
TLDR
This pull request refactors our subagent infrastructure from SubAgentScope into a declarative, definition-based framework. The core of this change is the introduction of an AgentDefinition int...
This pull request refactors our subagent infrastructure from SubAgentScope into a declarative, definition-based framework. The core of this change is the introduction of an AgentDefinition int...
1👍4🔥3
Google Jules :: обновки конца сентября
Не CLI единым - развиваетс все, и довольно бодро. У Жульеса тоже куча обновок:
- общается в комментариях к PR
- файловый @ селектор в чате
- ПАМЯТЬ: агент выделяет какие то заметки про репо и сохраняет их на будущее; довольно просто - но мы только начали;
- ENV - наконец то можно "официальным" способом давать переменные окружения на уровне репозитория, для фонового агента это BIG; управляемая выдача переменных таскам;
Смотрим и читаем про сабж тут:
https://jules.google/docs/changelog/
#post
@deksden_notes
Не CLI единым - развиваетс все, и довольно бодро. У Жульеса тоже куча обновок:
- общается в комментариях к PR
- файловый @ селектор в чате
- ПАМЯТЬ: агент выделяет какие то заметки про репо и сохраняет их на будущее; довольно просто - но мы только начали;
- ENV - наконец то можно "официальным" способом давать переменные окружения на уровне репозитория, для фонового агента это BIG; управляемая выдача переменных таскам;
Смотрим и читаем про сабж тут:
https://jules.google/docs/changelog/
#post
@deksden_notes
👍6🔥2
Google Jules :: теперь CLI!
В полку консольных агентов прибыло - откуда не ждали! )) Жульес теперь в терминале - omfg:
https://developers.googleblog.com/en/meet-jules-tools-a-command-line-companion-for-googles-async-coding-agent/
https://x.com/julesagent/status/1973812188977508755
вот о каких больших новостях говорили в твиттере! вот так вариант апи - о котором просили )))
Это будем посмотреть!
В полку консольных агентов прибыло - откуда не ждали! )) Жульес теперь в терминале - omfg:
https://developers.googleblog.com/en/meet-jules-tools-a-command-line-companion-for-googles-async-coding-agent/
https://x.com/julesagent/status/1973812188977508755
вот о каких больших новостях говорили в твиттере! вот так вариант апи - о котором просили )))
Это будем посмотреть!
❤5👍3🔥1
Codex Web :: лимиты с 2025-10-20
➡️ К сведению: халява то не вечная ))
Beginning October 20, Codex Cloud tasks will count toward your Codex usage.
https://developers.openai.com/codex/changelog
Codex Web == Codex Cloud видимо, так его клозеды прозвали
➡️ К сведению: халява то не вечная ))
Beginning October 20, Codex Cloud tasks will count toward your Codex usage.
https://developers.openai.com/codex/changelog
Codex Web == Codex Cloud видимо, так его клозеды прозвали
Openai
Codex changelog
Latest updates to Codex, OpenAI’s coding agent
Codex SDK
Клозеды выпустили Codex SDK, которым можно рулить кодексом программно. Пакет пока только TS, версии для питона нету. Сделан пакет аналогично Claude Agents SDK (ex Claude Code SDK): обёртка над cli, которая запускает codex cli и парсит вывод.
Видимо, если вы залогинены в codex через аккаунт, то подписку можно использовать и в SDK - надо будет проверить.
Стримить работу агента умеет.
Из необычного: поддерживает structured output, почти как вызов модели, только тут - вызов агента. Детали в readme.
Дока скромная, больше чем readme и пара строк на оффсайте ничего особо не расписано.
Репо тут: https://github.com/openai/codex/tree/main/sdk/typescript
Дока: https://developers.openai.com/codex/sdk (не зачитайтесь!)
Upd: github action они выпустили тоже, но оно требует API_KEY! Это ж изрядно дорого получится по апи, поэтому ждём-с когда прикрутят подписку к action.
Клозеды выпустили Codex SDK, которым можно рулить кодексом программно. Пакет пока только TS, версии для питона нету. Сделан пакет аналогично Claude Agents SDK (ex Claude Code SDK): обёртка над cli, которая запускает codex cli и парсит вывод.
Видимо, если вы залогинены в codex через аккаунт, то подписку можно использовать и в SDK - надо будет проверить.
Стримить работу агента умеет.
Из необычного: поддерживает structured output, почти как вызов модели, только тут - вызов агента. Детали в readme.
Дока скромная, больше чем readme и пара строк на оффсайте ничего особо не расписано.
Репо тут: https://github.com/openai/codex/tree/main/sdk/typescript
Дока: https://developers.openai.com/codex/sdk (не зачитайтесь!)
Upd: github action они выпустили тоже, но оно требует API_KEY! Это ж изрядно дорого получится по апи, поэтому ждём-с когда прикрутят подписку к action.
GitHub
codex/sdk/typescript at main · openai/codex
Lightweight coding agent that runs in your terminal - openai/codex
👍4🔥2
Google :: Подписки AI Pro / Ultra получают Gemini Cli / Code Assist
👉 Не все знают, оказывается. Напишу.
Гугл не так давно уравнял доступ rGemini Cli для подписчиков Code Assis Standard / Enterprise с подписчиками Google Ai Pro / Ultra. Теперь они одинаковые в лимитах для своего уровня, то есть Pro как Standard, Ultra как Enterprise.
🟢 В итоге у подписчиков Ai Pro получается 120 RPM, и 1500 RPD к Gemini 2.5 pro в Gemini Cli, что довольно много. Обратите внимание - это в СУТКИ, не в месяц (привет курсорам/варпам).
🟢 Повышенные лимиты на Jules у подписчиков Ai Pro довольно давно.
Вьетнамские подписки с платимаркета за 1000р на полгода на ai pro стали ещё выгоднее ))
🔗 https://blog.google/technology/developers/gemini-cli-code-assist-higher-limits/
#post
@deksden_notes
👉 Не все знают, оказывается. Напишу.
Гугл не так давно уравнял доступ rGemini Cli для подписчиков Code Assis Standard / Enterprise с подписчиками Google Ai Pro / Ultra. Теперь они одинаковые в лимитах для своего уровня, то есть Pro как Standard, Ultra как Enterprise.
🟢 В итоге у подписчиков Ai Pro получается 120 RPM, и 1500 RPD к Gemini 2.5 pro в Gemini Cli, что довольно много. Обратите внимание - это в СУТКИ, не в месяц (привет курсорам/варпам).
🟢 Повышенные лимиты на Jules у подписчиков Ai Pro довольно давно.
Вьетнамские подписки с платимаркета за 1000р на полгода на ai pro стали ещё выгоднее ))
🔗 https://blog.google/technology/developers/gemini-cli-code-assist-higher-limits/
#post
@deksden_notes
Google
Google AI Pro and Ultra subscribers now get Gemini CLI and Gemini Code Assist with higher limits.
Google AI Pro and Ultra subscribers now get higher limits to Gemini CLI and Gemini Code Assist IDE extensions.
1👍4⚡2🔥2
Codex :: compact
⚠️ Свежий релиз кодекса сломал компакт. Модель доходит до границы контекстного окна, выдаёт новое красненькое сообщение об исчерпании конекста, но команда /compact не срабатывает.
https://github.com/openai/codex/issues/4813
➡️ Если Вы не пользуетесь file-based protocols, в которые модель кидает прогресс и контекст по мере выполнения работы, то это загубит сессию.
🟢 Меня такое не сильно парит, у меня "все ходы записаны!". Я в таком случае начинаю новый чат, выставляю yolo, делаю прайминговый промпт на меморибанк, и гружу файл протокола. после этого модель начинает с последней задачи из протокола.
❓ Может кто то знает как спасти сессию в такой ситуации? Но мне пока нравится подход с планами в файле протокола.
#post
@deksden_notes
⚠️ Свежий релиз кодекса сломал компакт. Модель доходит до границы контекстного окна, выдаёт новое красненькое сообщение об исчерпании конекста, но команда /compact не срабатывает.
https://github.com/openai/codex/issues/4813
➡️ Если Вы не пользуетесь file-based protocols, в которые модель кидает прогресс и контекст по мере выполнения работы, то это загубит сессию.
🟢 Меня такое не сильно парит, у меня "все ходы записаны!". Я в таком случае начинаю новый чат, выставляю yolo, делаю прайминговый промпт на меморибанк, и гружу файл протокола. после этого модель начинает с последней задачи из протокола.
❓ Может кто то знает как спасти сессию в такой ситуации? Но мне пока нравится подход с планами в файле протокола.
#post
@deksden_notes
GitHub
openai/codex
Lightweight coding agent that runs in your terminal - openai/codex
🔥3👍1
🧩 Claude Code Plugins
🔥 Большой релиз у антропиков: 2.0.12. Да, номер невзрачный, но за ним - PLUGINS SYSTEM.
Это возможность добавлять упакованные в плагины: slash команды, субагентов, MCP сервера, хуки.
Добавляем маркетплейсы в систему - это просто git репо со специальным файлом. То есть чьи то коллекции добра для СС!
Большое дело, удобно! Надеюсь, станет неким стандартом. антропики круто двигают продукт, молодцы.
Щас бы модели не тупели, и лимиты бы поразумнее - и совсем было бы здорово!
🔗 Почитать блог: https://www.anthropic.com/news/claude-code-plugins
Почитать доку как делать плагины: https://docs.claude.com/en/docs/claude-code/plugins
Пример: https://www.aitmpl.com/plugins
▶️ Налетаем ))
(...) Upd:
Я, кстати, не понимаю - почему для создания таких штук антропики не подучили Claude Code грузить инструкцию и в чате с агентом создавать такие штуки? Плагин бы сделали для разработки плагинов - круто же/
Инициализировать там все, верифицировать и так далее. Можно же было подсуетиться, и показали бы другим как работать с технологией. Заодно все нюансы как правильно сделать агент бы учитывал "из коробки"
#post
@deksden_notes
🔥 Большой релиз у антропиков: 2.0.12. Да, номер невзрачный, но за ним - PLUGINS SYSTEM.
Это возможность добавлять упакованные в плагины: slash команды, субагентов, MCP сервера, хуки.
Добавляем маркетплейсы в систему - это просто git репо со специальным файлом. То есть чьи то коллекции добра для СС!
Большое дело, удобно! Надеюсь, станет неким стандартом. антропики круто двигают продукт, молодцы.
Щас бы модели не тупели, и лимиты бы поразумнее - и совсем было бы здорово!
🔗 Почитать блог: https://www.anthropic.com/news/claude-code-plugins
Почитать доку как делать плагины: https://docs.claude.com/en/docs/claude-code/plugins
Пример: https://www.aitmpl.com/plugins
▶️ Налетаем ))
(...) Upd:
Я, кстати, не понимаю - почему для создания таких штук антропики не подучили Claude Code грузить инструкцию и в чате с агентом создавать такие штуки? Плагин бы сделали для разработки плагинов - круто же/
Инициализировать там все, верифицировать и так далее. Можно же было подсуетиться, и показали бы другим как работать с технологией. Заодно все нюансы как правильно сделать агент бы учитывал "из коробки"
#post
@deksden_notes
Claude
Customize Claude Code with plugins | Claude
Claude Code now supports plugins: custom collections of slash commands, agents, MCP servers, and hooks that install with a single command. Share your Claude Code setup with plugins Slash commands, agents, MCP servers, and hooks are all extension points you…
🔥8❤2👍1🥰1
Jules API :: не через cli, а "настоящий"
Очередные обновки жульеса: теперь у нас есть апи! Не просто cli, а полноценное api:
https://developers.google.com/jules/api
Похоже, Гугл настаивает, чтобы я думал как его интегрировать в работу.
#post
@deksden_notes
Очередные обновки жульеса: теперь у нас есть апи! Не просто cli, а полноценное api:
https://developers.google.com/jules/api
Похоже, Гугл настаивает, чтобы я думал как его интегрировать в работу.
#post
@deksden_notes
👍6❤4
Knip :: полезен для AI-dev
Вы же пользуетесь статическим анализом? Для TypeScript есть весьма стандартный инструмент, который подсвечивает неиспользуемый в проекте код - knip.
https://knip.dev/
https://github.com/webpro-nl/knip
Такого рода инструменты очень полезны именно при ai разработке, когда агенты могут не убирать какой то код для "сохранения совместимости" или ещё по каким то своим туманным соображениям гуманизма, и постепенно в проекте могут копиться некоторые артефакты. Артефакты вредны, засоряют контекст, путают тех же агентов. В крайних случаях вы можете обнаружить себя в многочасовой отладке кода, который устарел и не используется вообще (поэтому и падают тесты с ним - он не актуален).
Штуками такого рода надо пользоваться аккуратно: ложные срабатывания у неё вполне вероятны и ожидаемы: инструмент без ai, анализирует проект механистически, зато полностью.
🟢 Что хорошо работает - это ИИ агент в связке с knip. Инструмент удобно запускать "из-под агента": тогда вы можете просить агента проанализировать вывод knip и дать заключение об адекватности отчёта. Агент с умной моделью типа кодекса вполне в состоянии понять, что публичное api сервисов - это не "лишний экспорт" и может добавить полезные исключения. И в целом проверить выдачу knip на адекватность. Например, подтвердить что часть файлов действительно устарела и не используется. Заодно по итогам он вам эти файлы и уберёт!
‼️ Ещё раз: commit перед сеансом работы с knip обязателен. Пропишите это правило для ИИ агента тоже: чистый git. Эта штука советует УДАЛЕНИЕ кода - операция по определению деструктивная, пользоваться надо аккуратно и желательно понимать что ты делаешь. Лучший рецепт: сохраняйте копии ДО процедуры. Обязательно все проверяйте ПОСЛЕ.
👉 Из полезного: позволяет вычистить накопленные артефакты после многих итераций разработки. Не знаю насколько для человеческой разработки актуально (от команды, наверное, зависит) - но как без подобных инструментов в ai swe я даже не знаю!
В общем, полезная штука, кмк.
А вы чем ещё пользуетесь?
#post
@deksden_notes
Вы же пользуетесь статическим анализом? Для TypeScript есть весьма стандартный инструмент, который подсвечивает неиспользуемый в проекте код - knip.
https://knip.dev/
https://github.com/webpro-nl/knip
Такого рода инструменты очень полезны именно при ai разработке, когда агенты могут не убирать какой то код для "сохранения совместимости" или ещё по каким то своим туманным соображениям гуманизма, и постепенно в проекте могут копиться некоторые артефакты. Артефакты вредны, засоряют контекст, путают тех же агентов. В крайних случаях вы можете обнаружить себя в многочасовой отладке кода, который устарел и не используется вообще (поэтому и падают тесты с ним - он не актуален).
Штуками такого рода надо пользоваться аккуратно: ложные срабатывания у неё вполне вероятны и ожидаемы: инструмент без ai, анализирует проект механистически, зато полностью.
🟢 Что хорошо работает - это ИИ агент в связке с knip. Инструмент удобно запускать "из-под агента": тогда вы можете просить агента проанализировать вывод knip и дать заключение об адекватности отчёта. Агент с умной моделью типа кодекса вполне в состоянии понять, что публичное api сервисов - это не "лишний экспорт" и может добавить полезные исключения. И в целом проверить выдачу knip на адекватность. Например, подтвердить что часть файлов действительно устарела и не используется. Заодно по итогам он вам эти файлы и уберёт!
‼️ Ещё раз: commit перед сеансом работы с knip обязателен. Пропишите это правило для ИИ агента тоже: чистый git. Эта штука советует УДАЛЕНИЕ кода - операция по определению деструктивная, пользоваться надо аккуратно и желательно понимать что ты делаешь. Лучший рецепт: сохраняйте копии ДО процедуры. Обязательно все проверяйте ПОСЛЕ.
👉 Из полезного: позволяет вычистить накопленные артефакты после многих итераций разработки. Не знаю насколько для человеческой разработки актуально (от команды, наверное, зависит) - но как без подобных инструментов в ai swe я даже не знаю!
В общем, полезная штука, кмк.
А вы чем ещё пользуетесь?
#post
@deksden_notes
Knip
Declutter your JavaScript & TypeScript projects
Project linter to find unused dependencies, exports and files
👍8🔥5❤2
ReasoningBank от Гугла
Я не мог пройти мимо упоминания "... -банк" Гуглом! ))
🔗 https://t.me/data_secrets/8016
Ну и я бы не сказал, что такого нкто не делал. В том же qoder есть извлечение lessons learned из чатов с ИИ.
Наверное, фишка в системности этого подхода! Надо подумать над этим.
#post
@deksden_notes
Я не мог пройти мимо упоминания "... -банк" Гуглом! ))
🔗 https://t.me/data_secrets/8016
Ну и я бы не сказал, что такого нкто не делал. В том же qoder есть извлечение lessons learned из чатов с ИИ.
Наверное, фишка в системности этого подхода! Надо подумать над этим.
#post
@deksden_notes
Telegram
Data Secrets
Google предложили систему памяти, благодаря которой ИИ может учиться на своих ошибках в реальном времени
Идея, на самом деле, простая, но никто не имплементировал такое до этого.
Смотрите, вот что будет делать человек, если совершит ошибку? Правильно,…
Идея, на самом деле, простая, но никто не имплементировал такое до этого.
Смотрите, вот что будет делать человек, если совершит ошибку? Правильно,…
🔥5👍2😁1
Схема "критик"
▶️ Пользуетесь ли вы схемой "критик"? Крайне полезная и результативная схема. Суть простая: сделанная работа ревьюится агентом. Работа может быть как планом, так и выполненной работой (рефакторингом, реализацией новой фичи).
Вроде бы элементарно! Но это реально рабоатет и приносит свои результаты. Особенно эффективно если критик - это отдельная задача с отдельным контекстом: так минимизируется bias к сделанной работе. Можно, конечно (и нужно) добавлять шаг "верификация" к сделанной работе, но в кодексе он будет исполняться в том же контексте, что снижает качество.
🟢 Попробуйте!
У меня система регулярно что то или доучитывает в плане, или допланирует. Промпты - стандартные, типовые. Планы сохраняем в md файлы, ими и обмениваемся между агентами.
Интересна вариация схемы: когда один агент производит ревью архитектуры и "косяков" в системе, находит недостатки. Потом другим агентом планируем и устраняем недостатки - а потом "автор" оригинального ревью системы смотрит и даёт заключение про качество исправления выявленных недостатков! Весьма много доработок случается.
🔥 общем, всячески рекомендую. Современные модели дают наибольшее качество в мультиагентных системах, где рефлексия и мультисемплинг пока дают реальный рост результатов. Видимо, до agi так и будм на этих паттернах выезжать
#post
@deksden_notes
▶️ Пользуетесь ли вы схемой "критик"? Крайне полезная и результативная схема. Суть простая: сделанная работа ревьюится агентом. Работа может быть как планом, так и выполненной работой (рефакторингом, реализацией новой фичи).
Вроде бы элементарно! Но это реально рабоатет и приносит свои результаты. Особенно эффективно если критик - это отдельная задача с отдельным контекстом: так минимизируется bias к сделанной работе. Можно, конечно (и нужно) добавлять шаг "верификация" к сделанной работе, но в кодексе он будет исполняться в том же контексте, что снижает качество.
🟢 Попробуйте!
У меня система регулярно что то или доучитывает в плане, или допланирует. Промпты - стандартные, типовые. Планы сохраняем в md файлы, ими и обмениваемся между агентами.
Интересна вариация схемы: когда один агент производит ревью архитектуры и "косяков" в системе, находит недостатки. Потом другим агентом планируем и устраняем недостатки - а потом "автор" оригинального ревью системы смотрит и даёт заключение про качество исправления выявленных недостатков! Весьма много доработок случается.
🔥 общем, всячески рекомендую. Современные модели дают наибольшее качество в мультиагентных системах, где рефлексия и мультисемплинг пока дают реальный рост результатов. Видимо, до agi так и будм на этих паттернах выезжать
#post
@deksden_notes
1👍9🔥3💯3
Мультисемплинг
▶️ А мультисемплингом пользуетесь? Полезная штука. Этот англицизм (куда же мы без них в отрасли то!) - он про множественные генерации при одинаковом контексте/задаче. Мы генерируем несколько вариантов.
🟢 Рассказываю свой эксперимент: пока у меня есть время - прогоняются тестовые воркфлоу под наблюдением агентов по сценариям (тестирование "под надзором" - agent suprevised testing - что весьма долго, по 20 минут на прогон тестового воркфлоу. В общем, решил причесать архитектуру системы в поисках косячков. Развлекаюсь так периодически! В библиотеке промптов обсидиана лежит заготовленный промпт для анализа, и как раз тут Гемини cli с подпиской тусит во вкладке - неприкаянный!
В общем, решил прогнать "архитектурка-чек". Запраймил гемини индексом меморибанка, и кинул промпт анализа. Потом подумалось что самое время провести эксперимент. Сделал ещё 2 вкладки с гемини, запустил ИДЕНТИЧНЫЕ промпты прайминга и потом - анализа.
➡️ Результаты, конечно, убивают ))
Первый агент написал как все прекрасно, в стиле гемини - "самая надёжная архитектура и тп". Пучок лещей для поглаживания ими ЧСВ мне не нужен, пропускаем.
Второй агент упёрся в основном в типобезопасность и докопался к проверкам типов в обработчиках. Ну ок - имеет место быть, можно обсудить.
Третий агент прошёлся по совершенно другим аспектам: взаимодействию с redis и "болтливостью с БД (когда несколько вызовов делаем), сложности некоторых обработчиков.
🟢 Итог: годный отчёт - компиляция трёх (вернее двух отчётов - первый бестолковый). Поэтому я очень хорошо понимаю, как топовыми режимами работы чата являются системы типа gpt PRO , которые "под капотом", по слухам, делают @5 мультисемплинг!
🤔 Что убивает то? Конечно то, что при ИДЕНТИЧНОМ контексте и запросе, просто за счёт температуры, можно абсолютно случайным образом получить либо хороший годный ответ, либо бестолковый.
Но получить ПОЛНОЦЕННЫЙ ответ за один ответ, видимо, - никак. При современных моделях, полноценный ответ - это или разбивка промпта на пучок задач для "роя" агентов, либо мультисемплинг генерация с оценкой полученного и синтезом итогового объединённого ответа.
Агенты могут работать СИЛЬНО лучше, просто это очень хлопотно их правильно на работу сорганизовать.
Так и живём ...
#post
@deksden_notes
▶️ А мультисемплингом пользуетесь? Полезная штука. Этот англицизм (куда же мы без них в отрасли то!) - он про множественные генерации при одинаковом контексте/задаче. Мы генерируем несколько вариантов.
🟢 Рассказываю свой эксперимент: пока у меня есть время - прогоняются тестовые воркфлоу под наблюдением агентов по сценариям (тестирование "под надзором" - agent suprevised testing - что весьма долго, по 20 минут на прогон тестового воркфлоу. В общем, решил причесать архитектуру системы в поисках косячков. Развлекаюсь так периодически! В библиотеке промптов обсидиана лежит заготовленный промпт для анализа, и как раз тут Гемини cli с подпиской тусит во вкладке - неприкаянный!
В общем, решил прогнать "архитектурка-чек". Запраймил гемини индексом меморибанка, и кинул промпт анализа. Потом подумалось что самое время провести эксперимент. Сделал ещё 2 вкладки с гемини, запустил ИДЕНТИЧНЫЕ промпты прайминга и потом - анализа.
➡️ Результаты, конечно, убивают ))
Первый агент написал как все прекрасно, в стиле гемини - "самая надёжная архитектура и тп". Пучок лещей для поглаживания ими ЧСВ мне не нужен, пропускаем.
Второй агент упёрся в основном в типобезопасность и докопался к проверкам типов в обработчиках. Ну ок - имеет место быть, можно обсудить.
Третий агент прошёлся по совершенно другим аспектам: взаимодействию с redis и "болтливостью с БД (когда несколько вызовов делаем), сложности некоторых обработчиков.
🟢 Итог: годный отчёт - компиляция трёх (вернее двух отчётов - первый бестолковый). Поэтому я очень хорошо понимаю, как топовыми режимами работы чата являются системы типа gpt PRO , которые "под капотом", по слухам, делают @5 мультисемплинг!
🤔 Что убивает то? Конечно то, что при ИДЕНТИЧНОМ контексте и запросе, просто за счёт температуры, можно абсолютно случайным образом получить либо хороший годный ответ, либо бестолковый.
Но получить ПОЛНОЦЕННЫЙ ответ за один ответ, видимо, - никак. При современных моделях, полноценный ответ - это или разбивка промпта на пучок задач для "роя" агентов, либо мультисемплинг генерация с оценкой полученного и синтезом итогового объединённого ответа.
Агенты могут работать СИЛЬНО лучше, просто это очень хлопотно их правильно на работу сорганизовать.
Так и живём ...
#post
@deksden_notes
🔥13👍5