⚪️ Eval-3 (3): итоги
#ddeval #feb2026eval3
Самая сложная часть, на самом деле. Мы получили кучу данных, они перед глазами. А вот понять - о чем это, как это понимать, - это самое сложное в такого рода исследованиях.
👉 TLDR: Gpt-5.2 > Flash 3 > Glm-5 + Kimi K2.5
Давайте перечислю свои наблюдения:
* gpt-5.2 заметно глубже и внимательнее думает, все таки бейзлайн фронтира как есть! нашел более глубокие проблемы, все верифицированы - отличные рейты. Удвительно, что думал наже немного побыстрее glm-5.
* glm-5 нынче довольно долго думала, вышло даже дольше gpt-5.2, что удивительно. Нет, у меня у клозедов не pro тариф с быстрым инференсом, обычный.
* модели на фокусах в целом здорово улучшили рейт верификации - почти все находки подтвердились, рост доли верифицированных находок заметный
* kimi довольно шустрая, по качеству работы весьма сравнима с glm-5, разброса в качестве между ними не выявлено
* flash 3 работает в ревью заметно лучше 3.1 pro
* flash-3 немного (не сильно, но заметно) лучше по качеству справился с работой, чем киты - все таки фронтир, видимо; но не уровень gpt-5.2
👉 Главный вывод: фокусная работа дает результаты. За семплы этого эвала было обнаружено в х2 больше issues этих категорий, чем из всех ранее запускавшихся "широких" прогонов.
▶️ Ранее "плотность" обнаружения issues в этих фокусах была 0.9 на сэмпл, а в фокусном эвале - 5+ на семпл. Рост почти х6.
☝️ Итого: в продакшене в оркестраторе - только фокусные эвалы. Фан-аут на каждый фокус и интеграция результатов. Качество растет в разы. Большой плюс от использования разных моделей - очень низкие коэффициенты пересечения находок.
🟢 Такой эвал получился.
@deksden_notes
#ddeval #feb2026eval3
Самая сложная часть, на самом деле. Мы получили кучу данных, они перед глазами. А вот понять - о чем это, как это понимать, - это самое сложное в такого рода исследованиях.
👉 TLDR: Gpt-5.2 > Flash 3 > Glm-5 + Kimi K2.5
Давайте перечислю свои наблюдения:
* gpt-5.2 заметно глубже и внимательнее думает, все таки бейзлайн фронтира как есть! нашел более глубокие проблемы, все верифицированы - отличные рейты. Удвительно, что думал наже немного побыстрее glm-5.
* glm-5 нынче довольно долго думала, вышло даже дольше gpt-5.2, что удивительно. Нет, у меня у клозедов не pro тариф с быстрым инференсом, обычный.
* модели на фокусах в целом здорово улучшили рейт верификации - почти все находки подтвердились, рост доли верифицированных находок заметный
* kimi довольно шустрая, по качеству работы весьма сравнима с glm-5, разброса в качестве между ними не выявлено
* flash 3 работает в ревью заметно лучше 3.1 pro
* flash-3 немного (не сильно, но заметно) лучше по качеству справился с работой, чем киты - все таки фронтир, видимо; но не уровень gpt-5.2
👉 Главный вывод: фокусная работа дает результаты. За семплы этого эвала было обнаружено в х2 больше issues этих категорий, чем из всех ранее запускавшихся "широких" прогонов.
▶️ Ранее "плотность" обнаружения issues в этих фокусах была 0.9 на сэмпл, а в фокусном эвале - 5+ на семпл. Рост почти х6.
☝️ Итого: в продакшене в оркестраторе - только фокусные эвалы. Фан-аут на каждый фокус и интеграция результатов. Качество растет в разы. Большой плюс от использования разных моделей - очень низкие коэффициенты пересечения находок.
🟢 Такой эвал получился.
@deksden_notes
👍9🔥5❤1❤🔥1🙏1
⚪️ Забавное
Переведу:
https://x.com/fortelabs/status/2026681391384068260?s=20
——
Подождите, значит, основателем Anthropic является "Амодей", то есть "любящий Бога"? И он возглавляет Anthropic, что означает «ориентированный на человека», который используется в военных целях?
А создателем ChatGPT является "Altman", то есть "альтернатива людям"? А он возглавляет OpenAI, которая является полностью закрытой организацией?
А ещё есть Gemini, что означает "двуликий", от компании, которая обещала не творить зла?
И вся эта глобальная гонка вооружений в области ИИ ведется людьми, которые утверждали, что обеспокоены тем, что искусственный общий интеллект захватит мир?
Либо Вселенная — автор, пишущий крайне шаблонные тексты, либо обладает блестящим чувством юмора.
——
не мое, но забавное! (ц)
@deksden_notes
Переведу:
https://x.com/fortelabs/status/2026681391384068260?s=20
——
Подождите, значит, основателем Anthropic является "Амодей", то есть "любящий Бога"? И он возглавляет Anthropic, что означает «ориентированный на человека», который используется в военных целях?
А создателем ChatGPT является "Altman", то есть "альтернатива людям"? А он возглавляет OpenAI, которая является полностью закрытой организацией?
А ещё есть Gemini, что означает "двуликий", от компании, которая обещала не творить зла?
И вся эта глобальная гонка вооружений в области ИИ ведется людьми, которые утверждали, что обеспокоены тем, что искусственный общий интеллект захватит мир?
Либо Вселенная — автор, пишущий крайне шаблонные тексты, либо обладает блестящим чувством юмора.
——
не мое, но забавное! (ц)
@deksden_notes
X (formerly Twitter)
Tiago Forte (@fortelabs) on X
Wait, so the founder of Anthropic is "Amodei," as in "loves god"?
And he leads Anthropic, meaning "human-centered," which is being used in military strikes?
And the creator of ChatGPT is "Altman," as in "an alternative to humans"?
And he leads OpenAI,…
And he leads Anthropic, meaning "human-centered," which is being used in military strikes?
And the creator of ChatGPT is "Altman," as in "an alternative to humans"?
And he leads OpenAI,…
😁18👍3🔥1😐1
⚪️ Кодинговый план алибабы
Получил апгрейд
Теперь ВСЕ топовые киты доступны в нем! $5 в первый месяц, $10 далее. Доступ ко всем моделям:
• Kimi K2.5
• Glm-5 (new!)
• Minimax M2.5
• Qwen 3.5
Да, квен не впечатляет - но остальные вполне себе китовый фронтир.
И - главный аргумент: $5/10.
А за $25/50 - огромные лимиты! по 20 апросов в МИНУТУ.
В общем, бюджетный способ получить всех китов в упряжку.
Я думаю про кими, но слайды тоже хочется. И сварм попробовать - в общем, надо подумать! Но алибаба интересное предложение делает
🔗 https://www.alibabacloud.com/help/en/model-studio/coding-plan
——
Upd 1️⃣ : народ говорит купоны кончились
Upd 2️⃣ : купоны вроде бы снова завезли - есть в комментах и успешная регистрация со скидкой
@deksden_notes
Получил апгрейд
Теперь ВСЕ топовые киты доступны в нем! $5 в первый месяц, $10 далее. Доступ ко всем моделям:
• Kimi K2.5
• Glm-5 (new!)
• Minimax M2.5
• Qwen 3.5
Да, квен не впечатляет - но остальные вполне себе китовый фронтир.
И - главный аргумент: $5/10.
А за $25/50 - огромные лимиты! по 20 апросов в МИНУТУ.
В общем, бюджетный способ получить всех китов в упряжку.
Я думаю про кими, но слайды тоже хочется. И сварм попробовать - в общем, надо подумать! Но алибаба интересное предложение делает
🔗 https://www.alibabacloud.com/help/en/model-studio/coding-plan
——
Upd 1️⃣ : народ говорит купоны кончились
Upd 2️⃣ : купоны вроде бы снова завезли - есть в комментах и успешная регистрация со скидкой
@deksden_notes
🔥10❤3👍3🙏3
⚪️ Смерть SDLC
В уютном платном чате у Алмаза 😎 @almazom (ИИ клуб "ИИшница") обнаружилась ссылка на любопытную статейку:
🔗 https://boristane.com/blog/the-software-development-lifecycle-is-dead/
Статья хайповая слегка (нет), и автор декларирует ряд моментов, которые возникло острое желание прокомментировать! Теу кого лапки нет времени - я в комменты выложу краткий пересказ от notebookLM.
Вкратце: он говорит - агенты разрушили и сделали пережитком прошлого классический цикл раработки. Нету больше тщательных спецификаций, длинных ревью PR, подготовки релизов, специальных инструментов для каждого этапа. Есть короткие итерационные циклы (петли) с агентом: обсудили, сделали, релизнули, проверил - шипим, проверяем, оставляем/откатываем. Все! "Херак, херак - и в продакшн" как есть.
Ну, довольно хайповый и смелый тейк.
🟢 Сначала с чем согласен:
* действительно софт можно дорабатывать короткими интерактивными сессиями.
* действительно надо делать обратную связь агенту (интеграционный тестик желательно), без этого сложно добиться работоспособности софта
* действительно тесты стали частью разработки обязательно;
* вычитывать диффы - уже некоторый рудимент, пожалуй;
* ревью: ну тут нечего добавить, я вот даже эвалы делаю на агентное ревью - смотрим по тегу #ddeval ; видимо, можно догадаться что я согласен; "ансамбль Песняры" и разных агентов - тоже отличная и рабочая схема;
🛑 С чем НЕ согласен и что спорно на мой взгляд, и скажу свои тейки:
* SDLC никуда не делся, но на разных этапах трансформировался новыми инструментами;
* шаги всё те же - спецификация никуда не делась, просто ее сейчас можно интерактивно с агентом определить; если недоспецифицировать задачу, рожаем слоп-код;
* все артефакты в той или иной степени присутствуют: и сторипоинтами (например) можно/нужно габариты задачи оценивать (для корректного планирвоания), и спринты - это сессия доработок, и ревью PR - это просто этап агентного цикла (можно без PR, это деталь CI/CD пайплайна);
* проектирование систем тоже никуда не делось, оно важно чтобы получалось что то более-менее нормально развивающееся; emergent design конечно тут здорово ложится - но именно что им нужно отдельно заниматься;
* тестировщики - да, похоже отживают; но требования к тестам только увеличились; агенту нужно обязательно вменяемое тестовое покрытие, которое прежде всего позволяет судить о том, насколько хорошо решили первоначальную задачу, и, вторично, о качестве реализации задачи (код какой вышел);
* deployment в агентную эпоху - да, малообсуждаемая, но необходимая тема; ничем она от традиционного цикла толком не отличается, только новыми механимами автоматизации агентами - поэтому я не уловил чего тут схлопывается то, скорее наоборот, Ci/CD отлаживается и начинает применяться в обязательном порядке даже на мелких проектах; (надо прописать в канале про это побольше, наверное - да?);
* дашборды - да, требуют замены на cli утилиты (скорее даже дополнения ими); но я тут не улавливаю слом парадигмы - скорее ее развитие и более обязательную адаптацию; мониторинг теперь и для мелких проектов имеет смысл и актуален - чтобы агенту его прикрутить;
☝️ Итого: на мой взгляд, SDLC цикл никуда не делся, а только лишь стабилизировался и даже утвердился. Да, отдельные этапы получили новые инструменты и воможности - но как это меняет их суть?! Жизнь - да, меняется, - но не методом "до основания", а динамичными спиралями развития, где у нас "все то же самое, но на новом уровне".
▶️ А вот про отдельный этап планирования (требования, спеки, архитектура - вот это все) мы в ближайшее время поплотнее поговорим.
(ц) как то так!
@deksden_notes
В уютном платном чате у Алмаза 😎 @almazom (ИИ клуб "ИИшница") обнаружилась ссылка на любопытную статейку:
🔗 https://boristane.com/blog/the-software-development-lifecycle-is-dead/
Статья хайповая слегка (нет), и автор декларирует ряд моментов, которые возникло острое желание прокомментировать! Те
Вкратце: он говорит - агенты разрушили и сделали пережитком прошлого классический цикл раработки. Нету больше тщательных спецификаций, длинных ревью PR, подготовки релизов, специальных инструментов для каждого этапа. Есть короткие итерационные циклы (петли) с агентом: обсудили, сделали, релизнули, проверил - шипим, проверяем, оставляем/откатываем. Все! "Херак, херак - и в продакшн" как есть.
Ну, довольно хайповый и смелый тейк.
🟢 Сначала с чем согласен:
* действительно софт можно дорабатывать короткими интерактивными сессиями.
* действительно надо делать обратную связь агенту (интеграционный тестик желательно), без этого сложно добиться работоспособности софта
* действительно тесты стали частью разработки обязательно;
* вычитывать диффы - уже некоторый рудимент, пожалуй;
* ревью: ну тут нечего добавить, я вот даже эвалы делаю на агентное ревью - смотрим по тегу #ddeval ; видимо, можно догадаться что я согласен; "ансамбль Песняры" и разных агентов - тоже отличная и рабочая схема;
🛑 С чем НЕ согласен и что спорно на мой взгляд, и скажу свои тейки:
* SDLC никуда не делся, но на разных этапах трансформировался новыми инструментами;
* шаги всё те же - спецификация никуда не делась, просто ее сейчас можно интерактивно с агентом определить; если недоспецифицировать задачу, рожаем слоп-код;
* все артефакты в той или иной степени присутствуют: и сторипоинтами (например) можно/нужно габариты задачи оценивать (для корректного планирвоания), и спринты - это сессия доработок, и ревью PR - это просто этап агентного цикла (можно без PR, это деталь CI/CD пайплайна);
* проектирование систем тоже никуда не делось, оно важно чтобы получалось что то более-менее нормально развивающееся; emergent design конечно тут здорово ложится - но именно что им нужно отдельно заниматься;
* тестировщики - да, похоже отживают; но требования к тестам только увеличились; агенту нужно обязательно вменяемое тестовое покрытие, которое прежде всего позволяет судить о том, насколько хорошо решили первоначальную задачу, и, вторично, о качестве реализации задачи (код какой вышел);
* deployment в агентную эпоху - да, малообсуждаемая, но необходимая тема; ничем она от традиционного цикла толком не отличается, только новыми механимами автоматизации агентами - поэтому я не уловил чего тут схлопывается то, скорее наоборот, Ci/CD отлаживается и начинает применяться в обязательном порядке даже на мелких проектах; (надо прописать в канале про это побольше, наверное - да?);
* дашборды - да, требуют замены на cli утилиты (скорее даже дополнения ими); но я тут не улавливаю слом парадигмы - скорее ее развитие и более обязательную адаптацию; мониторинг теперь и для мелких проектов имеет смысл и актуален - чтобы агенту его прикрутить;
☝️ Итого: на мой взгляд, SDLC цикл никуда не делся, а только лишь стабилизировался и даже утвердился. Да, отдельные этапы получили новые инструменты и воможности - но как это меняет их суть?! Жизнь - да, меняется, - но не методом "до основания", а динамичными спиралями развития, где у нас "все то же самое, но на новом уровне".
▶️ А вот про отдельный этап планирования (требования, спеки, архитектура - вот это все) мы в ближайшее время поплотнее поговорим.
(ц) как то так!
@deksden_notes
👍11💯7❤5👎2
Forwarded from ABI
Agentic-workflow для GitHub Copilot (open source)
Выложил экспериментальный репозиторий, где исследую role-based agentic workflows для GitHub Copilot / VS Code Agents.
Вместо одного «умного ассистента» используется явное разделение ролей:
* Orchestrator — управляет процессом
* Planner — уточнение требований и планирование
* Coder Jr / Coder Sr — выполнение задач с эскалацией
* Reviewer, Debugger, Designer — качество, баги, UX
Агенты описаны простыми текстовыми инструкциями (.agent.md), плюс есть skills / чеклисты для доменных правил и контроля качества.
Это не фреймворк и не готовый продукт, а конкретная, opinionated схема workflow для реальной инженерной работы и экспериментов.
Репозиторий:
https://github.com/ABIvan-Tech/copilot-agentic-workflows
Буду рад обратной связи, критике и альтернативным подходам.
#opensource
Выложил экспериментальный репозиторий, где исследую role-based agentic workflows для GitHub Copilot / VS Code Agents.
Вместо одного «умного ассистента» используется явное разделение ролей:
* Orchestrator — управляет процессом
* Planner — уточнение требований и планирование
* Coder Jr / Coder Sr — выполнение задач с эскалацией
* Reviewer, Debugger, Designer — качество, баги, UX
Агенты описаны простыми текстовыми инструкциями (.agent.md), плюс есть skills / чеклисты для доменных правил и контроля качества.
Это не фреймворк и не готовый продукт, а конкретная, opinionated схема workflow для реальной инженерной работы и экспериментов.
Репозиторий:
https://github.com/ABIvan-Tech/copilot-agentic-workflows
Буду рад обратной связи, критике и альтернативным подходам.
#opensource
GitHub
GitHub - ABIvan-Tech/copilot-agentic-workflows
Contribute to ABIvan-Tech/copilot-agentic-workflows development by creating an account on GitHub.
👍10❤2
Forwarded from ABI
AIFace — «эмоции» для LLM-агента (open source)
Выложил экспериментальный проект AIFace — способ дать LLM-агенту визуальное, эмоциональное представление в реальном времени.
Идея простая:
LLM → управляет состоянием → на телефоне отображается «живое лицо» с эмоциями.
Как устроено:
📱 Мобильный клиент (Kotlin Multiplatform)
Запускается на телефоне, поднимает WebSocket-сервер и рендерит анимированное лицо.
🧠 MCP-сервер (Node.js / TypeScript)
Связывает LLM (через MCP), обнаруживает доступные дисплеи по mDNS и отправляет обновления сцены.
🔁 Обмен в реальном времени через WebSocket.
LLM не рисует напрямую, а управляет состоянием, эмоциями и намерением, которые визуализируются на отдельном устройстве.
Это не продукт и не UI-фреймворк, а инженерный эксперимент:
* embodiment для агентов
* разделение «мышления» и «визуального присутствия»
* исследования interaction-паттернов с агентами
Репозиторий:
https://github.com/ABIvan-Tech/AIFace
Буду рад фидбеку, идеям и вопросам — особенно от тех, кто работает с агентами, MCP или human-AI interaction.
Ищу волшебника который сделает PR для ESP32 (пока у меня нет этого железа, поэтому нужна помощь!)
#opensource
Выложил экспериментальный проект AIFace — способ дать LLM-агенту визуальное, эмоциональное представление в реальном времени.
Идея простая:
LLM → управляет состоянием → на телефоне отображается «живое лицо» с эмоциями.
Как устроено:
📱 Мобильный клиент (Kotlin Multiplatform)
Запускается на телефоне, поднимает WebSocket-сервер и рендерит анимированное лицо.
🧠 MCP-сервер (Node.js / TypeScript)
Связывает LLM (через MCP), обнаруживает доступные дисплеи по mDNS и отправляет обновления сцены.
🔁 Обмен в реальном времени через WebSocket.
LLM не рисует напрямую, а управляет состоянием, эмоциями и намерением, которые визуализируются на отдельном устройстве.
Это не продукт и не UI-фреймворк, а инженерный эксперимент:
* embodiment для агентов
* разделение «мышления» и «визуального присутствия»
* исследования interaction-паттернов с агентами
Репозиторий:
https://github.com/ABIvan-Tech/AIFace
Буду рад фидбеку, идеям и вопросам — особенно от тех, кто работает с агентами, MCP или human-AI interaction.
Ищу волшебника который сделает PR для ESP32 (пока у меня нет этого железа, поэтому нужна помощь!)
#opensource
GitHub
GitHub - ABIvan-Tech/AIFace
Contribute to ABIvan-Tech/AIFace development by creating an account on GitHub.
1👍9
⚪️ OpenSource на нашем канале:
#opensource <— все можно найти по тегу
Напоминаю можно получить репост в канал как презентацию проекта: https://t.me/deksden_notes/483
Каталог: https://t.me/deksden_notes/484
#opensource <— все можно найти по тегу
Напоминаю можно получить репост в канал как презентацию проекта: https://t.me/deksden_notes/483
Каталог: https://t.me/deksden_notes/484
Telegram
DEKSDEN notes
⚪️ Опенсорс на нашем канале
Помимо того, что я кидаю линки на всякие github проекты, которые встречаю в процессе, я отдельно выделю:
• на канале я поддерживаю опенсорс подписчиков
• любой автор опенсорс проекта обращается ко мне в личку @deksden и получает…
Помимо того, что я кидаю линки на всякие github проекты, которые встречаю в процессе, я отдельно выделю:
• на канале я поддерживаю опенсорс подписчиков
• любой автор опенсорс проекта обращается ко мне в личку @deksden и получает…
❤3
⚪️ Великий разбан на Гугле
Многочисленные сообщения об амнистии - Гугл разбанил аккаунты, уличенные в OAuth.
Весна даже еще не наступила - а уже оттепель!
Antigravity / Gemini CLI снова работают. В очередной эвал квот видимо будет чуток побольше, ок - погоняю 3.1 побольше
Ну, осадочек остался ... Посмотрим на сообщения о политике относительно OAuth
@deksden_notes
Многочисленные сообщения об амнистии - Гугл разбанил аккаунты, уличенные в OAuth.
Весна даже еще не наступила - а уже оттепель!
Antigravity / Gemini CLI снова работают. В очередной эвал квот видимо будет чуток побольше, ок - погоняю 3.1 побольше
Ну, осадочек остался ... Посмотрим на сообщения о политике относительно OAuth
@deksden_notes
❤5👻3
⚪️ Антропики поддерживают OpenSource
Интересную программу придумали Антропики: дадут на 6 месяцев Макс-200 тариф Клода если вы контрибутор популярного проекта на гитхабе (5000 звездочек+ или 1m+ загрузкок с npm, но можно и для других проектов просить)
Антропикам определенно не лишним будет улучшать свою репутацию.
Да и обучив модели на коде открытых проектов, дать модели для генерации кода этих проектов кажется неким логичным шагом )))
🔗 https://claude.com/contact-sales/claude-for-oss
Шаг отличный!
Но в моих глазах предыдущие решения еще не забыты, Антропик.
@deksden_notes
Интересную программу придумали Антропики: дадут на 6 месяцев Макс-200 тариф Клода если вы контрибутор популярного проекта на гитхабе (5000 звездочек+ или 1m+ загрузкок с npm, но можно и для других проектов просить)
Антропикам определенно не лишним будет улучшать свою репутацию.
Да и обучив модели на коде открытых проектов, дать модели для генерации кода этих проектов кажется неким логичным шагом )))
🔗 https://claude.com/contact-sales/claude-for-oss
Шаг отличный!
Но в моих глазах предыдущие решения еще не забыты, Антропик.
@deksden_notes
Claude
Claude for Open Source | Claude by Anthropic
Apply to the Claude for Open Source program. Eligible OSS maintainers and contributors get Claude Max for 6 months on us.
👍11❤2😴1
⚪️ Codex 0.106
Я не часто анонсирую релизы кодекса, благо они случаются часто. Но тут чего то новых интересных фич прям насыпали за последние резизы.
Уже в .105 был войс режим, я даже писало об этом. А в 106 добавили request_user_input в обычный режим, не только в план-моде. Это означает, что и при обычном диалоге с агентом он может задать вам вопрос чере этот удобный инструмент. Попробуйте включить фичафлаг:
default_mode_request_user_input = true
Можно будет делать кастомный план-мод.
Также вроде бы включили память. Посмотрим как будет работать.
Довольно интересный релиз!
@deksden_notes
Я не часто анонсирую релизы кодекса, благо они случаются часто. Но тут чего то новых интересных фич прям насыпали за последние резизы.
Уже в .105 был войс режим, я даже писало об этом. А в 106 добавили request_user_input в обычный режим, не только в план-моде. Это означает, что и при обычном диалоге с агентом он может задать вам вопрос чере этот удобный инструмент. Попробуйте включить фичафлаг:
default_mode_request_user_input = true
Можно будет делать кастомный план-мод.
Также вроде бы включили память. Посмотрим как будет работать.
Довольно интересный релиз!
@deksden_notes
👍9❤2
⚪️ Gemini CLI Plan Mode
А все смотрели план-мод в свежем Gemini CLI? На удивление, он довольно хорош по задумке.
🔗 Вот дока: https://geminicli.com/docs/cli/plan-mode/
▶️ Важно! (я вот читал доку долго): он НЕ включится если вы в YOLO. А так - shoft-tab или /plan.
Агент исследует кодобазу в планмоде. Поведение зависит от сложности обсуждаемой задачи - для простых он сразу предлагает решение, для сложных будет пытать вас встречными вопросами через ask_user тул.
План умеет делать не эфемерным в контексте, а материализовать в файл в настроенную папку, что тоже удобно. То есть можно планы себе в проект класть (я так делаю, в .protocols/ ).
Также работает роутинг моделей: планирует CLI через про, а испоняет по готовому плану флешем. Да, можно выключить - но как показывают эвалы, не стоит ))
🟢 В принципе, к план-моду не подкопаешься. Да, не такой кудрявый получается как для оркестратора, но для обычного агента - вполне себе на уровне.
▶️ В общем, там, у Гугла, жизнь тоже есть! Не одни баны. Хотя и разбанили... Всех разбанили?
@deksden_notes
А все смотрели план-мод в свежем Gemini CLI? На удивление, он довольно хорош по задумке.
🔗 Вот дока: https://geminicli.com/docs/cli/plan-mode/
▶️ Важно! (я вот читал доку долго): он НЕ включится если вы в YOLO. А так - shoft-tab или /plan.
Агент исследует кодобазу в планмоде. Поведение зависит от сложности обсуждаемой задачи - для простых он сразу предлагает решение, для сложных будет пытать вас встречными вопросами через ask_user тул.
План умеет делать не эфемерным в контексте, а материализовать в файл в настроенную папку, что тоже удобно. То есть можно планы себе в проект класть (я так делаю, в .protocols/ ).
Также работает роутинг моделей: планирует CLI через про, а испоняет по готовому плану флешем. Да, можно выключить - но как показывают эвалы, не стоит ))
🟢 В принципе, к план-моду не подкопаешься. Да, не такой кудрявый получается как для оркестратора, но для обычного агента - вполне себе на уровне.
▶️ В общем, там, у Гугла, жизнь тоже есть! Не одни баны. Хотя и разбанили... Всех разбанили?
@deksden_notes
Gemini CLI
Plan Mode
👍8
⚪️ Нет - трубам! (архитектурное)
Любопытную статейку прочитал, про архитектуру в эпоху ИИ агентов:
🔗 https://ianbull.com/posts/software-architecture
TLDR от ноутбука-ЛМ в комменты зашлю, для нечитавших.
▶️ С мыслью автора сложно спорить - он очень верно подметил сложность для ИИ агентов: они не могут удерживать "в уме" стейт системы на несколько уровней "вглубь". То есть если у функции есть сайд-эффект, то один уровень, максимум два современные модели осознают. А дальше - все, тупик, не одупляют.
Поэтому если у вас в коде сложная система взаимодействий и сайд-эффектов, для ИИ агентов это будет крайней сложностью. Они рекурсивно по цепочке кода конечно сходят, но каждое действие продумывать с учетом всей глубины сайд-эффектов не смогут.
Пример: у вас обновление в БД запускает нотификацию. Нотификация обновляет метрику где то, вызывая апдейт лимитов. Лимиты обновляются, и могут ставить лок на аккаунт.
Идея в том, чтобы уйти от такого кода к более простому: каждое действие самодостаточно и минимиировано по сайд-эффектам. БД обновил, и все. Если нужна нотификация и вся последующая цеопчка логики, то ее следует вынести из "глубокой цепочки" в обычную плоскую функцию - типа сделай всю работу по этапам: обнови бд, лимиты, статус аккаунтов; чтобы это было внутри одной функции.
Тогда сложность системы для понимания ИИ станет меньше, ошибок в логике станет меньше. В свое время это называлось низкой связанностью.
Короче - каскадные действия, "трубы" мы выкапываем, убираем методом дробления на чистые кусочки. Переходим к оркестрации "стоков" (sinks)
—-
Ну и агитация за модульность / инкапсуляцию, понятные контракты и четкие уровни.
Все зависимости явно добавляем в интерфейсы.
Progressive Disclosure работает и здесь - не документацией единой же.. Принцип тот же и он жффективен
Реструктурируем проект почти как завещало С4, например, из паутины мелкий модулей структурировать по более крупным подсистемам и компонентам.
▶️ Такая вот идея, с которой сложно спорить. Зачем спорить? Такое применять надо
В общем, действительно олд-скулл. Если люди вам не сказали спасибо за такой код, скажут роботы.
(ц) занимательное и полезное чтение
@deksden_notes
Любопытную статейку прочитал, про архитектуру в эпоху ИИ агентов:
🔗 https://ianbull.com/posts/software-architecture
TLDR от ноутбука-ЛМ в комменты зашлю, для нечитавших.
▶️ С мыслью автора сложно спорить - он очень верно подметил сложность для ИИ агентов: они не могут удерживать "в уме" стейт системы на несколько уровней "вглубь". То есть если у функции есть сайд-эффект, то один уровень, максимум два современные модели осознают. А дальше - все, тупик, не одупляют.
Поэтому если у вас в коде сложная система взаимодействий и сайд-эффектов, для ИИ агентов это будет крайней сложностью. Они рекурсивно по цепочке кода конечно сходят, но каждое действие продумывать с учетом всей глубины сайд-эффектов не смогут.
Пример: у вас обновление в БД запускает нотификацию. Нотификация обновляет метрику где то, вызывая апдейт лимитов. Лимиты обновляются, и могут ставить лок на аккаунт.
Идея в том, чтобы уйти от такого кода к более простому: каждое действие самодостаточно и минимиировано по сайд-эффектам. БД обновил, и все. Если нужна нотификация и вся последующая цеопчка логики, то ее следует вынести из "глубокой цепочки" в обычную плоскую функцию - типа сделай всю работу по этапам: обнови бд, лимиты, статус аккаунтов; чтобы это было внутри одной функции.
Тогда сложность системы для понимания ИИ станет меньше, ошибок в логике станет меньше. В свое время это называлось низкой связанностью.
Короче - каскадные действия, "трубы" мы выкапываем, убираем методом дробления на чистые кусочки. Переходим к оркестрации "стоков" (sinks)
—-
Ну и агитация за модульность / инкапсуляцию, понятные контракты и четкие уровни.
Все зависимости явно добавляем в интерфейсы.
Progressive Disclosure работает и здесь - не документацией единой же.. Принцип тот же и он жффективен
Реструктурируем проект почти как завещало С4, например, из паутины мелкий модулей структурировать по более крупным подсистемам и компонентам.
▶️ Такая вот идея, с которой сложно спорить. Зачем спорить? Такое применять надо
В общем, действительно олд-скулл. Если люди вам не сказали спасибо за такой код, скажут роботы.
(ц) занимательное и полезное чтение
@deksden_notes
Ianbull
Sinks, Not Pipes: Software Architecture in the Age of AI
Software architecture principles like low coupling, high cohesion, and minimal side effects matter more than ever when AI agents are the ones navigating your codebase.
3💯17❤9👍4🔥2🤔1
⚪️ OAuth баны от Гугла
Гугл разродился реакцией на шитсторм от банок антигравити и gemini cli для аккаунтов, использовавших OAuth.
Они придумали систему аппеляции и разбана аккаунта, но за второй косяк забанят перманентно.
https://github.com/google-gemini/gemini-cli/discussions/20632
👉 TLDR: Oauth с Гуглом нельзя, аккуратнее!
——
Upd : важно отметить, что юзать CLI в режиме exec из-под какой то системы вроде можно, так как в родной упряжке все делается. А вот напрямую токены подписки - не стоит. Только CLI
@deksden_notes
Гугл разродился реакцией на шитсторм от банок антигравити и gemini cli для аккаунтов, использовавших OAuth.
Они придумали систему аппеляции и разбана аккаунта, но за второй косяк забанят перманентно.
https://github.com/google-gemini/gemini-cli/discussions/20632
👉 TLDR: Oauth с Гуглом нельзя, аккуратнее!
——
Upd : важно отметить, что юзать CLI в режиме exec из-под какой то системы вроде можно, так как в родной упряжке все делается. А вот напрямую токены подписки - не стоит. Только CLI
@deksden_notes
GitHub
Addressing Antigravity Bans & Reinstating Access · google-gemini gemini-cli · Discussion #20632
Over the past week, we saw reports from Gemini CLI users experiencing account disruptions. These were the result of a series of Antigravity bans rolled out to address violations of the Antigravity ...
👍5🔥2❤1
⚪️ Кризис 2028
Тут подкинули интересный рисёч от инвестиционной конторки. Она расписала сценарий кризиса, связанного с внедрением ИИ на 2026-2028
🔗 Сабж: https://www.citriniresearch.com/p/2028gic
TLDR будет в комментах, как обычно
🟢 Кто может покритиковать тейки? В чем инвестиционщики ошибаются?
@deksden_notes
Тут подкинули интересный рисёч от инвестиционной конторки. Она расписала сценарий кризиса, связанного с внедрением ИИ на 2026-2028
🔗 Сабж: https://www.citriniresearch.com/p/2028gic
TLDR будет в комментах, как обычно
🟢 Кто может покритиковать тейки? В чем инвестиционщики ошибаются?
@deksden_notes
Citriniresearch
THE 2028 GLOBAL INTELLIGENCE CRISIS
A Thought Exercise in Financial History, from the Future
🔥3👍2
⚪️ Vercel Chat.SDK
Теперь он поддерживает тележку, а значит чего то да стоит. Как вариант универсального апи - может быть кому то сгодится.
🔗 https://www.chat-sdk.dev/
(ц) Ну так - чисто к сведению
Теперь он поддерживает тележку, а значит чего то да стоит. Как вариант универсального апи - может быть кому то сгодится.
🔗 https://www.chat-sdk.dev/
(ц) Ну так - чисто к сведению
chat-sdk.dev
Chat SDK
A unified TypeScript SDK for building chat bots across Slack, Microsoft Teams, Google Chat, Discord, and more. Write your bot logic once, deploy everywhere.
❤4👍3
Forwarded from AI-Driven Development. Родион Мостовой
Друзья, начинаем митап про AI кодинг в больших проектах через 5 минут. Приходите!
"Во всех кионтеатрах всех стран", :)) выбирайте что душе угодно.
Ссылка на Зум в Luma: https://luma.com/event/manage/evt-AuFhLXtqp1DlqGi/overview
Трансляции:
https://www.youtube.com/live/F2cpHNF0Jwg
https://rutube.ru/video/private/93a8d325a1a8be7dccc785542fe9a1ae/?p=PEbI8DRIhdVL1CAamGDD6w
Важно: Смотреть можно откуда угодно, но вопросы читаем только из Зума.
"Во всех кионтеатрах всех стран", :)) выбирайте что душе угодно.
Ссылка на Зум в Luma: https://luma.com/event/manage/evt-AuFhLXtqp1DlqGi/overview
Трансляции:
https://www.youtube.com/live/F2cpHNF0Jwg
https://rutube.ru/video/private/93a8d325a1a8be7dccc785542fe9a1ae/?p=PEbI8DRIhdVL1CAamGDD6w
Важно: Смотреть можно откуда угодно, но вопросы читаем только из Зума.
YouTube
AI-Ready Codebase
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
🔥10❤4👍4👀1
⚪️ Алибаба Coding Plan
Добавили второй месяц на льготных условиях? так понимаю
Ну - гуд!
@deksden_notes
Добавили второй месяц на льготных условиях? так понимаю
Ну - гуд!
@deksden_notes
👍12
⚪️ ШОК! Ведущие специалисты Qwen были уволены после #ddeval
... ведь на последнем #feb2026eval2 агент Qwen показал невпечатляющие результаты (на самом деле - нет).
Почему?
Просто совпало на самом деле)))
У Алибабы внутри какие то перестановки, несколько спецов и квена были уволены/ушли - не до конца ясно.
🔗 https://x.com/kevinsxu/status/2028926776605389165?s=20
🔗 https://x.com/ns123abc/status/2028989964189348326?s=46
——
Upd 1️⃣: коллеги в чате (@galadamor) подсказывают, что скорее всего их заменил ИИ
@deksden_notes
... ведь на последнем #feb2026eval2 агент Qwen показал невпечатляющие результаты (на самом деле - нет).
Почему?
Просто совпало на самом деле)))
У Алибабы внутри какие то перестановки, несколько спецов и квена были уволены/ушли - не до конца ясно.
🔗 https://x.com/kevinsxu/status/2028926776605389165?s=20
🔗 https://x.com/ns123abc/status/2028989964189348326?s=46
——
Upd 1️⃣: коллеги в чате (@galadamor) подсказывают, что скорее всего их заменил ИИ
@deksden_notes
⚪️ Первый - пошел! Оркестраторы в массы
Гугловский Кондуктор (который флоу, а НЕ агентный ИДЕ conductor.build) позднее встроят в gemini CLI.
Логично! Упряжки получат какой то встроенный флоу. Кондуктор - это SDD, context -> spec -> plan -> implement.
Лучше поздновато
BMAD релиз первый - сентябрь 2025, например.
@deksden_notes
Гугловский Кондуктор (который флоу, а НЕ агентный ИДЕ conductor.build) позднее встроят в gemini CLI.
Логично! Упряжки получат какой то встроенный флоу. Кондуктор - это SDD, context -> spec -> plan -> implement.
Лучше поздновато
BMAD релиз первый - сентябрь 2025, например.
@deksden_notes
1👍9❤6
⚪️ Codex limits Reset
В очередной раз обнаружен некий баг и мы получаем ресет лимитов! Даже двойные лимиты теперь свежие
Ура)
——
Upd 1️⃣ : важное дополнение - праздник жизни у pro / plus аккаунтов. Team обделен.
@deksden_notes
В очередной раз обнаружен некий баг и мы получаем ресет лимитов! Даже двойные лимиты теперь свежие
Ура)
——
Upd 1️⃣ : важное дополнение - праздник жизни у pro / plus аккаунтов. Team обделен.
@deksden_notes
👍12🔥5👻3
⚪️ Google Workspace Cli and Skill
Связка Cli + Skill потихоньку становится не менее обяательной чем MCP для сервиса
Тоже хорошо
Гугл выпустил свое для Workspace
🔗 https://github.com/googleworkspace/cli
$ npm i -g @googleworkspace/cli
$ npx skills add github:googleworkspace/cli
Кстати, Rust
@deksden_notes
Связка Cli + Skill потихоньку становится не менее обяательной чем MCP для сервиса
Тоже хорошо
Гугл выпустил свое для Workspace
🔗 https://github.com/googleworkspace/cli
$ npm i -g @googleworkspace/cli
$ npx skills add github:googleworkspace/cli
Кстати, Rust
@deksden_notes
👍10🔥6