DEKSDEN notes
2.1K subscribers
248 photos
4 videos
1 file
387 links
Канал с моими заметками на разные темы
Vibe Coding -> AI SWE, AI Coding Tools, Agents: Claude Code, Codex, news, links
Чат (!!!): https://t.me/+B1fB3sZbaVthMDhi
Download Telegram
⚪️ Eval-3 (3): итоги

#ddeval #feb2026eval3

Самая сложная часть, на самом деле. Мы получили кучу данных, они перед глазами. А вот понять - о чем это, как это понимать, - это самое сложное в такого рода исследованиях.

👉 TLDR: Gpt-5.2 > Flash 3 > Glm-5 + Kimi K2.5

Давайте перечислю свои наблюдения:
* gpt-5.2 заметно глубже и внимательнее думает, все таки бейзлайн фронтира как есть! нашел более глубокие проблемы, все верифицированы - отличные рейты. Удвительно, что думал наже немного побыстрее glm-5.
* glm-5 нынче довольно долго думала, вышло даже дольше gpt-5.2, что удивительно. Нет, у меня у клозедов не pro тариф с быстрым инференсом, обычный.
* модели на фокусах в целом здорово улучшили рейт верификации - почти все находки подтвердились, рост доли верифицированных находок заметный
* kimi довольно шустрая, по качеству работы весьма сравнима с glm-5, разброса в качестве между ними не выявлено
* flash 3 работает в ревью заметно лучше 3.1 pro
* flash-3 немного (не сильно, но заметно) лучше по качеству справился с работой, чем киты - все таки фронтир, видимо; но не уровень gpt-5.2

👉 Главный вывод: фокусная работа дает результаты. За семплы этого эвала было обнаружено в х2 больше issues этих категорий, чем из всех ранее запускавшихся "широких" прогонов.

▶️ Ранее "плотность" обнаружения issues в этих фокусах была 0.9 на сэмпл, а в фокусном эвале - 5+ на семпл. Рост почти х6.

☝️ Итого: в продакшене в оркестраторе - только фокусные эвалы. Фан-аут на каждый фокус и интеграция результатов. Качество растет в разы. Большой плюс от использования разных моделей - очень низкие коэффициенты пересечения находок.

🟢 Такой эвал получился.

@deksden_notes
👍9🔥51❤‍🔥1🙏1
⚪️ Забавное


Переведу:

https://x.com/fortelabs/status/2026681391384068260?s=20

——

Подождите, значит, основателем Anthropic является "Амодей", то есть "любящий Бога"? И он возглавляет Anthropic, что означает «ориентированный на человека», который используется в военных целях?

А создателем ChatGPT является "Altman", то есть "альтернатива людям"? А он возглавляет OpenAI, которая является полностью закрытой организацией?

А ещё есть Gemini, что означает "двуликий", от компании, которая обещала не творить зла?

И вся эта глобальная гонка вооружений в области ИИ ведется людьми, которые утверждали, что обеспокоены тем, что искусственный общий интеллект захватит мир?

Либо Вселенная — автор, пишущий крайне шаблонные тексты, либо обладает блестящим чувством юмора.

——

не мое, но забавное! (ц)

@deksden_notes
😁18👍3🔥1😐1
⚪️ Кодинговый план алибабы

Получил апгрейд

Теперь ВСЕ топовые киты доступны в нем! $5 в первый месяц, $10 далее. Доступ ко всем моделям:
• Kimi K2.5
• Glm-5 (new!)
• Minimax M2.5
• Qwen 3.5

Да, квен не впечатляет - но остальные вполне себе китовый фронтир.


И - главный аргумент: $5/10.

А за $25/50 - огромные лимиты! по 20 апросов в МИНУТУ.

В общем, бюджетный способ получить всех китов в упряжку.

Я думаю про кими, но слайды тоже хочется. И сварм попробовать - в общем, надо подумать! Но алибаба интересное предложение делает

🔗 https://www.alibabacloud.com/help/en/model-studio/coding-plan

——

Upd 1️⃣ : народ говорит купоны кончились

Upd 2️⃣ : купоны вроде бы снова завезли - есть в комментах и успешная регистрация со скидкой

@deksden_notes
🔥103👍3🙏3
⚪️ Смерть SDLC

В уютном платном чате у Алмаза 😎 @almazom (ИИ клуб "ИИшница") обнаружилась ссылка на любопытную статейку:

🔗 https://boristane.com/blog/the-software-development-lifecycle-is-dead/

Статья хайповая слегка (нет), и автор декларирует ряд моментов, которые возникло острое желание прокомментировать! Те у кого лапки нет времени - я в комменты выложу краткий пересказ от notebookLM.

Вкратце: он говорит - агенты разрушили и сделали пережитком прошлого классический цикл раработки. Нету больше тщательных спецификаций, длинных ревью PR, подготовки релизов, специальных инструментов для каждого этапа. Есть короткие итерационные циклы (петли) с агентом: обсудили, сделали, релизнули, проверил - шипим, проверяем, оставляем/откатываем. Все! "Херак, херак - и в продакшн" как есть.

Ну, довольно хайповый и смелый тейк.

🟢 Сначала с чем согласен:
* действительно софт можно дорабатывать короткими интерактивными сессиями.
* действительно надо делать обратную связь агенту (интеграционный тестик желательно), без этого сложно добиться работоспособности софта
* действительно тесты стали частью разработки обязательно;
* вычитывать диффы - уже некоторый рудимент, пожалуй;
* ревью: ну тут нечего добавить, я вот даже эвалы делаю на агентное ревью - смотрим по тегу #ddeval ; видимо, можно догадаться что я согласен; "ансамбль Песняры" и разных агентов - тоже отличная и рабочая схема;


🛑 С чем НЕ согласен и что спорно на мой взгляд, и скажу свои тейки:
* SDLC никуда не делся, но на разных этапах трансформировался новыми инструментами;
* шаги всё те же - спецификация никуда не делась, просто ее сейчас можно интерактивно с агентом определить; если недоспецифицировать задачу, рожаем слоп-код;
* все артефакты в той или иной степени присутствуют: и сторипоинтами (например) можно/нужно габариты задачи оценивать (для корректного планирвоания), и спринты - это сессия доработок, и ревью PR - это просто этап агентного цикла (можно без PR, это деталь CI/CD пайплайна);
* проектирование систем тоже никуда не делось, оно важно чтобы получалось что то более-менее нормально развивающееся; emergent design конечно тут здорово ложится - но именно что им нужно отдельно заниматься;
* тестировщики - да, похоже отживают; но требования к тестам только увеличились; агенту нужно обязательно вменяемое тестовое покрытие, которое прежде всего позволяет судить о том, насколько хорошо решили первоначальную задачу, и, вторично, о качестве реализации задачи (код какой вышел);
* deployment в агентную эпоху - да, малообсуждаемая, но необходимая тема; ничем она от традиционного цикла толком не отличается, только новыми механимами автоматизации агентами - поэтому я не уловил чего тут схлопывается то, скорее наоборот, Ci/CD отлаживается и начинает применяться в обязательном порядке даже на мелких проектах; (надо прописать в канале про это побольше, наверное - да?);
* дашборды - да, требуют замены на cli утилиты (скорее даже дополнения ими); но я тут не улавливаю слом парадигмы - скорее ее развитие и более обязательную адаптацию; мониторинг теперь и для мелких проектов имеет смысл и актуален - чтобы агенту его прикрутить;

☝️ Итого: на мой взгляд, SDLC цикл никуда не делся, а только лишь стабилизировался и даже утвердился. Да, отдельные этапы получили новые инструменты и воможности - но как это меняет их суть?! Жизнь - да, меняется, - но не методом "до основания", а динамичными спиралями развития, где у нас "все то же самое, но на новом уровне".

▶️ А вот про отдельный этап планирования (требования, спеки, архитектура - вот это все) мы в ближайшее время поплотнее поговорим.


(ц) как то так!

@deksden_notes
👍11💯75👎2
Forwarded from ABI
Agentic-workflow для GitHub Copilot (open source)

Выложил экспериментальный репозиторий, где исследую role-based agentic workflows для GitHub Copilot / VS Code Agents.
Вместо одного «умного ассистента» используется явное разделение ролей:
* Orchestrator — управляет процессом
* Planner — уточнение требований и планирование
* Coder Jr / Coder Sr — выполнение задач с эскалацией
* Reviewer, Debugger, Designer — качество, баги, UX

Агенты описаны простыми текстовыми инструкциями (.agent.md), плюс есть skills / чеклисты для доменных правил и контроля качества.
Это не фреймворк и не готовый продукт, а конкретная, opinionated схема workflow для реальной инженерной работы и экспериментов.

Репозиторий:
https://github.com/ABIvan-Tech/copilot-agentic-workflows

Буду рад обратной связи, критике и альтернативным подходам.

#opensource
👍102
Forwarded from ABI
AIFace — «эмоции» для LLM-агента (open source)

Выложил экспериментальный проект AIFace — способ дать LLM-агенту визуальное, эмоциональное представление в реальном времени.

Идея простая:
LLM → управляет состоянием → на телефоне отображается «живое лицо» с эмоциями.

Как устроено:
📱 Мобильный клиент (Kotlin Multiplatform)
Запускается на телефоне, поднимает WebSocket-сервер и рендерит анимированное лицо.
🧠 MCP-сервер (Node.js / TypeScript)
Связывает LLM (через MCP), обнаруживает доступные дисплеи по mDNS и отправляет обновления сцены.
🔁 Обмен в реальном времени через WebSocket.

LLM не рисует напрямую, а управляет состоянием, эмоциями и намерением, которые визуализируются на отдельном устройстве.

Это не продукт и не UI-фреймворк, а инженерный эксперимент:
* embodiment для агентов
* разделение «мышления» и «визуального присутствия»
* исследования interaction-паттернов с агентами

Репозиторий:
https://github.com/ABIvan-Tech/AIFace

Буду рад фидбеку, идеям и вопросам — особенно от тех, кто работает с агентами, MCP или human-AI interaction.
Ищу волшебника который сделает PR для ESP32 (пока у меня нет этого железа, поэтому нужна помощь!)

#opensource
1👍9
⚪️ Великий разбан на Гугле


Многочисленные сообщения об амнистии - Гугл разбанил аккаунты, уличенные в OAuth.

Весна даже еще не наступила - а уже оттепель!

Antigravity / Gemini CLI снова работают. В очередной эвал квот видимо будет чуток побольше, ок - погоняю 3.1 побольше

Ну, осадочек остался ... Посмотрим на сообщения о политике относительно OAuth


@deksden_notes
5👻3
⚪️ Антропики поддерживают OpenSource


Интересную программу придумали Антропики: дадут на 6 месяцев Макс-200 тариф Клода если вы контрибутор популярного проекта на гитхабе (5000 звездочек+ или 1m+ загрузкок с npm, но можно и для других проектов просить)

Антропикам определенно не лишним будет улучшать свою репутацию.

Да и обучив модели на коде открытых проектов, дать модели для генерации кода этих проектов кажется неким логичным шагом )))


🔗 https://claude.com/contact-sales/claude-for-oss


Шаг отличный!

Но в моих глазах предыдущие решения еще не забыты, Антропик.

@deksden_notes
👍112😴1
⚪️ Codex 0.106


Я не часто анонсирую релизы кодекса, благо они случаются часто. Но тут чего то новых интересных фич прям насыпали за последние резизы.

Уже в .105 был войс режим, я даже писало об этом. А в 106 добавили request_user_input в обычный режим, не только в план-моде. Это означает, что и при обычном диалоге с агентом он может задать вам вопрос чере этот удобный инструмент. Попробуйте включить фичафлаг:

default_mode_request_user_input = true

Можно будет делать кастомный план-мод.

Также вроде бы включили память. Посмотрим как будет работать.

Довольно интересный релиз!

@deksden_notes
👍92
⚪️ Gemini CLI Plan Mode

А все смотрели план-мод в свежем Gemini CLI? На удивление, он довольно хорош по задумке.

🔗 Вот дока: https://geminicli.com/docs/cli/plan-mode/

▶️ Важно! (я вот читал доку долго): он НЕ включится если вы в YOLO. А так - shoft-tab или /plan.

Агент исследует кодобазу в планмоде. Поведение зависит от сложности обсуждаемой задачи - для простых он сразу предлагает решение, для сложных будет пытать вас встречными вопросами через ask_user тул.

План умеет делать не эфемерным в контексте, а материализовать в файл в настроенную папку, что тоже удобно. То есть можно планы себе в проект класть (я так делаю, в .protocols/ ).

Также работает роутинг моделей: планирует CLI через про, а испоняет по готовому плану флешем. Да, можно выключить - но как показывают эвалы, не стоит ))

🟢 В принципе, к план-моду не подкопаешься. Да, не такой кудрявый получается как для оркестратора, но для обычного агента - вполне себе на уровне.

▶️ В общем, там, у Гугла, жизнь тоже есть! Не одни баны. Хотя и разбанили... Всех разбанили?

@deksden_notes
👍8
⚪️ Нет - трубам! (архитектурное)

Любопытную статейку прочитал, про архитектуру в эпоху ИИ агентов:

🔗 https://ianbull.com/posts/software-architecture

TLDR от ноутбука-ЛМ в комменты зашлю, для нечитавших.

▶️ С мыслью автора сложно спорить - он очень верно подметил сложность для ИИ агентов: они не могут удерживать "в уме" стейт системы на несколько уровней "вглубь". То есть если у функции есть сайд-эффект, то один уровень, максимум два современные модели осознают. А дальше - все, тупик, не одупляют.

Поэтому если у вас в коде сложная система взаимодействий и сайд-эффектов, для ИИ агентов это будет крайней сложностью. Они рекурсивно по цепочке кода конечно сходят, но каждое действие продумывать с учетом всей глубины сайд-эффектов не смогут.

Пример: у вас обновление в БД запускает нотификацию. Нотификация обновляет метрику где то, вызывая апдейт лимитов. Лимиты обновляются, и могут ставить лок на аккаунт.

Идея в том, чтобы уйти от такого кода к более простому: каждое действие самодостаточно и минимиировано по сайд-эффектам. БД обновил, и все. Если нужна нотификация и вся последующая цеопчка логики, то ее следует вынести из "глубокой цепочки" в обычную плоскую функцию - типа сделай всю работу по этапам: обнови бд, лимиты, статус аккаунтов; чтобы это было внутри одной функции.

Тогда сложность системы для понимания ИИ станет меньше, ошибок в логике станет меньше. В свое время это называлось низкой связанностью.

Короче - каскадные действия, "трубы" мы выкапываем, убираем методом дробления на чистые кусочки. Переходим к оркестрации "стоков" (sinks)

—-

Ну и агитация за модульность / инкапсуляцию, понятные контракты и четкие уровни.

Все зависимости явно добавляем в интерфейсы.

Progressive Disclosure работает и здесь - не документацией единой же.. Принцип тот же и он жффективен

Реструктурируем проект почти как завещало С4, например, из паутины мелкий модулей структурировать по более крупным подсистемам и компонентам.


▶️ Такая вот идея, с которой сложно спорить. Зачем спорить? Такое применять надо

В общем, действительно олд-скулл. Если люди вам не сказали спасибо за такой код, скажут роботы.


(ц) занимательное и полезное чтение

@deksden_notes
3💯179👍4🔥2🤔1
⚪️ OAuth баны от Гугла

Гугл разродился реакцией на шитсторм от банок антигравити и gemini cli для аккаунтов, использовавших OAuth.

Они придумали систему аппеляции и разбана аккаунта, но за второй косяк забанят перманентно.

https://github.com/google-gemini/gemini-cli/discussions/20632

👉 TLDR: Oauth с Гуглом нельзя, аккуратнее!

——

Upd : важно отметить, что юзать CLI в режиме exec из-под какой то системы вроде можно, так как в родной упряжке все делается. А вот напрямую токены подписки - не стоит. Только CLI


@deksden_notes
👍5🔥21
⚪️ Кризис 2028


Тут подкинули интересный рисёч от инвестиционной конторки. Она расписала сценарий кризиса, связанного с внедрением ИИ на 2026-2028

🔗 Сабж: https://www.citriniresearch.com/p/2028gic

TLDR будет в комментах, как обычно

🟢 Кто может покритиковать тейки? В чем инвестиционщики ошибаются?

@deksden_notes
🔥3👍2
⚪️ Vercel Chat.SDK


Теперь он поддерживает тележку, а значит чего то да стоит. Как вариант универсального апи - может быть кому то сгодится.

🔗 https://www.chat-sdk.dev/

(ц) Ну так - чисто к сведению
4👍3
Друзья, начинаем митап про AI кодинг в больших проектах через 5 минут. Приходите!
"Во всех кионтеатрах всех стран", :)) выбирайте что душе угодно.

Ссылка на Зум в Luma: https://luma.com/event/manage/evt-AuFhLXtqp1DlqGi/overview

Трансляции:
https://www.youtube.com/live/F2cpHNF0Jwg

https://rutube.ru/video/private/93a8d325a1a8be7dccc785542fe9a1ae/?p=PEbI8DRIhdVL1CAamGDD6w

Важно: Смотреть можно откуда угодно, но вопросы читаем только из Зума.
🔥104👍4👀1
⚪️ Алибаба Coding Plan

Добавили второй месяц на льготных условиях? так понимаю

Ну - гуд!

@deksden_notes
👍12
⚪️ ШОК! Ведущие специалисты Qwen были уволены после #ddeval


... ведь на последнем #feb2026eval2 агент Qwen показал невпечатляющие результаты (на самом деле - нет).

Почему?

Просто совпало на самом деле)))

У Алибабы внутри какие то перестановки, несколько спецов и квена были уволены/ушли - не до конца ясно.


🔗 https://x.com/kevinsxu/status/2028926776605389165?s=20
🔗 https://x.com/ns123abc/status/2028989964189348326?s=46

——

Upd 1️⃣: коллеги в чате (@galadamor) подсказывают, что скорее всего их заменил ИИ

@deksden_notes
⚪️ Первый - пошел! Оркестраторы в массы


Гугловский Кондуктор (который флоу, а НЕ агентный ИДЕ conductor.build) позднее встроят в gemini CLI.

Логично! Упряжки получат какой то встроенный флоу. Кондуктор - это SDD, context -> spec -> plan -> implement.

Лучше поздновато

BMAD релиз первый - сентябрь 2025, например.

@deksden_notes
1👍96
⚪️ Codex limits Reset

В очередной раз обнаружен некий баг и мы получаем ресет лимитов! Даже двойные лимиты теперь свежие

Ура)

——

Upd 1️⃣ : важное дополнение - праздник жизни у pro / plus аккаунтов. Team обделен.


@deksden_notes
👍12🔥5👻3
⚪️ Google Workspace Cli and Skill


Связка Cli + Skill потихоньку становится не менее обяательной чем MCP для сервиса

Тоже хорошо

Гугл выпустил свое для Workspace

🔗 https://github.com/googleworkspace/cli

$ npm i -g @⁠googleworkspace/cli
$ npx skills add github:googleworkspace/cli

Кстати, Rust

@deksden_notes
👍10🔥6