⚪️ Google Stitch
... активно развивается в последнее время. Его развитием занята команда, которая также занимается Jules, и мне нравится их темп. Я не очень пристально за ними слежу, но они в последнее время кучу крутых фич впиливают
Вот нынче туда завезли поддержку дизайн систем. Это BIG для такого софта.
🔗 https://x.com/stitchbygoogle/status/2022023576778580148?s=20
Надо будет обзакомится с его возможностями. По впечатлению - формируется весьма годный продукт для дизайна интерфейсов. А гемини во фронт умела неплохо.
@deksden_notes
... активно развивается в последнее время. Его развитием занята команда, которая также занимается Jules, и мне нравится их темп. Я не очень пристально за ними слежу, но они в последнее время кучу крутых фич впиливают
Вот нынче туда завезли поддержку дизайн систем. Это BIG для такого софта.
🔗 https://x.com/stitchbygoogle/status/2022023576778580148?s=20
Надо будет обзакомится с его возможностями. По впечатлению - формируется весьма годный продукт для дизайна интерфейсов. А гемини во фронт умела неплохо.
@deksden_notes
👍3🔥2❤🔥1
⚪️ Большой релиз у Cline - CLI 2.0
Анонс:
🔗 https://x.com/cline/status/2022341254965772367?s=20
🔗 https://cline.bot/blog/introducing-cline-cli-2-0
Новое:
• редизайн TUI
• паралелльные агенты с изолированным состоянием
• доработанный headless mode
• поддержка ACP для интеграции в поддерживающие ИДЕ/инструменты
• win / mac / linux
• акция: kimi K2.5 free, Minimax M2.5 free
Респект команде
(ц) Такое мы отслеживаем
@deksden_notes
Анонс:
🔗 https://x.com/cline/status/2022341254965772367?s=20
🔗 https://cline.bot/blog/introducing-cline-cli-2-0
Новое:
• редизайн TUI
• паралелльные агенты с изолированным состоянием
• доработанный headless mode
• поддержка ACP для интеграции в поддерживающие ИДЕ/инструменты
• win / mac / linux
• акция: kimi K2.5 free, Minimax M2.5 free
Респект команде
(ц) Такое мы отслеживаем
@deksden_notes
🐳4👍1
⚪️ Стадия 0, Прайминг
#ddeval #feb2026eval
С опусом из антигравити возникла сразу же проблема: гугл запросил верификацию моего вьетнамского аккаунта с подпиской на год. Слухи о некотором закручивании гаек, видимо, были небеспочвенными. Верифицировал через смс на телефон через онлайнсим, завел аккаунт, авторизовался, прокинул в VibeProxy для подключения в СС. Ок - едем дальше!
Прайминг GLM-5 в CC: id сессии, тайминги и контекст:
* g1: 2:53, 19.3% used;
* g2: 1:26, 19.5% used;
* g3: 1:20, 17.9% used;
Заметно медленее Opus и заметно меньше использование контекста!
Теперь к опенкоду и MiniMax:
* m1: 24s, 12% used;
* m2: 15s, 12% used;
* m3, 40s, 13$ used;
Заполнение контекста небольшое, но очень быстро, ходя одна сессия х2 по времени вышла.
Kimi K2.5, opencode:
* k1: 18.1s, 9% used;
* k2: 20.8s, 9% used;
* k3: 18.9s, 9% used;
Разброс таймингов минимальный, потребление контекста совсем скромное. И очень быстро!
Прайминг opus 4.6 в СС: id сессии, тайминг и контекст:
* o1: 53s, 35% used;
* o2: 57s, 36% used;
* o3: 40s, 31% used;
Довольно шустро и без разброса между сессиями.
Gemini 3 pro:
* все сессии оч быстро отработали (в гемини нету таймера, засекать время неудобно - но тайминги буквально 15-20), и затраты контекста на прайминг в 3-4%; при миллионе контекста это не такой фактор; сессии маркируем gm1-3;
Референсный gpt-5.2 high, в кодексе:
* c1: 1:41, 10% used;
* c2: 2:18, 12% used;
* c3: 2:16, 12% used;
Не быстро, потребление контекста небольшое.
👉 Краткое наблюдение: разброс в использовании контекста даже в одинаковых упряжках наверное что то означает. Время работы моделей тоже весьма разное.
Вы обратили внимание - я идентифицирую сессии работы агента/модели буковкой и цифрой, для понятности - сессий много, чтобы не запутаться в них
🟢 Ок, двигаемся дальше!
@deksden_notes
#ddeval #feb2026eval
С опусом из антигравити возникла сразу же проблема: гугл запросил верификацию моего вьетнамского аккаунта с подпиской на год. Слухи о некотором закручивании гаек, видимо, были небеспочвенными. Верифицировал через смс на телефон через онлайнсим, завел аккаунт, авторизовался, прокинул в VibeProxy для подключения в СС. Ок - едем дальше!
Прайминг GLM-5 в CC: id сессии, тайминги и контекст:
* g1: 2:53, 19.3% used;
* g2: 1:26, 19.5% used;
* g3: 1:20, 17.9% used;
Заметно медленее Opus и заметно меньше использование контекста!
Теперь к опенкоду и MiniMax:
* m1: 24s, 12% used;
* m2: 15s, 12% used;
* m3, 40s, 13$ used;
Заполнение контекста небольшое, но очень быстро, ходя одна сессия х2 по времени вышла.
Kimi K2.5, opencode:
* k1: 18.1s, 9% used;
* k2: 20.8s, 9% used;
* k3: 18.9s, 9% used;
Разброс таймингов минимальный, потребление контекста совсем скромное. И очень быстро!
Прайминг opus 4.6 в СС: id сессии, тайминг и контекст:
* o1: 53s, 35% used;
* o2: 57s, 36% used;
* o3: 40s, 31% used;
Довольно шустро и без разброса между сессиями.
Gemini 3 pro:
* все сессии оч быстро отработали (в гемини нету таймера, засекать время неудобно - но тайминги буквально 15-20), и затраты контекста на прайминг в 3-4%; при миллионе контекста это не такой фактор; сессии маркируем gm1-3;
Референсный gpt-5.2 high, в кодексе:
* c1: 1:41, 10% used;
* c2: 2:18, 12% used;
* c3: 2:16, 12% used;
Не быстро, потребление контекста небольшое.
👉 Краткое наблюдение: разброс в использовании контекста даже в одинаковых упряжках наверное что то означает. Время работы моделей тоже весьма разное.
Вы обратили внимание - я идентифицирую сессии работы агента/модели буковкой и цифрой, для понятности - сессий много, чтобы не запутаться в них
🟢 Ок, двигаемся дальше!
@deksden_notes
✍4🔥4❤2
⚪️ Стадия широкого исследования
#ddeval #feb2026eval
Итак, закидываем промпт на широкое исследование тестового проекта. Он не очень показателе для внимательности моделей, но позволяет оценить как модели работают с широкими задчами, что могут увидеть, когда приходится смотреть на разные моменты.
1️⃣ GLM-5, claudecode: (тайминг, финишный контекст, строк в отчете)
* g1: 7:40, 57% used; 1421 строка;
* g2: 9:35, 68% used; 1431 строка;
* g3: 11:00, 70.7% used; 1299 строк;
Заметно дольше работал, прилично потрачено контекста. Отчеты объемные.
2️⃣ Minimax M2.5, opencode:
* m1: 7:09, 49% used; 1202 строк;
* m2: 4:30, 59% used; 988 строк;
* m3: 5:50, 41% used; 760 строк;
Довольно быстро, небольшой расход контекста. отчеты объемные.
3️⃣ Kimi K2.5, opencode:
* k1: 1:40, 27& used; 1412 строк;
* k2: 3:27, 47% used; 1309 строк;
* k3: 2:00, 60% used; 984 строки;
Большой разброс таймингов и использования контекста. Отчеты объемные/
4️⃣ Opus-4.6, CC (antigravity):
* все сессии пошли ждать возобновление 5 часового лимита после компакта. Надо будет хоть одну сессию довести после обновления лимита! Обновлю результаты поже
* в итоге пришлось переключать сессии на другой аккаунт в процессе, но в целом опус отрабатывает довольно шустро, 3-5 минут, с большим расходом контекста, заполнил под 85-90%; на одной сессии случился компакт прямо после записи отчета; широкий анализ опусом рисковен - он в процессе при компакте забудет половину чего нашел; очтеты 500-900 строк;
5️⃣ Gemini 3 pro: все сессии очень быстро отработали
* gm1: 4:30, 21% used; 160 строк;
* gm2: 2:10, 14% used; 114 строк;
* gm3: 1:93, 16% used; 104 строки;
Отчеты очень компактные, что забавно - сама модель самая раговорчивая в процессе.
6️⃣ Gpt-5.2, Codex:
* c1: 11:10, 78% used; 513 строк;
* c2: 11:08, 75% used; 490 строк;
* c3: а вот тут работали х2, один компакт после 12 минут, и далее - до 18:20, 58% used (но был компакт, что и вызвало увеличение времени работы на повторное формирвоание контекста); зато отчет - 645 строк;
Долго, медленно, средний размер отчета.
👉 Интересно что китайские модели пишут отчеты х2-х5 по объему от гугла/кодекса. Даже весьма общительный опус пишет менее объемные отчеты.
🟢 Переходим к статистике по отчетам
@deksden_notes
#ddeval #feb2026eval
Итак, закидываем промпт на широкое исследование тестового проекта. Он не очень показателе для внимательности моделей, но позволяет оценить как модели работают с широкими задчами, что могут увидеть, когда приходится смотреть на разные моменты.
1️⃣ GLM-5, claudecode: (тайминг, финишный контекст, строк в отчете)
* g1: 7:40, 57% used; 1421 строка;
* g2: 9:35, 68% used; 1431 строка;
* g3: 11:00, 70.7% used; 1299 строк;
Заметно дольше работал, прилично потрачено контекста. Отчеты объемные.
2️⃣ Minimax M2.5, opencode:
* m1: 7:09, 49% used; 1202 строк;
* m2: 4:30, 59% used; 988 строк;
* m3: 5:50, 41% used; 760 строк;
Довольно быстро, небольшой расход контекста. отчеты объемные.
3️⃣ Kimi K2.5, opencode:
* k1: 1:40, 27& used; 1412 строк;
* k2: 3:27, 47% used; 1309 строк;
* k3: 2:00, 60% used; 984 строки;
Большой разброс таймингов и использования контекста. Отчеты объемные/
4️⃣ Opus-4.6, CC (antigravity):
* все сессии пошли ждать возобновление 5 часового лимита после компакта. Надо будет хоть одну сессию довести после обновления лимита! Обновлю результаты поже
* в итоге пришлось переключать сессии на другой аккаунт в процессе, но в целом опус отрабатывает довольно шустро, 3-5 минут, с большим расходом контекста, заполнил под 85-90%; на одной сессии случился компакт прямо после записи отчета; широкий анализ опусом рисковен - он в процессе при компакте забудет половину чего нашел; очтеты 500-900 строк;
5️⃣ Gemini 3 pro: все сессии очень быстро отработали
* gm1: 4:30, 21% used; 160 строк;
* gm2: 2:10, 14% used; 114 строк;
* gm3: 1:93, 16% used; 104 строки;
Отчеты очень компактные, что забавно - сама модель самая раговорчивая в процессе.
6️⃣ Gpt-5.2, Codex:
* c1: 11:10, 78% used; 513 строк;
* c2: 11:08, 75% used; 490 строк;
* c3: а вот тут работали х2, один компакт после 12 минут, и далее - до 18:20, 58% used (но был компакт, что и вызвало увеличение времени работы на повторное формирвоание контекста); зато отчет - 645 строк;
Долго, медленно, средний размер отчета.
👉 Интересно что китайские модели пишут отчеты х2-х5 по объему от гугла/кодекса. Даже весьма общительный опус пишет менее объемные отчеты.
🟢 Переходим к статистике по отчетам
@deksden_notes
👍3🔥3❤2
⚪️ Большой февральский тест: Glm-5, M2.5, K2.5, opus 4.6, gemini 3 pro, gpt-5.2
#ddeval #feb2026eval
Итак, сегодня делаем большой тест свежих моделей китов против текущего фронтира. В сравнение попадают:
* Z.ai GLM-5, упряжка ClaudeCode
* MiniMax M2.5, OpenCode
* Kimi K2.5, OpenCode
* не тестировал в эвале ранее - Opus 4.6, ClaudeCode (из антигравити)
* и как база - OpenAI gpt-5.2, Codex
* а Gemini 3 pro до кучи - анализ ведь, а не код писать
Напомню, вот прошлый тур сравнения кодекс 5.3 и gpt 5.2 оценивались, его смотреть можно по тегам #ddeval и #52vs53:
* https://t.me/deksden_notes/439 первый пост из цепочки
* https://t.me/deksden_notes/443 второй этап, фокусная задача
▶️ Методика та же:
* делаем прайминг меморибанком
* делаем промпт на широкий анализ
* делаем свод внутри агента/модели, потом между моделями
* каждый агент/модель запускается в 3х экземплярах, чтобы сделать @3 семплинг для снижения случайных девиаций.
Приступим!
@deksden_notes
#ddeval #feb2026eval
Итак, сегодня делаем большой тест свежих моделей китов против текущего фронтира. В сравнение попадают:
* Z.ai GLM-5, упряжка ClaudeCode
* MiniMax M2.5, OpenCode
* Kimi K2.5, OpenCode
* не тестировал в эвале ранее - Opus 4.6, ClaudeCode (из антигравити)
* и как база - OpenAI gpt-5.2, Codex
* а Gemini 3 pro до кучи - анализ ведь, а не код писать
Напомню, вот прошлый тур сравнения кодекс 5.3 и gpt 5.2 оценивались, его смотреть можно по тегам #ddeval и #52vs53:
* https://t.me/deksden_notes/439 первый пост из цепочки
* https://t.me/deksden_notes/443 второй этап, фокусная задача
▶️ Методика та же:
* делаем прайминг меморибанком
* делаем промпт на широкий анализ
* делаем свод внутри агента/модели, потом между моделями
* каждый агент/модель запускается в 3х экземплярах, чтобы сделать @3 семплинг для снижения случайных девиаций.
Приступим!
@deksden_notes
Telegram
DEKSDEN notes
⚪️ Свет мой, зеркальце, скажи! ... (5.2 vs 5.3-codex)
#ddeval #52vs53
Решил провести ЭВАЛ, чтобы сравнить новый 5.3-codex high и свою рабочую лошадь 5.2 high. В обычной работе чтобы понять разницу надо довольно долго поработать, только чтобы уяснить особенности…
#ddeval #52vs53
Решил провести ЭВАЛ, чтобы сравнить новый 5.3-codex high и свою рабочую лошадь 5.2 high. В обычной работе чтобы понять разницу надо довольно долго поработать, только чтобы уяснить особенности…
❤4🔥3❤🔥1
⚪️ Приступим к эвалу
#ddeval #feb2026eval
Ну - и к цифрам по отчетам! Это и есть, собственно, эвал - количественное выражение некоего эксперимента/оценки.
Сейчас мы из всех сессий каждого агента/модели будем формировать сводную табличку со сведениями из всех трех сессий: выпишем все найденные проблемы и чере gpt-5.2 верифицируем, подтверждает ли она их по коду.
1️⃣ GLM-5: (найдено проблем, подтверждено)
* итого: 57 / 36 - 63%
* g1: 37 / 26 - 70%
* g2: 32 / 20 - 63%
* g3: 15 / 12 - 80%
2️⃣ Minimax M2.5:
* итого: 36 / 21 - 58%
* m1: 19 / 12 - 63%
* m2: 22/13 - 59%
* m3: 10/6 - 60%
3️⃣ Kimi K2.5:
* итого: 58 /42 - 72%
* k1: 43/34 - 79%
* k2: 24/20 - 83%
* k3: 33/25 - 76%
4️⃣ Opus 4.6:
* итого: 55 / 45 - 82%
* o1: 27 / 24 - 89%
* o2: 20 / 19 - 95%
* o3: 34 / 26 - 76%
5️⃣ Gemini 3 pro:
* итого: 26 / 20 - 77%
* gm1: 14 / 12 - 86%
* gm2: 12 / 9 - 75%
* gm3: 10 / 9 - 90%
6️⃣ Gpt 5.2: (да, сам себя верифицировал)
* итого: 29/27 - 93%
* c1: 19/19 - 100%
* c2: 14/12 - 86%
* c3: 16/16 - 100%
👉 Да, уже сейчас можно сделать определенное наблюдение по эвалу, по долже верифицированных находок, итого:
- glm-5 : 63%
- m2.5 : 58%
- K2.5 : 72%
- Opus 4.6: 82%
- Gemini 3 pro: 77%
- Gpt 5.2 : 93%
🟢 В целом я ожидал похожего распределения. Но нужно свести все отчеты, и посмотреть итоговые цифры. Замечу еще, что лимиты на опуса в антигравити на тарифе AI PRO вылетают очень и очень быстро, работать на таких лимитах почти невоможно.
Агентов по отдельности посмотрели, переходим к их сопоставлению.
@deksden_notes
#ddeval #feb2026eval
Ну - и к цифрам по отчетам! Это и есть, собственно, эвал - количественное выражение некоего эксперимента/оценки.
Сейчас мы из всех сессий каждого агента/модели будем формировать сводную табличку со сведениями из всех трех сессий: выпишем все найденные проблемы и чере gpt-5.2 верифицируем, подтверждает ли она их по коду.
1️⃣ GLM-5: (найдено проблем, подтверждено)
* итого: 57 / 36 - 63%
* g1: 37 / 26 - 70%
* g2: 32 / 20 - 63%
* g3: 15 / 12 - 80%
2️⃣ Minimax M2.5:
* итого: 36 / 21 - 58%
* m1: 19 / 12 - 63%
* m2: 22/13 - 59%
* m3: 10/6 - 60%
3️⃣ Kimi K2.5:
* итого: 58 /42 - 72%
* k1: 43/34 - 79%
* k2: 24/20 - 83%
* k3: 33/25 - 76%
4️⃣ Opus 4.6:
* итого: 55 / 45 - 82%
* o1: 27 / 24 - 89%
* o2: 20 / 19 - 95%
* o3: 34 / 26 - 76%
5️⃣ Gemini 3 pro:
* итого: 26 / 20 - 77%
* gm1: 14 / 12 - 86%
* gm2: 12 / 9 - 75%
* gm3: 10 / 9 - 90%
6️⃣ Gpt 5.2: (да, сам себя верифицировал)
* итого: 29/27 - 93%
* c1: 19/19 - 100%
* c2: 14/12 - 86%
* c3: 16/16 - 100%
👉 Да, уже сейчас можно сделать определенное наблюдение по эвалу, по долже верифицированных находок, итого:
- glm-5 : 63%
- m2.5 : 58%
- K2.5 : 72%
- Opus 4.6: 82%
- Gemini 3 pro: 77%
- Gpt 5.2 : 93%
🟢 В целом я ожидал похожего распределения. Но нужно свести все отчеты, и посмотреть итоговые цифры. Замечу еще, что лимиты на опуса в антигравити на тарифе AI PRO вылетают очень и очень быстро, работать на таких лимитах почти невоможно.
Агентов по отдельности посмотрели, переходим к их сопоставлению.
@deksden_notes
👍4🔥3
⚪️ Подводим итоги первого этапа
#ddeval #feb2026eval
Сейчас у нас есть консолидированные отчеты каждого агента, по 3 отчета на каждого агента. Теперь необходимо консолидировать их в единый отчет и посмотреть статистику.
Методика простая: консолидируем найденные проблемы в единую табличку. И анализируем сколько итоговых проблем найдено каждым агентом. Давайте посмотрим результаты.
Запрягать на анализ будем 5.2 на xhigh, так как нам нужно внимательно все посчитать.
Итоги: всеми агентами найдено 227 проблем. Интересные цифры - сколько уникальных проблем найдено определенным агентом/моделью:
- glm-5: 45
- Minimax M2.5: 27
- Kimi K2.5: 51 (!!!)
- Opus: 44
- Gpt5.2: 24
- Gemini: 17
Получилось что 208 из 227 проблем найдены только одним агентом. И только 19 проблем были найдены несколькими агентами: 9 проблем нашли 2 агента, 6 — 3 агента, 3 — 4 агента, 1 — 5 агентов.
Проценты верифицированных находок такие:
- glm-5: 63.2%
- Minimax M2.5: 63.9%
- Kimi K2.5: 72.4%
- Opus: 81.8%
- Gpt5.2: 93.1%
- Gemini: 84.6%
👉 Важно понимать: у "широкого" анализа существуют особенности методики. Она не сравнивает воможности моделей впрямую, потому что на широкой задаче находки зависят в значительной степени от случайности, куда "качнется" внимание модели. Я сравниваю общее поведение моделей и делаю некие обобщающие наблюдения.
Внимательность модели и насколько она ходит "глубоко" будем тестировать вторым этапом - "узкая" задача позволит сравнить что сумеют найти разные модели/агенты.
‼️ Что могу обобщить в наблюдениях этого этапа:
* процент верификации некоторым образом отражает "сообразительность", внимательность и въедливость модели; в целом мои "ощущения" сошлись с цифрами, но от GLM я ждал большего;
* модели "видят" очень разные вещи; мне нравится термин "оптика" - и для объемного взгляда на проект нужно смотреть на него чере разную оптику;
* мультисемплинг также работает: каждый прогон даже той же моделью находит разные моменты; меньше 3х прогонов делать бессмысленно - у меня часто 2 прогона почти идентичные, а вот 3 уже выделяется; наверное, для сурьезных вопросов ориентируйтесь на 5 прогонов; да, лимиты - вылетают, есть такое;
* верификация находок, желательно "умной" моделью нужна обязательно - процент подтвержденных находок даже фронтирных моделей не 100%; для фронтирных китов он в районе 60-75% всего;
* распределение между Gpt/Opus/Gemini отражает мое ощущение от работы с моделями.
* выходит что Glm все еще посильнее Minimax
* удивляет Kimi довольно высокими результатами, мне казалось Glm-5 может быть выше нее, но нет - видимо, такой класс задачи.
* "руками" делать эвалы довольно хлопотно - для регулярных тестов нужно будет автоматизировать;
* упряжка openCode работает местами даже лучше CC: во всяком случае GLM в openCode работает стабильнее, у меня было меньше лагов
* лимиты Opus в Антигравити на подписке AI PRO - смешные
🟢 Такой вот эвал получился! Попробую на днях сделать второй этап.
(ц) Такое мы практикуем
@deksden_notes
#ddeval #feb2026eval
Сейчас у нас есть консолидированные отчеты каждого агента, по 3 отчета на каждого агента. Теперь необходимо консолидировать их в единый отчет и посмотреть статистику.
Методика простая: консолидируем найденные проблемы в единую табличку. И анализируем сколько итоговых проблем найдено каждым агентом. Давайте посмотрим результаты.
Запрягать на анализ будем 5.2 на xhigh, так как нам нужно внимательно все посчитать.
Итоги: всеми агентами найдено 227 проблем. Интересные цифры - сколько уникальных проблем найдено определенным агентом/моделью:
- glm-5: 45
- Minimax M2.5: 27
- Kimi K2.5: 51 (!!!)
- Opus: 44
- Gpt5.2: 24
- Gemini: 17
Получилось что 208 из 227 проблем найдены только одним агентом. И только 19 проблем были найдены несколькими агентами: 9 проблем нашли 2 агента, 6 — 3 агента, 3 — 4 агента, 1 — 5 агентов.
Проценты верифицированных находок такие:
- glm-5: 63.2%
- Minimax M2.5: 63.9%
- Kimi K2.5: 72.4%
- Opus: 81.8%
- Gpt5.2: 93.1%
- Gemini: 84.6%
👉 Важно понимать: у "широкого" анализа существуют особенности методики. Она не сравнивает воможности моделей впрямую, потому что на широкой задаче находки зависят в значительной степени от случайности, куда "качнется" внимание модели. Я сравниваю общее поведение моделей и делаю некие обобщающие наблюдения.
Внимательность модели и насколько она ходит "глубоко" будем тестировать вторым этапом - "узкая" задача позволит сравнить что сумеют найти разные модели/агенты.
‼️ Что могу обобщить в наблюдениях этого этапа:
* процент верификации некоторым образом отражает "сообразительность", внимательность и въедливость модели; в целом мои "ощущения" сошлись с цифрами, но от GLM я ждал большего;
* модели "видят" очень разные вещи; мне нравится термин "оптика" - и для объемного взгляда на проект нужно смотреть на него чере разную оптику;
* мультисемплинг также работает: каждый прогон даже той же моделью находит разные моменты; меньше 3х прогонов делать бессмысленно - у меня часто 2 прогона почти идентичные, а вот 3 уже выделяется; наверное, для сурьезных вопросов ориентируйтесь на 5 прогонов; да, лимиты - вылетают, есть такое;
* верификация находок, желательно "умной" моделью нужна обязательно - процент подтвержденных находок даже фронтирных моделей не 100%; для фронтирных китов он в районе 60-75% всего;
* распределение между Gpt/Opus/Gemini отражает мое ощущение от работы с моделями.
* выходит что Glm все еще посильнее Minimax
* удивляет Kimi довольно высокими результатами, мне казалось Glm-5 может быть выше нее, но нет - видимо, такой класс задачи.
* "руками" делать эвалы довольно хлопотно - для регулярных тестов нужно будет автоматизировать;
* упряжка openCode работает местами даже лучше CC: во всяком случае GLM в openCode работает стабильнее, у меня было меньше лагов
* лимиты Opus в Антигравити на подписке AI PRO - смешные
🟢 Такой вот эвал получился! Попробую на днях сделать второй этап.
(ц) Такое мы практикуем
@deksden_notes
👍8✍4🔥4❤3
⚪️ Пост-анализ эвала на ревью по Priority классификации
#ddeval #feb2026eval
Решил еще немного помучать агента статистикой. На сей раз посмотреть сколько проблем категорий P0-P4 обнаружили агенты.
🟢 Все знают что такое P0-P4? Это стандартная классификация выявленных проблем по критичности (P- как раз от Proprity). Все модели знаю про эту классификацию и неплохо ею пользуются. Вот вам пучок теории:
0️⃣ P0 (Critical/Blocker): Критическая ошибка. Блокирует выкладку (релиз). Код нельзя мержить ни в коем случае, так как он сломает билд, нарушит безопасность или уронит систему.
1️⃣ P1 (High): Важная правка. Ошибка в логике, отсутствие тестов для важного функционала или серьезное нарушение архитектуры. Исправить нужно обязательно перед мержем.
2️⃣ P2 (Medium/Normal): Стандартное замечание. Мелкие баги, нарушение стайлгайда или неоптимальный (но рабочий) код. Обычно ожидается исправление, но в экстренных случаях можно обсудить перенос в техдолг.
3️⃣ P3 (Low): Пожелание (Nitpick). Незначительные опечатки в комментариях или предложения по микро-оптимизации. Исправление на усмотрение автора, мержить можно и без них.
4️⃣ P4 (Trivial/Inquiry): Вопрос или долгосрочное предложение. «А почему здесь так?», «В будущем стоит это переписать». Не требует немедленных действий.
👉 Простая, но удобная классификация. Посмотрите на табличку в картинке! напомню:
• G=GLM
• K=Kimi
• M=Minimax
• O=Opus
• GM=Gemini
• C=Codex (gpt 5.2)
любопытные результаты:
• блокеры находят ВСЕ модели, не только фронтир
• киты по совокупности нашли больше важных косяков, чем фронтир
• напомню, что не все находки были верифицированы, и у фронитра процент верификации значительно выше
ИТОГО: все модели нам нужны, все модели нам важны!
@deksden_notes
#ddeval #feb2026eval
Решил еще немного помучать агента статистикой. На сей раз посмотреть сколько проблем категорий P0-P4 обнаружили агенты.
🟢 Все знают что такое P0-P4? Это стандартная классификация выявленных проблем по критичности (P- как раз от Proprity). Все модели знаю про эту классификацию и неплохо ею пользуются. Вот вам пучок теории:
0️⃣ P0 (Critical/Blocker): Критическая ошибка. Блокирует выкладку (релиз). Код нельзя мержить ни в коем случае, так как он сломает билд, нарушит безопасность или уронит систему.
1️⃣ P1 (High): Важная правка. Ошибка в логике, отсутствие тестов для важного функционала или серьезное нарушение архитектуры. Исправить нужно обязательно перед мержем.
2️⃣ P2 (Medium/Normal): Стандартное замечание. Мелкие баги, нарушение стайлгайда или неоптимальный (но рабочий) код. Обычно ожидается исправление, но в экстренных случаях можно обсудить перенос в техдолг.
3️⃣ P3 (Low): Пожелание (Nitpick). Незначительные опечатки в комментариях или предложения по микро-оптимизации. Исправление на усмотрение автора, мержить можно и без них.
4️⃣ P4 (Trivial/Inquiry): Вопрос или долгосрочное предложение. «А почему здесь так?», «В будущем стоит это переписать». Не требует немедленных действий.
👉 Простая, но удобная классификация. Посмотрите на табличку в картинке! напомню:
• G=GLM
• K=Kimi
• M=Minimax
• O=Opus
• GM=Gemini
• C=Codex (gpt 5.2)
любопытные результаты:
• блокеры находят ВСЕ модели, не только фронтир
• киты по совокупности нашли больше важных косяков, чем фронтир
• напомню, что не все находки были верифицированы, и у фронитра процент верификации значительно выше
ИТОГО: все модели нам нужны, все модели нам важны!
@deksden_notes
❤10🔥3❤🔥1
⚪️ Мультисемплинг для агентов в ревью
При обсуждении последнего эвала #ddeval #feb2026eval родилась интересная идея - а что если затестить как влияет мультисемплинг на результаты моделей?
Я мультисемплинг весьма уважаю, но теоретически. А сейчас бы посомтреть на влияние на результат для конкретных моделей.
▶️ Пока идея следующая. Берем состояние проекта как для эвала использовалось - то есть делаем все на той же самой базе. Запускаем 10 экземпляров агентов:
• kimi k2.5
• glm-5
• gemini 3 pro
Почему их? Два кита с топовыми результатами и одну фронтирную модель (самую нефронтирную из фронтирных, зато с огромным контекстом, быструю и с крупными лимитами)
И делаем тот же самый эвал, только @10 семплингом. И смотрим - как оно с общим количеством найденных проблем соотносится, как с @3 результатом агента на эвале соотносится - в общем, там подумаем как проанализировать
🟢 Идея мне показалось интересной, попробую сделать! Пока зацените как выглядит @10 агентов в ассортименте три штуки.
👉 Из интересного: gemini без проблем сделал 10 сессий и запраймерился. А вот glm втупил в какие то лимиты. На сайте написано конкурентность - 5 запросов! Еле еле пока сделал 8 сессий, последняя праймерилась 12 минут. При том что несколько сессий отработало а 40 секунд. Вот вам и компьют! Kimi не стал рисковать паралелльностью - одну за другой делал, легко и быстро сделал все 10 сессий.
Вот так наглядно видно что у GLM нынче реально нехватает компьюта! Надеюсь починят
Продолжение следует ...
@deksden_notes
При обсуждении последнего эвала #ddeval #feb2026eval родилась интересная идея - а что если затестить как влияет мультисемплинг на результаты моделей?
Я мультисемплинг весьма уважаю, но теоретически. А сейчас бы посомтреть на влияние на результат для конкретных моделей.
▶️ Пока идея следующая. Берем состояние проекта как для эвала использовалось - то есть делаем все на той же самой базе. Запускаем 10 экземпляров агентов:
• kimi k2.5
• glm-5
• gemini 3 pro
Почему их? Два кита с топовыми результатами и одну фронтирную модель (самую нефронтирную из фронтирных, зато с огромным контекстом, быструю и с крупными лимитами)
И делаем тот же самый эвал, только @10 семплингом. И смотрим - как оно с общим количеством найденных проблем соотносится, как с @3 результатом агента на эвале соотносится - в общем, там подумаем как проанализировать
🟢 Идея мне показалось интересной, попробую сделать! Пока зацените как выглядит @10 агентов в ассортименте три штуки.
👉 Из интересного: gemini без проблем сделал 10 сессий и запраймерился. А вот glm втупил в какие то лимиты. На сайте написано конкурентность - 5 запросов! Еле еле пока сделал 8 сессий, последняя праймерилась 12 минут. При том что несколько сессий отработало а 40 секунд. Вот вам и компьют! Kimi не стал рисковать паралелльностью - одну за другой делал, легко и быстро сделал все 10 сессий.
Вот так наглядно видно что у GLM нынче реально нехватает компьюта! Надеюсь починят
Продолжение следует ...
@deksden_notes
🔥8❤3❤🔥1
Forwarded from Тимур Хахалев про AI Coding
Проблема кодинга с AI в том, что оно, внезапно, требует подготовки и с наскока не получится добиться надёжного результата.
Мои подписчики об этом точно знают
За 2025-й год я перепробовал много различных практик написания кода с AI. Примерно, начиная с лета, эти практики уже устаканились, к концу года скорректировались и вот, мы уже можем говорить о best practices, которые точно работают в AI coding.
Об этих best practices говорят и в OpenAI, и в Anthropic, в Spotify и других гигантах, но с опозданием на несколько месяцев.
Автор канала DEKSDEN Notes подготовил best practices по AI coding, а я упаковал это в статью.
Кстати, про автора Deksden
Вы могли видеть его черно-белую аватарку в различных чатах по AI, но возможно не все знают, что его зовут Денис Киселев и он AI SOLO предприниматель, AI-SWE эксперт, профессиональный поклонник моделей OpenAI, создатель своего собственного флоу разработки (он даже пилит свой собственный оркестратор!) и вообще крутой чувак!)
У него необоснованно мало подписчиков на канале, так что советую зайти к нему и подписаться!
◾️ DEKSDEN notes пишет про AI разработку и технологии
Статья о Best practices по AI coding
◾️Читать на Хабр
У кого есть возможность, пожалуйста, поддержите статью на Хабре
#ai_coding@the_ai_architect
Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Мои подписчики об этом точно знают
За 2025-й год я перепробовал много различных практик написания кода с AI. Примерно, начиная с лета, эти практики уже устаканились, к концу года скорректировались и вот, мы уже можем говорить о best practices, которые точно работают в AI coding.
Об этих best practices говорят и в OpenAI, и в Anthropic, в Spotify и других гигантах, но с опозданием на несколько месяцев.
Автор канала DEKSDEN Notes подготовил best practices по AI coding, а я упаковал это в статью.
Кстати, про автора Deksden
Вы могли видеть его черно-белую аватарку в различных чатах по AI, но возможно не все знают, что его зовут Денис Киселев и он AI SOLO предприниматель, AI-SWE эксперт, профессиональный поклонник моделей OpenAI, создатель своего собственного флоу разработки (он даже пилит свой собственный оркестратор!) и вообще крутой чувак!)
У него необоснованно мало подписчиков на канале, так что советую зайти к нему и подписаться!
◾️ DEKSDEN notes пишет про AI разработку и технологии
Статья о Best practices по AI coding
◾️Читать на Хабр
У кого есть возможность, пожалуйста, поддержите статью на Хабре
#ai_coding@the_ai_architect
Лайк, репост,
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤4👏1
⚪️ Droid
Текущий ассортимент моделей в дроиде весьма интересный, особенно тот факт, что у меня через Lenny на него подписка на год с мелким тарифом. Тестить все - самое оно!
Даже свежих китов завели с хорошими коэффициентами. И скоростного опуса за оверпрайс (6x)
Upd 1️⃣ : кто не в курсе, Droid - это семейство агентов от Factory.ai
Есть web/cli
Живут на https://factory.ai/. Тарифы за $20/$200.
@deksden_notes
Текущий ассортимент моделей в дроиде весьма интересный, особенно тот факт, что у меня через Lenny на него подписка на год с мелким тарифом. Тестить все - самое оно!
Даже свежих китов завели с хорошими коэффициентами. И скоростного опуса за оверпрайс (6x)
Upd 1️⃣ : кто не в курсе, Droid - это семейство агентов от Factory.ai
Есть web/cli
Живут на https://factory.ai/. Тарифы за $20/$200.
@deksden_notes
👍8
⚪️ Qwen 3.5
Новость о выходе свежего квена все видели?
🔗 https://qwen.ai/blog?id=qwen3.5
Так вот - он уже в CLI!
Где же время найти вас всех потестить?
Кстати, укаан qwen3.5 Plus, а у него вроде 1m контекста...
Во всяком случае так думает OpenRouter: https://openrouter.ai/qwen/qwen3.5-plus-02-15
Интересно - какой в CLI завезли и будет ли там 1m?
Free tier очень щедрый, кто не знает: Sign in with Qwen OAuth to get 1,000 free requests per day.
🔗 Читать тут: https://qwenlm.github.io/qwen-code-docs/
@deksden_notes
Новость о выходе свежего квена все видели?
🔗 https://qwen.ai/blog?id=qwen3.5
Так вот - он уже в CLI!
Где же время найти вас всех потестить?
Кстати, укаан qwen3.5 Plus, а у него вроде 1m контекста...
Во всяком случае так думает OpenRouter: https://openrouter.ai/qwen/qwen3.5-plus-02-15
Интересно - какой в CLI завезли и будет ли там 1m?
Free tier очень щедрый, кто не знает: Sign in with Qwen OAuth to get 1,000 free requests per day.
🔗 Читать тут: https://qwenlm.github.io/qwen-code-docs/
@deksden_notes
❤9🔥4❤🔥1👍1
⚪️ Проблемы фронтирного AI SWE
Петя тут делится:
🔗 https://x.com/steipete/status/2023057089346580828?s=20
популярность - это такое: PR прут с "нереальной" скоростью - разобрал и сделал 600 коммитов за полный день, было 2700 PR, cnfkj 3100 )))
Инструментов, которые дедуплицируют PR, и оценивают насколько PR близок к "видению" продукта нету. Думаю, никто и не осознавал что такие проблемы бывают! Что вам может понадобиться разобрать 3100 PRs.
Ближайший инструмент оказался Approvability в beta тесте, но он не умеет в дедупликацию.
https://macroscope.com/blog/introducing-approvability
Инструмент представлен 13.02 )))
В общем, интересно смотреть за фронтирными темами
@deksden_notes
Петя тут делится:
🔗 https://x.com/steipete/status/2023057089346580828?s=20
популярность - это такое: PR прут с "нереальной" скоростью - разобрал и сделал 600 коммитов за полный день, было 2700 PR, cnfkj 3100 )))
Инструментов, которые дедуплицируют PR, и оценивают насколько PR близок к "видению" продукта нету. Думаю, никто и не осознавал что такие проблемы бывают! Что вам может понадобиться разобрать 3100 PRs.
Ближайший инструмент оказался Approvability в beta тесте, но он не умеет в дедупликацию.
https://macroscope.com/blog/introducing-approvability
Инструмент представлен 13.02 )))
В общем, интересно смотреть за фронтирными темами
@deksden_notes
X (formerly Twitter)
Peter Steinberger 🦞 (@steipete) on X
PRs on OpenClaw are growing at an *impossible* rate.
Worked all day yesterday and got like 600 commits in.
It was 2700; now it's over 3100.
I need AI that scans every PR and Issue and de-dupes.
It should also detect which PR is the based based on various…
Worked all day yesterday and got like 600 commits in.
It was 2700; now it's over 3100.
I need AI that scans every PR and Issue and de-dupes.
It should also detect which PR is the based based on various…
❤4
⚪️ SKILL suggest
Скиллы на подьеме! Как вы знаете, помимо библиотечки от Vercel (https://skills.sh/) на сцене еще и Context7 с разделом скиллов (https://context7.com/skills)
И вот как раз Context7 придумали такое:
`ctx7 skills suggest`
Что делает:
• сканирует ваш проект, зависимости (package.json, requirements.txt)
• определяет стек
• предлагает релевантные скиллы
🔗 Подробнее? Дока тут : https://context7.com/docs/skills#suggest-skills
Интересные темы заходят!
Upd 1️⃣ : попробовал на паре проектов. Местами рекомендации релевантные, местами - чушь!
Направление крайне интересное, надеюсь будут развивать. Уверен, что изобрели интересную штуку. Vercel, ваш ход!
@deksden_notes
Скиллы на подьеме! Как вы знаете, помимо библиотечки от Vercel (https://skills.sh/) на сцене еще и Context7 с разделом скиллов (https://context7.com/skills)
И вот как раз Context7 придумали такое:
`ctx7 skills suggest`
Что делает:
• сканирует ваш проект, зависимости (package.json, requirements.txt)
• определяет стек
• предлагает релевантные скиллы
🔗 Подробнее? Дока тут : https://context7.com/docs/skills#suggest-skills
Интересные темы заходят!
Upd 1️⃣ : попробовал на паре проектов. Местами рекомендации релевантные, местами - чушь!
Направление крайне интересное, надеюсь будут развивать. Уверен, что изобрели интересную штуку. Vercel, ваш ход!
@deksden_notes
Skills
The Agent Skills Directory
Discover and install skills for AI agents.
1👍13❤3❤🔥1🔥1
⚪️ Orchids.app через подписку!
Не видел ранее такого - к веб билдеру Orchids (что то типа Lovable. и тоже с уклоном в UI) можно прикрутить CharGPT подписку (и другие, но насчет Клода я не уверен) и пользовать без оплаты самого Orchids!
Приольный способ предметно пощупать эту штуку. В других инструментах такое пока не особо распространено, но, может, такая тема разовьется! Было бы здорово - подписок уже и так немало набрано
Кому было интересно - налетайте!
@deksden_notes
Не видел ранее такого - к веб билдеру Orchids (что то типа Lovable. и тоже с уклоном в UI) можно прикрутить CharGPT подписку (и другие, но насчет Клода я не уверен) и пользовать без оплаты самого Orchids!
Приольный способ предметно пощупать эту штуку. В других инструментах такое пока не особо распространено, но, может, такая тема разовьется! Было бы здорово - подписок уже и так немало набрано
Кому было интересно - налетайте!
@deksden_notes
👍8🔥1
⚪️ WireText.app
❓ Кто то пользует подобные приложения? Вроде бы они для того, чтобы быстро "набросать" эскизик.
Или "на салфетке" от руки удобнее?
@deksden_notes
❓ Кто то пользует подобные приложения? Вроде бы они для того, чтобы быстро "набросать" эскизик.
Или "на салфетке" от руки удобнее?
@deksden_notes
👀3