⚪️ Февральский eval-2 (2) : тестируем QWEN 3.5 Plus
#ddeval #feb2026eval2
▶️ Напомню, что это эвал на широкий поиск issues не очень подходит для выводов о внимании моделей. Мы делаем общую приценочную оценку поведения и соотносим модели друг с другом. Сами полученные цифры можно считать условными попугаями, они важны только относительно цифр другой модели/агента.
Для тестирования внимания/цепкости моделей будем делать другой эвал - по выеденным фокусам, возможно, несколько профилей с разными фокусами.
Ранее проводимые эвалы доступны по тегам #ddeval #feb2026eval и #52vs53
План этого эвала предполагал доп тестирование свежего Qwen 3.5 Plus против уже проверенных атлетов:
- OpenCode → zai-coding-plan/glm-5,
- Droid → kimi-k2.5 / thinking,
- Droid → minimax-m2.5 / medium,
- Сodex → gpt-5.2 / high,
- ну и сам пациент, Qwen cli → coder-model (qwen 3.5 plus)
Заодно посмотрим, сохранится ли относительная картинка в сравнении с прошлым эвалом #feb2026eval . Семплинг всех моделей ставим на @3.
Запускаем! После пары часов, потраты лимитов и нескольких падений разных упряжек по форматам JSON ответов (и фиксов) - все довели до результата.
Тайминги и потрата токенов получились такие:
* glm-5: 220-240s, а вот подсчет токенов скромный, опенкод насчитал до 1m токенов в каждом семпле (отметим, что с подсчетом токенов у опенкода есть вопросики);
* kimi k2.5: 100-145s всего, и только 1-1.2m токенов;
* minimax m2.5: 260-270 секунд, и 3.2-3.7m токенов;
* gpt-5.2: тратит по 1000-1100 секунд на флоу (прайминг+ревью), и 19-20m токенов;
* наконец, новый qwen 3.5 plus: 520-800s, и от 1.2 до 6.6m токенов
Разброс показателей существенный! Еще и счетчики особо не отлажены в разных упряжках - может tokens не совсем адекватно считается, привожу их справочно - с этим вопросом надо дополнительно разибраться.
Теперь цифирки кто и чего нашел
* glm-5: нашла 21, 12 подтвержденных, 11 уникальных
* kimi k2.5: нашла 36, но всего 13 подтверждено, 11 уникальных
* minimax m2.5: нашла 23, 12 подтвердились, все 12 уникальные
* gpt 5.2 нашла 26 issues, 26/26 подтверждено, 20 уникальных
* qwen 3.5 : нашел 28, 11 подтверждено, 7 уникальных
И расклад по приоритетам в подтвержденным находкам такой (p0-p3, p4 не классифицировано ни одной):
glm-5: 12 - 0 | 4 | 5 | 3
k2.5: 13 - 0 | 4 | 8 | 1
m2.5: 12 - 1 | 2 | 3 | 6
gpt-5.2: 26 - 2 | 8 | 8 | 8
q3.5: 11 - 0 | 0 | 3 | 8
▶️ Выводы: берем gpt-5.2 как бейзлайн фронтира, она уверенно смотрит issues медленно, но находит неплохо. Китайские модели будут послабее при широком поиске, на таких скромных семплингах результаты плавают, и сложно сказать кто умнее. Однако Qwen 3.5 выглядит слабее kimi / minimax / glm, что немного удивительно, ведь qwen весьма авторитетная лаба. Но цифры сами за себя говорят!
👉 Завершаем с этим этапом эвала и переходим к следующему
@deksden_notes
#ddeval #feb2026eval2
▶️ Напомню, что это эвал на широкий поиск issues не очень подходит для выводов о внимании моделей. Мы делаем общую приценочную оценку поведения и соотносим модели друг с другом. Сами полученные цифры можно считать условными попугаями, они важны только относительно цифр другой модели/агента.
Для тестирования внимания/цепкости моделей будем делать другой эвал - по выеденным фокусам, возможно, несколько профилей с разными фокусами.
Ранее проводимые эвалы доступны по тегам #ddeval #feb2026eval и #52vs53
План этого эвала предполагал доп тестирование свежего Qwen 3.5 Plus против уже проверенных атлетов:
- OpenCode → zai-coding-plan/glm-5,
- Droid → kimi-k2.5 / thinking,
- Droid → minimax-m2.5 / medium,
- Сodex → gpt-5.2 / high,
- ну и сам пациент, Qwen cli → coder-model (qwen 3.5 plus)
Заодно посмотрим, сохранится ли относительная картинка в сравнении с прошлым эвалом #feb2026eval . Семплинг всех моделей ставим на @3.
Запускаем! После пары часов, потраты лимитов и нескольких падений разных упряжек по форматам JSON ответов (и фиксов) - все довели до результата.
Тайминги и потрата токенов получились такие:
* glm-5: 220-240s, а вот подсчет токенов скромный, опенкод насчитал до 1m токенов в каждом семпле (отметим, что с подсчетом токенов у опенкода есть вопросики);
* kimi k2.5: 100-145s всего, и только 1-1.2m токенов;
* minimax m2.5: 260-270 секунд, и 3.2-3.7m токенов;
* gpt-5.2: тратит по 1000-1100 секунд на флоу (прайминг+ревью), и 19-20m токенов;
* наконец, новый qwen 3.5 plus: 520-800s, и от 1.2 до 6.6m токенов
Разброс показателей существенный! Еще и счетчики особо не отлажены в разных упряжках - может tokens не совсем адекватно считается, привожу их справочно - с этим вопросом надо дополнительно разибраться.
Теперь цифирки кто и чего нашел
* glm-5: нашла 21, 12 подтвержденных, 11 уникальных
* kimi k2.5: нашла 36, но всего 13 подтверждено, 11 уникальных
* minimax m2.5: нашла 23, 12 подтвердились, все 12 уникальные
* gpt 5.2 нашла 26 issues, 26/26 подтверждено, 20 уникальных
* qwen 3.5 : нашел 28, 11 подтверждено, 7 уникальных
И расклад по приоритетам в подтвержденным находкам такой (p0-p3, p4 не классифицировано ни одной):
glm-5: 12 - 0 | 4 | 5 | 3
k2.5: 13 - 0 | 4 | 8 | 1
m2.5: 12 - 1 | 2 | 3 | 6
gpt-5.2: 26 - 2 | 8 | 8 | 8
q3.5: 11 - 0 | 0 | 3 | 8
▶️ Выводы: берем gpt-5.2 как бейзлайн фронтира, она уверенно смотрит issues медленно, но находит неплохо. Китайские модели будут послабее при широком поиске, на таких скромных семплингах результаты плавают, и сложно сказать кто умнее. Однако Qwen 3.5 выглядит слабее kimi / minimax / glm, что немного удивительно, ведь qwen весьма авторитетная лаба. Но цифры сами за себя говорят!
👉 Завершаем с этим этапом эвала и переходим к следующему
@deksden_notes
🔥5👍4❤2
⚪️ Февральский eval-2 (1): dd-review
#ddeval #feb2026eval2
Февраль выдался урожайным месяцем! Всякого вышло масса - только успевай тестировать! Вот и не успеваю))
Так как я зае- устал руками гонять эвалы, а планов на тесты наросовалось много, возникла острая необходимость автоматизации. Поэтому потрачено несколько дней, эвал автоматизирован. Что сделал: был препарирован dd-flow, вытащен движок флоу в отдельную систему, образовано несколько служебных флоу:
* review: ревью по заданному набору фокусов
* dedupe: дедупликация найденных issues и фильтр уникальных, кросслинк дубликатов (это чтобы все не верифицировать тотально по несколько раз)
* verify: верификация новых уников, подтверждение что issue имеет место быть.
Так как issues получилось много, сделали небольшую базу под эту штуку и небольшой движок отчетов, чтобы легче делать срезы. Получившаяся системка гордо названа dd-review. Чтобы не рулить ею руками я первым приоритетом сделал cli и буду рулить ею через codex UI )) То есть промптами.
Маркируем находки (issues) через систему приоритетов Priority:
- p0: критический инцидент: эксплойт/брешь, утечка секретов, потеря/порча данных, детерминированный crash или hard-deadlock в обычном использовании
- p1: очень высокий риск для пользователей, серьёзная ошибка корректности/надёжности, опасная конкурентность/abort, сломанные инварианты состояния.
- p2: существенная проблема: заметные gaps корректности, крупные архитектурные/поддерживаемостные дефекты, значимая деградация производительности
- p3: средние дефект|ы: слабая наблюдаемость, проблемные edge cases, test gaps, smell’ы, которые пока не ломают систему напрямую.
- p4: минорные замечания: стиль, небольшие рефакторы, косметические улучшения документации.
Какие фокусы у ревью - придумал 10 профилей:
- correctness_invariants — корректность и инварианты
- type_safety — типобезопасность
- security_backend — безопасность backend/API/DB
- security_frontend — безопасность frontend/UI
- api_contracts_backend — контракты API и данных
- performance_memory — производительность и память
- concurrency_state — конкурентность и состояние
- maintainability_smells — поддерживаемость и code smells
- error_handling_reliability — обработка ошибок и надёжность
- logging_observability — логирование и наблюдаемость
Кому интересно - можно расписать фокусы поподробнее, но там нету космических технологий, простое описание по каким вопросам "трясти" кодовую базу. Широкое исследование берет ВСЕ указанные профили - конфиг называется предсказуемо focus_all.
Какие движки прикручены к dd-flow на текущий момент:
- codex_sdk: Codex CLI
- opencode_sdk: OpenCode
- claude_sdk: Claude Code через Agents SDK
- gemini_cli: Gemini CLI
- droid_cli: Droid CLI
- qwen_cli: Qwen CLI
- iflow_cli: iFlow CLI
Ассортимент движков отражает мои запасы подписок/аккаунтов в разных системах, где мне может потребоваться чего то гонять. В общем, для эвалов соорудил такую вот упряжку! Поря ее гонять)))
@deksden_notes
#ddeval #feb2026eval2
Февраль выдался урожайным месяцем! Всякого вышло масса - только успевай тестировать! Вот и не успеваю))
Так как я зае- устал руками гонять эвалы, а планов на тесты наросовалось много, возникла острая необходимость автоматизации. Поэтому потрачено несколько дней, эвал автоматизирован. Что сделал: был препарирован dd-flow, вытащен движок флоу в отдельную систему, образовано несколько служебных флоу:
* review: ревью по заданному набору фокусов
* dedupe: дедупликация найденных issues и фильтр уникальных, кросслинк дубликатов (это чтобы все не верифицировать тотально по несколько раз)
* verify: верификация новых уников, подтверждение что issue имеет место быть.
Так как issues получилось много, сделали небольшую базу под эту штуку и небольшой движок отчетов, чтобы легче делать срезы. Получившаяся системка гордо названа dd-review. Чтобы не рулить ею руками я первым приоритетом сделал cli и буду рулить ею через codex UI )) То есть промптами.
Маркируем находки (issues) через систему приоритетов Priority:
- p0: критический инцидент: эксплойт/брешь, утечка секретов, потеря/порча данных, детерминированный crash или hard-deadlock в обычном использовании
- p1: очень высокий риск для пользователей, серьёзная ошибка корректности/надёжности, опасная конкурентность/abort, сломанные инварианты состояния.
- p2: существенная проблема: заметные gaps корректности, крупные архитектурные/поддерживаемостные дефекты, значимая деградация производительности
- p3: средние дефект|ы: слабая наблюдаемость, проблемные edge cases, test gaps, smell’ы, которые пока не ломают систему напрямую.
- p4: минорные замечания: стиль, небольшие рефакторы, косметические улучшения документации.
Какие фокусы у ревью - придумал 10 профилей:
- correctness_invariants — корректность и инварианты
- type_safety — типобезопасность
- security_backend — безопасность backend/API/DB
- security_frontend — безопасность frontend/UI
- api_contracts_backend — контракты API и данных
- performance_memory — производительность и память
- concurrency_state — конкурентность и состояние
- maintainability_smells — поддерживаемость и code smells
- error_handling_reliability — обработка ошибок и надёжность
- logging_observability — логирование и наблюдаемость
Кому интересно - можно расписать фокусы поподробнее, но там нету космических технологий, простое описание по каким вопросам "трясти" кодовую базу. Широкое исследование берет ВСЕ указанные профили - конфиг называется предсказуемо focus_all.
Какие движки прикручены к dd-flow на текущий момент:
- codex_sdk: Codex CLI
- opencode_sdk: OpenCode
- claude_sdk: Claude Code через Agents SDK
- gemini_cli: Gemini CLI
- droid_cli: Droid CLI
- qwen_cli: Qwen CLI
- iflow_cli: iFlow CLI
Ассортимент движков отражает мои запасы подписок/аккаунтов в разных системах, где мне может потребоваться чего то гонять. В общем, для эвалов соорудил такую вот упряжку! Поря ее гонять)))
@deksden_notes
👍3
⚪️ Февральский eval-2 (3) : увеличиваем компьют!
#ddeval #feb2026eval2
Итак, следующий этап и план эксперимента: а насколько изменятся результаты, если мы увеличим компьют? То есть сделаем семплинг заметно побольше: текущий эвал был с @3, а если мы сравним gpt-5.2 с glm-5 на @12?
Мы увеличиваем количество "прогонов" ревью флоу (семплинг) до @12, и анализируем - чего там получится по статистике находок. Увеличится ли количество найденных находок более высоких приоритетов?
Приступаем! Итак, тайминги этого большого @12 прогона флоу были в диапазоне 100-150 секунд на каждый сэмпл, с вариацией до 270s.
После dedupe этапа (дедупликации issues) и верификации - посмотрим как постарался поработать glm-5!
Напомню про glm-5 в эвале @3: найдено 12, распределение p0-p3 : 0 | 4 | 5 | 3
В новом эвале @12 Всего было найдено 101 issues, из которых 24 verified, 25 partial. То есть коэффициент верификации примерно сохраняется.
Дальше verified / partial:
p0: 0 / 1
p1: 9 / 5
p2: 12 / 17
p3: 3 / 3
▶️ Выводы: вполне себе статистика улучшается. p0 почти нашли (частичный), довольно много p1 (и подтвержденных, и частичных) и p2. По мне - так неплохое увеличение статистики за х5 компьюта
▶️ Если сравнивать с gpt-5.2: 26 итого, распределение: 2 | 8 | 8 | 8. Видно, что глубины мышления таки не хватает, чтобы вытащить p0. Но дополнительный компьют позволяет "набить" достаточно более простых p1/p2/p3.
👉 Компьют заметно улучшает результат, но выше головы прыгнуть не позволяет.
Вроде бы это было понятно и заранее, но теперь видно предметно на цифирках
Ну и для полировки картинки текущего исследования нам бы дооценить Gemini 3.1 Pro в эвале. С автоматизацией это недолго! Приступим ...
@deksden_notes
#ddeval #feb2026eval2
Итак, следующий этап и план эксперимента: а насколько изменятся результаты, если мы увеличим компьют? То есть сделаем семплинг заметно побольше: текущий эвал был с @3, а если мы сравним gpt-5.2 с glm-5 на @12?
Мы увеличиваем количество "прогонов" ревью флоу (семплинг) до @12, и анализируем - чего там получится по статистике находок. Увеличится ли количество найденных находок более высоких приоритетов?
Приступаем! Итак, тайминги этого большого @12 прогона флоу были в диапазоне 100-150 секунд на каждый сэмпл, с вариацией до 270s.
После dedupe этапа (дедупликации issues) и верификации - посмотрим как постарался поработать glm-5!
Напомню про glm-5 в эвале @3: найдено 12, распределение p0-p3 : 0 | 4 | 5 | 3
В новом эвале @12 Всего было найдено 101 issues, из которых 24 verified, 25 partial. То есть коэффициент верификации примерно сохраняется.
Дальше verified / partial:
p0: 0 / 1
p1: 9 / 5
p2: 12 / 17
p3: 3 / 3
▶️ Выводы: вполне себе статистика улучшается. p0 почти нашли (частичный), довольно много p1 (и подтвержденных, и частичных) и p2. По мне - так неплохое увеличение статистики за х5 компьюта
▶️ Если сравнивать с gpt-5.2: 26 итого, распределение: 2 | 8 | 8 | 8. Видно, что глубины мышления таки не хватает, чтобы вытащить p0. Но дополнительный компьют позволяет "набить" достаточно более простых p1/p2/p3.
👉 Компьют заметно улучшает результат, но выше головы прыгнуть не позволяет.
Вроде бы это было понятно и заранее, но теперь видно предметно на цифирках
Ну и для полировки картинки текущего исследования нам бы дооценить Gemini 3.1 Pro в эвале. С автоматизацией это недолго! Приступим ...
@deksden_notes
👍6
⚪️ Февральский eval-2 (4): добавляем Gemini 3.1 в список
#ddeval #feb2026eval2
Итак, Gemini 3.1 в эвале. Благодаря тому что Гугол поздно, но все таки расчехлился с добавлением gemini 3.1 в cli, я могу нормально провести эвал в родной гугловской упряжке (первоначально были идеи тестить в дроиде, но там кончился лимит моей мелкой подписки).
Давайте пощупаем эту Gemini 3.1 Pro Preview. Условия стандартные, сэмплинг @3, родная упряжка Gemini Cli. Поехали!
Тайминги такие: от 150s до 350s. Приличный разбег
Чего нашлось: 11 всего, верифицировано 7, частично 4 (в принципе, 100%)
А вот распределение по приоритетности: verified / partial
p0: 0 / 0
p1: 0 / 0
p2: 3 / 1
p3: 3 / 0
p4: 1 / 3
Интересно, что это единственная модель, которая нашла зачем то p4, при этом не рассмотрев p0/p1 (которые очевидно есть).
▶️ Вывод: 3.1-Pro не впечатляет по находкам issues, ищет слабовато и не особо глубоко, но verify rate = 100% что о чем то да говорит.
🟢 Уф! На этом - все ))
@deksden_notes
#ddeval #feb2026eval2
Итак, Gemini 3.1 в эвале. Благодаря тому что Гугол поздно, но все таки расчехлился с добавлением gemini 3.1 в cli, я могу нормально провести эвал в родной гугловской упряжке (первоначально были идеи тестить в дроиде, но там кончился лимит моей мелкой подписки).
Давайте пощупаем эту Gemini 3.1 Pro Preview. Условия стандартные, сэмплинг @3, родная упряжка Gemini Cli. Поехали!
Тайминги такие: от 150s до 350s. Приличный разбег
Чего нашлось: 11 всего, верифицировано 7, частично 4 (в принципе, 100%)
А вот распределение по приоритетности: verified / partial
p0: 0 / 0
p1: 0 / 0
p2: 3 / 1
p3: 3 / 0
p4: 1 / 3
Интересно, что это единственная модель, которая нашла зачем то p4, при этом не рассмотрев p0/p1 (которые очевидно есть).
▶️ Вывод: 3.1-Pro не впечатляет по находкам issues, ищет слабовато и не особо глубоко, но verify rate = 100% что о чем то да говорит.
🟢 Уф! На этом - все ))
@deksden_notes
👍12❤🔥1
⚪️ Февральский eval-2 (5): Gemini 3.1 Pro с компьютом
#ddeval #feb2026eval2
▶️ Ну вот не выдержал я, да. Что то совсем меня разочаровал результат Гемини на стандартном @3 эвале, мне казалось у Гемини потенциал больше. Подумалось что 3 запуска - это все таки маловато, надо попробовать увеличить компьют. Фронтиром видимо не станет, но потенциал надо покопать получше!
Да, для фронтирного gpt-5.2 не надо пробовать добавлять компьют - оно и на 3-х попытках норм работает.
👉 Но посмотреть насколько в Гугловского коня будет корм хочется. Неужели модель Гемини действительно вышла такой невыдающейся? Не хочется верить - все таки AI Studio - one love.
▶️ Запустим уже условно стандартный @12 семплинг при всех тех же условиях - родная упряжка, стандартный thinking. С автоматизацией и управлением dd-review через агента это стало сделать значительно проще, конечно - просим кодекс подготовить план эксперимента, он пишет, одобряем - и в путь!
Лимитов на 12 семплов не мне хватило, что тоже является признаком времени. Даже у гугла лимиты теперь не кажутся бесконечными. Приходится ограничиваться случившимися 9 семплами, что не х4, но хотя бы х3 - не хочу ждать ресета квоты до конца суток чтобы довести эксперимент.
Словив пару багов с кодексом (да, SDK виснет перед финальным ответом с SO, я вкрутил стандартный фоллбэк на агентный процесс со схемой определенной промптом а не параметром генерации и агентным фиксом в случае ошибок схемы).
▶️ В общем, прогон с 9 семплами прошел так: пара таймингов в районе 150 секунд, но в основном 250-300 секунд. Gemini 3.1 pro довольно шустрая!
Найдено: всего 31, из которых 22 verified и 9 partial. То есть опять 100% рейт на верификацию находок! Интересно, это явно признак неплохого качества размышлений, модель не глупая.
А что с распределением: тут, к сожалению, картина не особо поменялась (verified/partial):
p0: 0 / 0
p1: 0 / 1
p2: 3 / 1
p3: 9 / 1
p4: 2 / 0
▶️ Нда. p0/p1 особо не добавились. Видимо, модели не хватает внимания/глубины проработки материала при такой широкой постановке задачи. Будем тестить эту гипотезу на фокусных тестах, посмотрим как изменится перфоманс со снижением ширины задачи.
Пожалуй, сейчас Gemini 3.1 выглядит самым слабым звеном в фронтире. Жаль. Клозеды и Антропики явно имеют модели помощнее, во и случае, для целей ревью кода.
Отмечайте - что даже glm-5 нашла 9/5 issues категории p1. Китай нагнал фронтир? Причем, мне говорят в опенкоде у glm-5 не самый лучший перфоманс, надо добить работу в claude code. Нда.. Времена!
🟢 Ну вот пора уже успокоиться с этим эвалом ))
(ц) за сим мы и закруглимся!
@deksden_notes
#ddeval #feb2026eval2
▶️ Ну вот не выдержал я, да. Что то совсем меня разочаровал результат Гемини на стандартном @3 эвале, мне казалось у Гемини потенциал больше. Подумалось что 3 запуска - это все таки маловато, надо попробовать увеличить компьют. Фронтиром видимо не станет, но потенциал надо покопать получше!
Да, для фронтирного gpt-5.2 не надо пробовать добавлять компьют - оно и на 3-х попытках норм работает.
👉 Но посмотреть насколько в Гугловского коня будет корм хочется. Неужели модель Гемини действительно вышла такой невыдающейся? Не хочется верить - все таки AI Studio - one love.
▶️ Запустим уже условно стандартный @12 семплинг при всех тех же условиях - родная упряжка, стандартный thinking. С автоматизацией и управлением dd-review через агента это стало сделать значительно проще, конечно - просим кодекс подготовить план эксперимента, он пишет, одобряем - и в путь!
Лимитов на 12 семплов не мне хватило, что тоже является признаком времени. Даже у гугла лимиты теперь не кажутся бесконечными. Приходится ограничиваться случившимися 9 семплами, что не х4, но хотя бы х3 - не хочу ждать ресета квоты до конца суток чтобы довести эксперимент.
Словив пару багов с кодексом (да, SDK виснет перед финальным ответом с SO, я вкрутил стандартный фоллбэк на агентный процесс со схемой определенной промптом а не параметром генерации и агентным фиксом в случае ошибок схемы).
▶️ В общем, прогон с 9 семплами прошел так: пара таймингов в районе 150 секунд, но в основном 250-300 секунд. Gemini 3.1 pro довольно шустрая!
Найдено: всего 31, из которых 22 verified и 9 partial. То есть опять 100% рейт на верификацию находок! Интересно, это явно признак неплохого качества размышлений, модель не глупая.
А что с распределением: тут, к сожалению, картина не особо поменялась (verified/partial):
p0: 0 / 0
p1: 0 / 1
p2: 3 / 1
p3: 9 / 1
p4: 2 / 0
▶️ Нда. p0/p1 особо не добавились. Видимо, модели не хватает внимания/глубины проработки материала при такой широкой постановке задачи. Будем тестить эту гипотезу на фокусных тестах, посмотрим как изменится перфоманс со снижением ширины задачи.
Пожалуй, сейчас Gemini 3.1 выглядит самым слабым звеном в фронтире. Жаль. Клозеды и Антропики явно имеют модели помощнее, во и случае, для целей ревью кода.
Отмечайте - что даже glm-5 нашла 9/5 issues категории p1. Китай нагнал фронтир? Причем, мне говорят в опенкоде у glm-5 не самый лучший перфоманс, надо добить работу в claude code. Нда.. Времена!
🟢 Ну вот пора уже успокоиться с этим эвалом ))
(ц) за сим мы и закруглимся!
@deksden_notes
❤14👍3🙏1
⚪️ Что думаете об Эвалах?
Насколько интересна и полезна тема?
Насколько интересна и полезна тема?
Anonymous Poll
43%
Очень интересна и полезна, развивай!
22%
Норм - почитать любопытно и кое что бывает полезным
21%
В принципе ок, читаю, но не особо актуально
13%
Не особо интересно, мне интересны другие темы
⚪️ Claude Code - Remote Control
Супер фичу выкатывают Антропики! Такой кризис менеджмент по купированию Дистил-гейта, видимо)))
В общем, официальный Remote для СС. Можно начинать сессию локально и продолжить на телефоне! Omfg - это BIG.
Надеюсь, клозеды скопируют фичу
▶️ Конечно, только для платных пользователей с подпиской: Pro / Max. Китайской зайкой так порулить не выйдет.
🔗 https://code.claude.com/docs/en/remote-control
@deksden_notes
Супер фичу выкатывают Антропики! Такой кризис менеджмент по купированию Дистил-гейта, видимо)))
В общем, официальный Remote для СС. Можно начинать сессию локально и продолжить на телефоне! Omfg - это BIG.
Надеюсь, клозеды скопируют фичу
▶️ Конечно, только для платных пользователей с подпиской: Pro / Max. Китайской зайкой так порулить не выйдет.
🔗 https://code.claude.com/docs/en/remote-control
@deksden_notes
🔥11
⚪️ Remote tools for Agents, v.feb-2026
На всякий случай к релизу Антропиковского Remote control опубликую свою коллекцию тулов для удаленного управления агентами разного рода. Много опенсорса. Можно запилить себе удаленное управление
——
* VibeTunnel : Turn any browser into your terminal & command your agents on the go :
https://github.com/amantus-ai/vibetunnel
https://vibetunnel.sh/
* Road Runner : Easily sync code to a remote machine and run commands there. That's it:
https://github.com/rileyhilliard/rr
* Happy : Mobile and Web client for Codex and Claude Code, with realtime voice, encryption and fully featured :
https://github.com/slopus/happy
https://happy.engineering/docs/how-it-works/
* WebTMUX : Web-based terminal with tmux-specific features :
https://github.com/chrismccord/webtmux
* Outray OutRay is an open-source ngrok alternative that makes it easy to expose your local development server to the internet via secure tunnels :
https://outray.dev/
* Remoto: Remoto creates a secure tunnel between your terminal and your phone. When you run the CLI, it spawns a local shell session and connects to our relay server via WebSocket :
https://www.remoto.sh/
* Takopi: Takopi runs coding agents on your computer and bridges them to Telegram. Send tasks from anywhere, watch progress stream live, pick up when back at the terminal. Scale from quick one-offs to multi-project workflows with topics and parallel worktrees:
https://takopi.dev/tutorials/
* Ag3ntum: a general-purpose agent wwith security in mind (Secured CC shell with remote access via web :
https://github.com/extractumio/ag3ntum
* Agent Deck: Terminal session manager for AI coding agents. Built with Go + Bubble Tea:
https://github.com/asheshgoplani/agent-deck
* HAPI : Run official Claude Code / Codex / Gemini / OpenCode sessions locally and control them remotely through a Web / PWA / Telegram Mini App :
https://github.com/tiann/hapi
https://hapi.run/
* OpenChamber: Desktop and web interface for OpenCode AI agent :
https://github.com/btriapitsyn/openchamber
* The Companion : Web & Mobile UI for Claude Code & Codex . Launch sessions, stream responses, approve tools. All from your browser / mobile
https://github.com/The-Vibe-Company/companion
https://www.thecompanion.sh/
* Claude Code Telegram Bot : A powerful Telegram bot that provides remote access to Claude Code, enabling developers to interact with their projects from anywhere with full AI assistance and session persistence
https://github.com/RichardAtCT/claude-code-telegram
* TunnelAgent : Run AI coding agents on any remote machine over SSH. No remote installation, no permissions, no relay server — just sshfs + ssh
https://github.com/SmartAppsCo/tunnelagent
https://tunnelagent.dev/
* MobileCli : Stream Claude Code, Gemini CLI, and Codex to your phone. Approve tool calls, monitor progress — from anywhere.
https://www.mobilecli.app/
https://github.com/MobileCLI/mobilecli
* TouchGrass: Use Telegram as a remote controller for Claude Code, Codex, Kimi and Pi and more. Manage your code CLIs on the go.
https://github.com/tomtev/touchgrass
https://touchgrass.sh/
* Extendo Cli: Human-in-the-loop decisions for AI agents — structured approvals, reviews, and choices via mobile push notifications
https://github.com/egradman/extendo-cli
@deksden_notes
На всякий случай к релизу Антропиковского Remote control опубликую свою коллекцию тулов для удаленного управления агентами разного рода. Много опенсорса. Можно запилить себе удаленное управление
——
* VibeTunnel : Turn any browser into your terminal & command your agents on the go :
https://github.com/amantus-ai/vibetunnel
https://vibetunnel.sh/
* Road Runner : Easily sync code to a remote machine and run commands there. That's it:
https://github.com/rileyhilliard/rr
* Happy : Mobile and Web client for Codex and Claude Code, with realtime voice, encryption and fully featured :
https://github.com/slopus/happy
https://happy.engineering/docs/how-it-works/
* WebTMUX : Web-based terminal with tmux-specific features :
https://github.com/chrismccord/webtmux
* Outray OutRay is an open-source ngrok alternative that makes it easy to expose your local development server to the internet via secure tunnels :
https://outray.dev/
* Remoto: Remoto creates a secure tunnel between your terminal and your phone. When you run the CLI, it spawns a local shell session and connects to our relay server via WebSocket :
https://www.remoto.sh/
* Takopi: Takopi runs coding agents on your computer and bridges them to Telegram. Send tasks from anywhere, watch progress stream live, pick up when back at the terminal. Scale from quick one-offs to multi-project workflows with topics and parallel worktrees:
https://takopi.dev/tutorials/
* Ag3ntum: a general-purpose agent wwith security in mind (Secured CC shell with remote access via web :
https://github.com/extractumio/ag3ntum
* Agent Deck: Terminal session manager for AI coding agents. Built with Go + Bubble Tea:
https://github.com/asheshgoplani/agent-deck
* HAPI : Run official Claude Code / Codex / Gemini / OpenCode sessions locally and control them remotely through a Web / PWA / Telegram Mini App :
https://github.com/tiann/hapi
https://hapi.run/
* OpenChamber: Desktop and web interface for OpenCode AI agent :
https://github.com/btriapitsyn/openchamber
* The Companion : Web & Mobile UI for Claude Code & Codex . Launch sessions, stream responses, approve tools. All from your browser / mobile
https://github.com/The-Vibe-Company/companion
https://www.thecompanion.sh/
* Claude Code Telegram Bot : A powerful Telegram bot that provides remote access to Claude Code, enabling developers to interact with their projects from anywhere with full AI assistance and session persistence
https://github.com/RichardAtCT/claude-code-telegram
* TunnelAgent : Run AI coding agents on any remote machine over SSH. No remote installation, no permissions, no relay server — just sshfs + ssh
https://github.com/SmartAppsCo/tunnelagent
https://tunnelagent.dev/
* MobileCli : Stream Claude Code, Gemini CLI, and Codex to your phone. Approve tool calls, monitor progress — from anywhere.
https://www.mobilecli.app/
https://github.com/MobileCLI/mobilecli
* TouchGrass: Use Telegram as a remote controller for Claude Code, Codex, Kimi and Pi and more. Manage your code CLIs on the go.
https://github.com/tomtev/touchgrass
https://touchgrass.sh/
* Extendo Cli: Human-in-the-loop decisions for AI agents — structured approvals, reviews, and choices via mobile push notifications
https://github.com/egradman/extendo-cli
@deksden_notes
GitHub
GitHub - amantus-ai/vibetunnel: Turn any browser into your terminal & command your agents on the go.
Turn any browser into your terminal & command your agents on the go. - amantus-ai/vibetunnel
1👍13🔥3🤓2
⚪️ Gemini 3 Flash
#ddeval #feb2026eval2
Пока листал просторы интернета, наткнулся на челов, которые используют Гемини для кодинга. Да, какая то секта, видимо. Но они юзают Флеш вместо Про!
И, конечно, мне пришла в голову мысл заюзать флеш на эвале! Долго ли - коротко ли, заюзалось.
Ран в @12 семплов пробежал довольно шустро, потратив примерно 30% дневной квоты AI Pro аккаунта.
Тайминги - от 120 секунд до 400, в основном около 250-300. Расходы токенов - от 1.1m до 9.5m
А вот далее меня ждал большой сюрприз
Найдено 77 issues, 75 верифицировано (56 verified/19 partial)- неплохой рейт в целом
🔥 А вот раскладка по приоритетам:
p0 : 1 / 0
p1 : 10 / 3
p2 : 21 / 4
p3 : 20 / 12
p4 : 4 / 0
Напомню, это ФЛЕШ. Результаты более чем достойные. Я весьма удивлен.
▶️ Вывод: с кодом флеш работает неплохо, на данной задаче заметно ЛУЧШЕ чем Про версия! Однозначно Флеш проходит на этап конкурса кодеров.
Это прям большое удивление и недопонимание! Пытали током что ли модель больше?.. Старшая модель заметно умнее и эрудированнее, но против цифр не попрешь. Надо думать - почему так))
(ц) omfg
@deksden_notes
#ddeval #feb2026eval2
Пока листал просторы интернета, наткнулся на челов, которые используют Гемини для кодинга. Да, какая то секта, видимо. Но они юзают Флеш вместо Про!
И, конечно, мне пришла в голову мысл заюзать флеш на эвале! Долго ли - коротко ли, заюзалось.
Ран в @12 семплов пробежал довольно шустро, потратив примерно 30% дневной квоты AI Pro аккаунта.
Тайминги - от 120 секунд до 400, в основном около 250-300. Расходы токенов - от 1.1m до 9.5m
А вот далее меня ждал большой сюрприз
Найдено 77 issues, 75 верифицировано (56 verified/19 partial)- неплохой рейт в целом
🔥 А вот раскладка по приоритетам:
p0 : 1 / 0
p1 : 10 / 3
p2 : 21 / 4
p3 : 20 / 12
p4 : 4 / 0
Напомню, это ФЛЕШ. Результаты более чем достойные. Я весьма удивлен.
▶️ Вывод: с кодом флеш работает неплохо, на данной задаче заметно ЛУЧШЕ чем Про версия! Однозначно Флеш проходит на этап конкурса кодеров.
Это прям большое удивление и недопонимание! Пытали током что ли модель больше?.. Старшая модель заметно умнее и эрудированнее, но против цифр не попрешь. Надо думать - почему так))
(ц) omfg
@deksden_notes
🔥19😱4👍3
⚪️ Зачем вот это всё - Эвалы
Тут, наверное, в тему будет легкое лирическое отступление: зачем я делаю этот некий забег в сторону эвалов. Попробую развернуть логику и мотивации.
На текущем моменте в ИИ ситуация развивается обалдеть как динамично. Февраль вывалил на нас вагон новых интересных моделей. Несмотря на сохраняющееся лидерство "буржуйских" фронтирных лаб, мы видим отличные успехи китов.
Следовательно, стратегически стоит выбор - или вверяться в сторону моно-подходов (выбираем фронтирную, скорее всего буржуйскую модель) и строим инструменты вокруг нее. Или делаем оркестрацию моделей, когда каждая выполняет свою задачу, которую тянет. Дистил гейт, баны аккаунтов Антропиком и Гуглом не сильно внушают веру в надежных вендоров моделей: политика корпораций в любой момент может "переехать катком" какого угодно клиента, поэтому тревожно.
Пока кажется что второй подход будет стратегически более интересным: меньше рисков в нашей сложной и динамичной обстановке, что все нужно будет переделывать (как при неудачной ставки на моно-модель). Ведь одно дело - это свои задачи, а другое дело когда проблемы возникли с вендором, вокруг которого работает твоя система у клиентов.
▶️ Ок, допустим, пользуем разные модели. Сразу встает простой вопрос: а какие и для чего? Что могут эти модели?
Чтобы получить ответы есть всего два реальных варианта: изучить имеющиеся бенчмарки, или опереться на собственный опыт.
С бенчмарками, думаю, все уже столкнулись: они что то показывают, но насколько это релевантно своим задачам совершенно не ясно. Не знакомясь с внутренностями бенчмарков сложно сказать, насколько там адекватные "попугаи" получились что они значат. А еще политика БенчМаксинга у вендоров - когда мы стремимся именно к красивым цифрам, а не реальному перфомансу модели!.. В общем, бенчмарки, к сожалению, помощник не великий.
Теперь про собственные ощущения и опыт. Это, конечно, надежный вариант - но при таком потоке новинок переключаться на использование каждой новой модели возможности решительно никакой нету. Да и попользоваться нужно заметное время, а где же его взять!
▶️ Мой выход: неожиданно, но это - эвалы. Я придумал себе набор неких задачек, которые мне полезны, и некие цифровые критерии успешности выполнения этих задачек. Собственно, вот и получился эвал - такой персональный мини-бенчмарк, который мне понятен и релевантен.
🟢 Что МНЕ уже дали полученные цифры:
- я убедился что многомодельность работает. Разные модели "видят" разное, поэтому для максимального качества получить 2-3 мнения разных моделей определенно стоит;
- я убедился что 1-2 семпла вообще ничего про модель не показывают. Модели ведут себя очень по разному. Чтобы что-то обобщить надо хотя бы 7-10 семплов, тогда среднее поведение будет заметно, но все равно будут "флюктуации";
- "слабые" модели не такие уж и слабые и могут принести заметно много пользы, просто не нужно ждать от них прыжка выше головы;
- "сильные" модели заменить особо нечем - вложенный компьют не увеличивает глубину раздумий модели (сетка не становится "мельче", и не вылавливает самую хитрую "рыбу"), но частые забросы сети конечно дают свой "улов";
- относительный перфоманс разных моделей порой удивляет, свои ощущения не совсем совпадают с цифрами (пример - мое мнение про Гемини Про "на берегу" было совершенно иным)
👉 Поэтому уже неплохо, но ряд вопросов все еще требуют решения - я на них сделаю следующие эвалы!
@deksden_notes
Тут, наверное, в тему будет легкое лирическое отступление: зачем я делаю этот некий забег в сторону эвалов. Попробую развернуть логику и мотивации.
На текущем моменте в ИИ ситуация развивается обалдеть как динамично. Февраль вывалил на нас вагон новых интересных моделей. Несмотря на сохраняющееся лидерство "буржуйских" фронтирных лаб, мы видим отличные успехи китов.
Следовательно, стратегически стоит выбор - или вверяться в сторону моно-подходов (выбираем фронтирную, скорее всего буржуйскую модель) и строим инструменты вокруг нее. Или делаем оркестрацию моделей, когда каждая выполняет свою задачу, которую тянет. Дистил гейт, баны аккаунтов Антропиком и Гуглом не сильно внушают веру в надежных вендоров моделей: политика корпораций в любой момент может "переехать катком" какого угодно клиента, поэтому тревожно.
Пока кажется что второй подход будет стратегически более интересным: меньше рисков в нашей сложной и динамичной обстановке, что все нужно будет переделывать (как при неудачной ставки на моно-модель). Ведь одно дело - это свои задачи, а другое дело когда проблемы возникли с вендором, вокруг которого работает твоя система у клиентов.
▶️ Ок, допустим, пользуем разные модели. Сразу встает простой вопрос: а какие и для чего? Что могут эти модели?
Чтобы получить ответы есть всего два реальных варианта: изучить имеющиеся бенчмарки, или опереться на собственный опыт.
С бенчмарками, думаю, все уже столкнулись: они что то показывают, но насколько это релевантно своим задачам совершенно не ясно. Не знакомясь с внутренностями бенчмарков сложно сказать, насколько там адекватные "попугаи" получились что они значат. А еще политика БенчМаксинга у вендоров - когда мы стремимся именно к красивым цифрам, а не реальному перфомансу модели!.. В общем, бенчмарки, к сожалению, помощник не великий.
Теперь про собственные ощущения и опыт. Это, конечно, надежный вариант - но при таком потоке новинок переключаться на использование каждой новой модели возможности решительно никакой нету. Да и попользоваться нужно заметное время, а где же его взять!
▶️ Мой выход: неожиданно, но это - эвалы. Я придумал себе набор неких задачек, которые мне полезны, и некие цифровые критерии успешности выполнения этих задачек. Собственно, вот и получился эвал - такой персональный мини-бенчмарк, который мне понятен и релевантен.
🟢 Что МНЕ уже дали полученные цифры:
- я убедился что многомодельность работает. Разные модели "видят" разное, поэтому для максимального качества получить 2-3 мнения разных моделей определенно стоит;
- я убедился что 1-2 семпла вообще ничего про модель не показывают. Модели ведут себя очень по разному. Чтобы что-то обобщить надо хотя бы 7-10 семплов, тогда среднее поведение будет заметно, но все равно будут "флюктуации";
- "слабые" модели не такие уж и слабые и могут принести заметно много пользы, просто не нужно ждать от них прыжка выше головы;
- "сильные" модели заменить особо нечем - вложенный компьют не увеличивает глубину раздумий модели (сетка не становится "мельче", и не вылавливает самую хитрую "рыбу"), но частые забросы сети конечно дают свой "улов";
- относительный перфоманс разных моделей порой удивляет, свои ощущения не совсем совпадают с цифрами (пример - мое мнение про Гемини Про "на берегу" было совершенно иным)
👉 Поэтому уже неплохо, но ряд вопросов все еще требуют решения - я на них сделаю следующие эвалы!
@deksden_notes
❤13👍9🔥4
⚪️ Codex 0.105 с голосовым вводом
Новый релиз кодекса с голосовым вводом - включается удерживанием пробела.
Чтобы заработало надо фичафлаг voice_transcription включить в конфиге.
Несколько других интересных фич: темы кодоблоков, фанаут для субагентов, очистка экрана, тюнинг системы разрешений, тюнинг апп-сервера
@deksden_notes
Новый релиз кодекса с голосовым вводом - включается удерживанием пробела.
Чтобы заработало надо фичафлаг voice_transcription включить в конфиге.
Несколько других интересных фич: темы кодоблоков, фанаут для субагентов, очистка экрана, тюнинг системы разрешений, тюнинг апп-сервера
@deksden_notes
👍13🔥8👀1
⚪️ Droid @ Terminal Bench
Недавно в чатике обсуждали дроида и terminal bench, что он был топ, но это было давно
Дроид прислушался к критике, и обновил бенч. Снова #1
https://www.tbench.ai/leaderboard/terminal-bench/2.0
А Если серьено - это к разговору о том, что реально сделать упряжку, которая перформит лучше вендорской (кастомная simple codex от клозедов теперь #2)
@deksden_notes
Недавно в чатике обсуждали дроида и terminal bench, что он был топ, но это было давно
Дроид прислушался к критике, и обновил бенч. Снова #1
https://www.tbench.ai/leaderboard/terminal-bench/2.0
А Если серьено - это к разговору о том, что реально сделать упряжку, которая перформит лучше вендорской (кастомная simple codex от клозедов теперь #2)
@deksden_notes
🔥2👍1
⚪️ Eval-3 (1): планы
#ddeval #feb2026eval3
Итак, мы сделали eval-2 как общий обзорный эвал, и посмотрели как работают свежие модели (qwen 3.5 и gemini 3.1). Задача, на которой он проводился была очень широкой - смотреть все фокусы, то есть анализировать все аспекты кода.
Мы убедились, что не каждая модель справляется и в состоянии глубоко подумать над каким то определенным аспектом при такой широкой задаче. Это видно по количеству найденных p0/p1 проблем, которые определенно в коде есть, но не каждая модель их находит даже при увеличении компьюта.
👉 Как повысить качество? Попробуем изменить габариты задачи: вместо широкого поиска сделать поиск фокусным, только по одному аспекту. При этом кодовая база будет той же самой, промпты и общая конструкция флоу - идентичной. Будем смотреть как изменятся результаты, если менять габариты задачи.
▶️ Я решил выбрать для эвала фокусы:
• error_handling_reliability
• concurrency_state
Итого: ревью делается тем же самым промптом, но в промпте вместо перечисления ВСЕХ фокусов указывается ТОЛЬКО ОДИН фокус. И смотрим чего получится, как поменяются результаты моделей по сравнению с "широким" эвалом (вырастет ли качество работы), и какое у них будет соотношение друг с другом (насколько дефицит внимания влияет на перфоманс моделей, оценим у кого какой "запас" внимания).
Набор подопытных - берем 2 топовых кита (kimi/glm), обе Gemini (чтобы понять чего это с ними нынче) и gpt-5.2 как бейзлайн фронтира:
* glm-5 в claude code,
* kimi k2.5 в дроиде
* gemini 3.1 Pro и 3 Flash в Gemini Cli (в поисках где же они таки хороши)
* gpt-5.2 в Codex Cli
Семплов решил сделать 4 - маловато, но хочется чтобы лимитов на эвал хватило на оба фокуса. То есть у нас будет по каждому фокусу 4 семпла, всего 8 семплов на каждую модель.
Таков план! Можно приступать к реализации
@deksden_notes
#ddeval #feb2026eval3
Итак, мы сделали eval-2 как общий обзорный эвал, и посмотрели как работают свежие модели (qwen 3.5 и gemini 3.1). Задача, на которой он проводился была очень широкой - смотреть все фокусы, то есть анализировать все аспекты кода.
Мы убедились, что не каждая модель справляется и в состоянии глубоко подумать над каким то определенным аспектом при такой широкой задаче. Это видно по количеству найденных p0/p1 проблем, которые определенно в коде есть, но не каждая модель их находит даже при увеличении компьюта.
👉 Как повысить качество? Попробуем изменить габариты задачи: вместо широкого поиска сделать поиск фокусным, только по одному аспекту. При этом кодовая база будет той же самой, промпты и общая конструкция флоу - идентичной. Будем смотреть как изменятся результаты, если менять габариты задачи.
▶️ Я решил выбрать для эвала фокусы:
• error_handling_reliability
• concurrency_state
Итого: ревью делается тем же самым промптом, но в промпте вместо перечисления ВСЕХ фокусов указывается ТОЛЬКО ОДИН фокус. И смотрим чего получится, как поменяются результаты моделей по сравнению с "широким" эвалом (вырастет ли качество работы), и какое у них будет соотношение друг с другом (насколько дефицит внимания влияет на перфоманс моделей, оценим у кого какой "запас" внимания).
Набор подопытных - берем 2 топовых кита (kimi/glm), обе Gemini (чтобы понять чего это с ними нынче) и gpt-5.2 как бейзлайн фронтира:
* glm-5 в claude code,
* kimi k2.5 в дроиде
* gemini 3.1 Pro и 3 Flash в Gemini Cli (в поисках где же они таки хороши)
* gpt-5.2 в Codex Cli
Семплов решил сделать 4 - маловато, но хочется чтобы лимитов на эвал хватило на оба фокуса. То есть у нас будет по каждому фокусу 4 семпла, всего 8 семплов на каждую модель.
Таков план! Можно приступать к реализации
@deksden_notes
🔥5❤🔥2👍2
⚪️ Eval-3 (2): а вот и он!
#ddeval #feb2026eval3
Итак, приступим, помолясь. Запускаю, конкурентность 2 на каждую модель.
😱 Что можно отметить. Квота гугла на 3.1 в AI Pro подписке нынче довольно смешная, а аккаунт у меня остался один - пару других забанили за "неуставные связи". На 8 запусков ревью суточной квоты одного аккаунта даже не хватает - сделали 4 полных семпла для одного фокуса и 2 семпла для другого, и квота кончилась. Напомню - это все таки платный аккаунт! Я не saas ваншотил, а ревью из двух стадий делал, прайминг и сам ревью, довольно скромно. То есть антропик куснул гугла довольно сильно - не каждому желающему попробовать даже хватит! И квоты тут суточные, не 5 часов которые можно было бы подождать. Конечно, нету недельных лимитов - но все равно, такое ... Работать на такой подписке с одним аккаунтом нереально. Хоть на 8 ранов гемини флеш хватило, только 25% квоты где то потратил. Видимо, если работать надо на флеше - то норм. Но на Про модели работать с такой подпиской никак не выйдет.
▶️ У glm-5 на все эксперименты ушло чуть менее 30% 5-ти часовой квоты, то есть работать на про-подписке можно вполне комфортно.
Kimi брал с подписки Droid, там месячная квота - непоказательно, около 2% ушло.
👉 Вся аналитика - в комментах. Потренировался Kimi Slides запрягать и NotebookLM.
❓ Посмотрите - чего вам понравится, пишите впечатления от оформления разными инструментами.
Go в комменты! 👇
@deksden_notes
#ddeval #feb2026eval3
Итак, приступим, помолясь. Запускаю, конкурентность 2 на каждую модель.
😱 Что можно отметить. Квота гугла на 3.1 в AI Pro подписке нынче довольно смешная, а аккаунт у меня остался один - пару других забанили за "неуставные связи". На 8 запусков ревью суточной квоты одного аккаунта даже не хватает - сделали 4 полных семпла для одного фокуса и 2 семпла для другого, и квота кончилась. Напомню - это все таки платный аккаунт! Я не saas ваншотил, а ревью из двух стадий делал, прайминг и сам ревью, довольно скромно. То есть антропик куснул гугла довольно сильно - не каждому желающему попробовать даже хватит! И квоты тут суточные, не 5 часов которые можно было бы подождать. Конечно, нету недельных лимитов - но все равно, такое ... Работать на такой подписке с одним аккаунтом нереально. Хоть на 8 ранов гемини флеш хватило, только 25% квоты где то потратил. Видимо, если работать надо на флеше - то норм. Но на Про модели работать с такой подпиской никак не выйдет.
▶️ У glm-5 на все эксперименты ушло чуть менее 30% 5-ти часовой квоты, то есть работать на про-подписке можно вполне комфортно.
Kimi брал с подписки Droid, там месячная квота - непоказательно, около 2% ушло.
👉 Вся аналитика - в комментах. Потренировался Kimi Slides запрягать и NotebookLM.
❓ Посмотрите - чего вам понравится, пишите впечатления от оформления разными инструментами.
Go в комменты! 👇
@deksden_notes
🔥7❤2❤🔥1
⚪️ Eval-3 (3): итоги
#ddeval #feb2026eval3
Самая сложная часть, на самом деле. Мы получили кучу данных, они перед глазами. А вот понять - о чем это, как это понимать, - это самое сложное в такого рода исследованиях.
👉 TLDR: Gpt-5.2 > Flash 3 > Glm-5 + Kimi K2.5
Давайте перечислю свои наблюдения:
* gpt-5.2 заметно глубже и внимательнее думает, все таки бейзлайн фронтира как есть! нашел более глубокие проблемы, все верифицированы - отличные рейты. Удвительно, что думал наже немного побыстрее glm-5.
* glm-5 нынче довольно долго думала, вышло даже дольше gpt-5.2, что удивительно. Нет, у меня у клозедов не pro тариф с быстрым инференсом, обычный.
* модели на фокусах в целом здорово улучшили рейт верификации - почти все находки подтвердились, рост доли верифицированных находок заметный
* kimi довольно шустрая, по качеству работы весьма сравнима с glm-5, разброса в качестве между ними не выявлено
* flash 3 работает в ревью заметно лучше 3.1 pro
* flash-3 немного (не сильно, но заметно) лучше по качеству справился с работой, чем киты - все таки фронтир, видимо; но не уровень gpt-5.2
👉 Главный вывод: фокусная работа дает результаты. За семплы этого эвала было обнаружено в х2 больше issues этих категорий, чем из всех ранее запускавшихся "широких" прогонов.
▶️ Ранее "плотность" обнаружения issues в этих фокусах была 0.9 на сэмпл, а в фокусном эвале - 5+ на семпл. Рост почти х6.
☝️ Итого: в продакшене в оркестраторе - только фокусные эвалы. Фан-аут на каждый фокус и интеграция результатов. Качество растет в разы. Большой плюс от использования разных моделей - очень низкие коэффициенты пересечения находок.
🟢 Такой эвал получился.
@deksden_notes
#ddeval #feb2026eval3
Самая сложная часть, на самом деле. Мы получили кучу данных, они перед глазами. А вот понять - о чем это, как это понимать, - это самое сложное в такого рода исследованиях.
👉 TLDR: Gpt-5.2 > Flash 3 > Glm-5 + Kimi K2.5
Давайте перечислю свои наблюдения:
* gpt-5.2 заметно глубже и внимательнее думает, все таки бейзлайн фронтира как есть! нашел более глубокие проблемы, все верифицированы - отличные рейты. Удвительно, что думал наже немного побыстрее glm-5.
* glm-5 нынче довольно долго думала, вышло даже дольше gpt-5.2, что удивительно. Нет, у меня у клозедов не pro тариф с быстрым инференсом, обычный.
* модели на фокусах в целом здорово улучшили рейт верификации - почти все находки подтвердились, рост доли верифицированных находок заметный
* kimi довольно шустрая, по качеству работы весьма сравнима с glm-5, разброса в качестве между ними не выявлено
* flash 3 работает в ревью заметно лучше 3.1 pro
* flash-3 немного (не сильно, но заметно) лучше по качеству справился с работой, чем киты - все таки фронтир, видимо; но не уровень gpt-5.2
👉 Главный вывод: фокусная работа дает результаты. За семплы этого эвала было обнаружено в х2 больше issues этих категорий, чем из всех ранее запускавшихся "широких" прогонов.
▶️ Ранее "плотность" обнаружения issues в этих фокусах была 0.9 на сэмпл, а в фокусном эвале - 5+ на семпл. Рост почти х6.
☝️ Итого: в продакшене в оркестраторе - только фокусные эвалы. Фан-аут на каждый фокус и интеграция результатов. Качество растет в разы. Большой плюс от использования разных моделей - очень низкие коэффициенты пересечения находок.
🟢 Такой эвал получился.
@deksden_notes
👍9🔥5❤1❤🔥1🙏1
⚪️ Забавное
Переведу:
https://x.com/fortelabs/status/2026681391384068260?s=20
——
Подождите, значит, основателем Anthropic является "Амодей", то есть "любящий Бога"? И он возглавляет Anthropic, что означает «ориентированный на человека», который используется в военных целях?
А создателем ChatGPT является "Altman", то есть "альтернатива людям"? А он возглавляет OpenAI, которая является полностью закрытой организацией?
А ещё есть Gemini, что означает "двуликий", от компании, которая обещала не творить зла?
И вся эта глобальная гонка вооружений в области ИИ ведется людьми, которые утверждали, что обеспокоены тем, что искусственный общий интеллект захватит мир?
Либо Вселенная — автор, пишущий крайне шаблонные тексты, либо обладает блестящим чувством юмора.
——
не мое, но забавное! (ц)
@deksden_notes
Переведу:
https://x.com/fortelabs/status/2026681391384068260?s=20
——
Подождите, значит, основателем Anthropic является "Амодей", то есть "любящий Бога"? И он возглавляет Anthropic, что означает «ориентированный на человека», который используется в военных целях?
А создателем ChatGPT является "Altman", то есть "альтернатива людям"? А он возглавляет OpenAI, которая является полностью закрытой организацией?
А ещё есть Gemini, что означает "двуликий", от компании, которая обещала не творить зла?
И вся эта глобальная гонка вооружений в области ИИ ведется людьми, которые утверждали, что обеспокоены тем, что искусственный общий интеллект захватит мир?
Либо Вселенная — автор, пишущий крайне шаблонные тексты, либо обладает блестящим чувством юмора.
——
не мое, но забавное! (ц)
@deksden_notes
X (formerly Twitter)
Tiago Forte (@fortelabs) on X
Wait, so the founder of Anthropic is "Amodei," as in "loves god"?
And he leads Anthropic, meaning "human-centered," which is being used in military strikes?
And the creator of ChatGPT is "Altman," as in "an alternative to humans"?
And he leads OpenAI,…
And he leads Anthropic, meaning "human-centered," which is being used in military strikes?
And the creator of ChatGPT is "Altman," as in "an alternative to humans"?
And he leads OpenAI,…
😁18👍3🔥1😐1
⚪️ Кодинговый план алибабы
Получил апгрейд
Теперь ВСЕ топовые киты доступны в нем! $5 в первый месяц, $10 далее. Доступ ко всем моделям:
• Kimi K2.5
• Glm-5 (new!)
• Minimax M2.5
• Qwen 3.5
Да, квен не впечатляет - но остальные вполне себе китовый фронтир.
И - главный аргумент: $5/10.
А за $25/50 - огромные лимиты! по 20 апросов в МИНУТУ.
В общем, бюджетный способ получить всех китов в упряжку.
Я думаю про кими, но слайды тоже хочется. И сварм попробовать - в общем, надо подумать! Но алибаба интересное предложение делает
🔗 https://www.alibabacloud.com/help/en/model-studio/coding-plan
——
Upd 1️⃣ : народ говорит купоны кончились
Upd 2️⃣ : купоны вроде бы снова завезли - есть в комментах и успешная регистрация со скидкой
@deksden_notes
Получил апгрейд
Теперь ВСЕ топовые киты доступны в нем! $5 в первый месяц, $10 далее. Доступ ко всем моделям:
• Kimi K2.5
• Glm-5 (new!)
• Minimax M2.5
• Qwen 3.5
Да, квен не впечатляет - но остальные вполне себе китовый фронтир.
И - главный аргумент: $5/10.
А за $25/50 - огромные лимиты! по 20 апросов в МИНУТУ.
В общем, бюджетный способ получить всех китов в упряжку.
Я думаю про кими, но слайды тоже хочется. И сварм попробовать - в общем, надо подумать! Но алибаба интересное предложение делает
🔗 https://www.alibabacloud.com/help/en/model-studio/coding-plan
——
Upd 1️⃣ : народ говорит купоны кончились
Upd 2️⃣ : купоны вроде бы снова завезли - есть в комментах и успешная регистрация со скидкой
@deksden_notes
🔥10❤3👍3🙏3
⚪️ Смерть SDLC
В уютном платном чате у Алмаза 😎 @almazom (ИИ клуб "ИИшница") обнаружилась ссылка на любопытную статейку:
🔗 https://boristane.com/blog/the-software-development-lifecycle-is-dead/
Статья хайповая слегка (нет), и автор декларирует ряд моментов, которые возникло острое желание прокомментировать! Теу кого лапки нет времени - я в комменты выложу краткий пересказ от notebookLM.
Вкратце: он говорит - агенты разрушили и сделали пережитком прошлого классический цикл раработки. Нету больше тщательных спецификаций, длинных ревью PR, подготовки релизов, специальных инструментов для каждого этапа. Есть короткие итерационные циклы (петли) с агентом: обсудили, сделали, релизнули, проверил - шипим, проверяем, оставляем/откатываем. Все! "Херак, херак - и в продакшн" как есть.
Ну, довольно хайповый и смелый тейк.
🟢 Сначала с чем согласен:
* действительно софт можно дорабатывать короткими интерактивными сессиями.
* действительно надо делать обратную связь агенту (интеграционный тестик желательно), без этого сложно добиться работоспособности софта
* действительно тесты стали частью разработки обязательно;
* вычитывать диффы - уже некоторый рудимент, пожалуй;
* ревью: ну тут нечего добавить, я вот даже эвалы делаю на агентное ревью - смотрим по тегу #ddeval ; видимо, можно догадаться что я согласен; "ансамбль Песняры" и разных агентов - тоже отличная и рабочая схема;
🛑 С чем НЕ согласен и что спорно на мой взгляд, и скажу свои тейки:
* SDLC никуда не делся, но на разных этапах трансформировался новыми инструментами;
* шаги всё те же - спецификация никуда не делась, просто ее сейчас можно интерактивно с агентом определить; если недоспецифицировать задачу, рожаем слоп-код;
* все артефакты в той или иной степени присутствуют: и сторипоинтами (например) можно/нужно габариты задачи оценивать (для корректного планирвоания), и спринты - это сессия доработок, и ревью PR - это просто этап агентного цикла (можно без PR, это деталь CI/CD пайплайна);
* проектирование систем тоже никуда не делось, оно важно чтобы получалось что то более-менее нормально развивающееся; emergent design конечно тут здорово ложится - но именно что им нужно отдельно заниматься;
* тестировщики - да, похоже отживают; но требования к тестам только увеличились; агенту нужно обязательно вменяемое тестовое покрытие, которое прежде всего позволяет судить о том, насколько хорошо решили первоначальную задачу, и, вторично, о качестве реализации задачи (код какой вышел);
* deployment в агентную эпоху - да, малообсуждаемая, но необходимая тема; ничем она от традиционного цикла толком не отличается, только новыми механимами автоматизации агентами - поэтому я не уловил чего тут схлопывается то, скорее наоборот, Ci/CD отлаживается и начинает применяться в обязательном порядке даже на мелких проектах; (надо прописать в канале про это побольше, наверное - да?);
* дашборды - да, требуют замены на cli утилиты (скорее даже дополнения ими); но я тут не улавливаю слом парадигмы - скорее ее развитие и более обязательную адаптацию; мониторинг теперь и для мелких проектов имеет смысл и актуален - чтобы агенту его прикрутить;
☝️ Итого: на мой взгляд, SDLC цикл никуда не делся, а только лишь стабилизировался и даже утвердился. Да, отдельные этапы получили новые инструменты и воможности - но как это меняет их суть?! Жизнь - да, меняется, - но не методом "до основания", а динамичными спиралями развития, где у нас "все то же самое, но на новом уровне".
▶️ А вот про отдельный этап планирования (требования, спеки, архитектура - вот это все) мы в ближайшее время поплотнее поговорим.
(ц) как то так!
@deksden_notes
В уютном платном чате у Алмаза 😎 @almazom (ИИ клуб "ИИшница") обнаружилась ссылка на любопытную статейку:
🔗 https://boristane.com/blog/the-software-development-lifecycle-is-dead/
Статья хайповая слегка (нет), и автор декларирует ряд моментов, которые возникло острое желание прокомментировать! Те
Вкратце: он говорит - агенты разрушили и сделали пережитком прошлого классический цикл раработки. Нету больше тщательных спецификаций, длинных ревью PR, подготовки релизов, специальных инструментов для каждого этапа. Есть короткие итерационные циклы (петли) с агентом: обсудили, сделали, релизнули, проверил - шипим, проверяем, оставляем/откатываем. Все! "Херак, херак - и в продакшн" как есть.
Ну, довольно хайповый и смелый тейк.
🟢 Сначала с чем согласен:
* действительно софт можно дорабатывать короткими интерактивными сессиями.
* действительно надо делать обратную связь агенту (интеграционный тестик желательно), без этого сложно добиться работоспособности софта
* действительно тесты стали частью разработки обязательно;
* вычитывать диффы - уже некоторый рудимент, пожалуй;
* ревью: ну тут нечего добавить, я вот даже эвалы делаю на агентное ревью - смотрим по тегу #ddeval ; видимо, можно догадаться что я согласен; "ансамбль Песняры" и разных агентов - тоже отличная и рабочая схема;
🛑 С чем НЕ согласен и что спорно на мой взгляд, и скажу свои тейки:
* SDLC никуда не делся, но на разных этапах трансформировался новыми инструментами;
* шаги всё те же - спецификация никуда не делась, просто ее сейчас можно интерактивно с агентом определить; если недоспецифицировать задачу, рожаем слоп-код;
* все артефакты в той или иной степени присутствуют: и сторипоинтами (например) можно/нужно габариты задачи оценивать (для корректного планирвоания), и спринты - это сессия доработок, и ревью PR - это просто этап агентного цикла (можно без PR, это деталь CI/CD пайплайна);
* проектирование систем тоже никуда не делось, оно важно чтобы получалось что то более-менее нормально развивающееся; emergent design конечно тут здорово ложится - но именно что им нужно отдельно заниматься;
* тестировщики - да, похоже отживают; но требования к тестам только увеличились; агенту нужно обязательно вменяемое тестовое покрытие, которое прежде всего позволяет судить о том, насколько хорошо решили первоначальную задачу, и, вторично, о качестве реализации задачи (код какой вышел);
* deployment в агентную эпоху - да, малообсуждаемая, но необходимая тема; ничем она от традиционного цикла толком не отличается, только новыми механимами автоматизации агентами - поэтому я не уловил чего тут схлопывается то, скорее наоборот, Ci/CD отлаживается и начинает применяться в обязательном порядке даже на мелких проектах; (надо прописать в канале про это побольше, наверное - да?);
* дашборды - да, требуют замены на cli утилиты (скорее даже дополнения ими); но я тут не улавливаю слом парадигмы - скорее ее развитие и более обязательную адаптацию; мониторинг теперь и для мелких проектов имеет смысл и актуален - чтобы агенту его прикрутить;
☝️ Итого: на мой взгляд, SDLC цикл никуда не делся, а только лишь стабилизировался и даже утвердился. Да, отдельные этапы получили новые инструменты и воможности - но как это меняет их суть?! Жизнь - да, меняется, - но не методом "до основания", а динамичными спиралями развития, где у нас "все то же самое, но на новом уровне".
▶️ А вот про отдельный этап планирования (требования, спеки, архитектура - вот это все) мы в ближайшее время поплотнее поговорим.
(ц) как то так!
@deksden_notes
👍11💯7❤5👎2
Forwarded from ABI
Agentic-workflow для GitHub Copilot (open source)
Выложил экспериментальный репозиторий, где исследую role-based agentic workflows для GitHub Copilot / VS Code Agents.
Вместо одного «умного ассистента» используется явное разделение ролей:
* Orchestrator — управляет процессом
* Planner — уточнение требований и планирование
* Coder Jr / Coder Sr — выполнение задач с эскалацией
* Reviewer, Debugger, Designer — качество, баги, UX
Агенты описаны простыми текстовыми инструкциями (.agent.md), плюс есть skills / чеклисты для доменных правил и контроля качества.
Это не фреймворк и не готовый продукт, а конкретная, opinionated схема workflow для реальной инженерной работы и экспериментов.
Репозиторий:
https://github.com/ABIvan-Tech/copilot-agentic-workflows
Буду рад обратной связи, критике и альтернативным подходам.
#opensource
Выложил экспериментальный репозиторий, где исследую role-based agentic workflows для GitHub Copilot / VS Code Agents.
Вместо одного «умного ассистента» используется явное разделение ролей:
* Orchestrator — управляет процессом
* Planner — уточнение требований и планирование
* Coder Jr / Coder Sr — выполнение задач с эскалацией
* Reviewer, Debugger, Designer — качество, баги, UX
Агенты описаны простыми текстовыми инструкциями (.agent.md), плюс есть skills / чеклисты для доменных правил и контроля качества.
Это не фреймворк и не готовый продукт, а конкретная, opinionated схема workflow для реальной инженерной работы и экспериментов.
Репозиторий:
https://github.com/ABIvan-Tech/copilot-agentic-workflows
Буду рад обратной связи, критике и альтернативным подходам.
#opensource
GitHub
GitHub - ABIvan-Tech/copilot-agentic-workflows
Contribute to ABIvan-Tech/copilot-agentic-workflows development by creating an account on GitHub.
👍10❤2
Forwarded from ABI
AIFace — «эмоции» для LLM-агента (open source)
Выложил экспериментальный проект AIFace — способ дать LLM-агенту визуальное, эмоциональное представление в реальном времени.
Идея простая:
LLM → управляет состоянием → на телефоне отображается «живое лицо» с эмоциями.
Как устроено:
📱 Мобильный клиент (Kotlin Multiplatform)
Запускается на телефоне, поднимает WebSocket-сервер и рендерит анимированное лицо.
🧠 MCP-сервер (Node.js / TypeScript)
Связывает LLM (через MCP), обнаруживает доступные дисплеи по mDNS и отправляет обновления сцены.
🔁 Обмен в реальном времени через WebSocket.
LLM не рисует напрямую, а управляет состоянием, эмоциями и намерением, которые визуализируются на отдельном устройстве.
Это не продукт и не UI-фреймворк, а инженерный эксперимент:
* embodiment для агентов
* разделение «мышления» и «визуального присутствия»
* исследования interaction-паттернов с агентами
Репозиторий:
https://github.com/ABIvan-Tech/AIFace
Буду рад фидбеку, идеям и вопросам — особенно от тех, кто работает с агентами, MCP или human-AI interaction.
Ищу волшебника который сделает PR для ESP32 (пока у меня нет этого железа, поэтому нужна помощь!)
#opensource
Выложил экспериментальный проект AIFace — способ дать LLM-агенту визуальное, эмоциональное представление в реальном времени.
Идея простая:
LLM → управляет состоянием → на телефоне отображается «живое лицо» с эмоциями.
Как устроено:
📱 Мобильный клиент (Kotlin Multiplatform)
Запускается на телефоне, поднимает WebSocket-сервер и рендерит анимированное лицо.
🧠 MCP-сервер (Node.js / TypeScript)
Связывает LLM (через MCP), обнаруживает доступные дисплеи по mDNS и отправляет обновления сцены.
🔁 Обмен в реальном времени через WebSocket.
LLM не рисует напрямую, а управляет состоянием, эмоциями и намерением, которые визуализируются на отдельном устройстве.
Это не продукт и не UI-фреймворк, а инженерный эксперимент:
* embodiment для агентов
* разделение «мышления» и «визуального присутствия»
* исследования interaction-паттернов с агентами
Репозиторий:
https://github.com/ABIvan-Tech/AIFace
Буду рад фидбеку, идеям и вопросам — особенно от тех, кто работает с агентами, MCP или human-AI interaction.
Ищу волшебника который сделает PR для ESP32 (пока у меня нет этого железа, поэтому нужна помощь!)
#opensource
GitHub
GitHub - ABIvan-Tech/AIFace
Contribute to ABIvan-Tech/AIFace development by creating an account on GitHub.
1👍9
⚪️ OpenSource на нашем канале:
#opensource <— все можно найти по тегу
Напоминаю можно получить репост в канал как презентацию проекта: https://t.me/deksden_notes/483
Каталог: https://t.me/deksden_notes/484
#opensource <— все можно найти по тегу
Напоминаю можно получить репост в канал как презентацию проекта: https://t.me/deksden_notes/483
Каталог: https://t.me/deksden_notes/484
Telegram
DEKSDEN notes
⚪️ Опенсорс на нашем канале
Помимо того, что я кидаю линки на всякие github проекты, которые встречаю в процессе, я отдельно выделю:
• на канале я поддерживаю опенсорс подписчиков
• любой автор опенсорс проекта обращается ко мне в личку @deksden и получает…
Помимо того, что я кидаю линки на всякие github проекты, которые встречаю в процессе, я отдельно выделю:
• на канале я поддерживаю опенсорс подписчиков
• любой автор опенсорс проекта обращается ко мне в личку @deksden и получает…
❤3