DEKSDEN notes

⚪️ Февральский eval-2 (2) : тестируем QWEN 3.5 Plus

#ddeval #feb2026eval2

▶️ Напомню, что это эвал на широкий поиск issues не очень подходит для выводов о внимании моделей. Мы делаем общую приценочную оценку поведения и соотносим модели друг с другом. Сами полученные цифры можно считать условными попугаями, они важны только относительно цифр другой модели/агента.
Для тестирования внимания/цепкости моделей будем делать другой эвал - по выеденным фокусам, возможно, несколько профилей с разными фокусами.

Ранее проводимые эвалы доступны по тегам #ddeval #feb2026eval и #52vs53

План этого эвала предполагал доп тестирование свежего Qwen 3.5 Plus против уже проверенных атлетов:

- OpenCode → zai-coding-plan/glm-5,
- Droid → kimi-k2.5 / thinking,
- Droid → minimax-m2.5 / medium,
- Сodex → gpt-5.2 / high,
- ну и сам пациент, Qwen cli → coder-model (qwen 3.5 plus)

Заодно посмотрим, сохранится ли относительная картинка в сравнении с прошлым эвалом #feb2026eval . Семплинг всех моделей ставим на @3.

Запускаем! После пары часов, потраты лимитов и нескольких падений разных упряжек по форматам JSON ответов (и фиксов) - все довели до результата.

Тайминги и потрата токенов получились такие:
* glm-5: 220-240s, а вот подсчет токенов скромный, опенкод насчитал до 1m токенов в каждом семпле (отметим, что с подсчетом токенов у опенкода есть вопросики);
* kimi k2.5: 100-145s всего, и только 1-1.2m токенов;
* minimax m2.5: 260-270 секунд, и 3.2-3.7m токенов;
* gpt-5.2: тратит по 1000-1100 секунд на флоу (прайминг+ревью), и 19-20m токенов;
* наконец, новый qwen 3.5 plus: 520-800s, и от 1.2 до 6.6m токенов

Разброс показателей существенный! Еще и счетчики особо не отлажены в разных упряжках - может tokens не совсем адекватно считается, привожу их справочно - с этим вопросом надо дополнительно разибраться.

Теперь цифирки кто и чего нашел

* glm-5: нашла 21, 12 подтвержденных, 11 уникальных
* kimi k2.5: нашла 36, но всего 13 подтверждено, 11 уникальных
* minimax m2.5: нашла 23, 12 подтвердились, все 12 уникальные
* gpt 5.2 нашла 26 issues, 26/26 подтверждено, 20 уникальных
* qwen 3.5 : нашел 28, 11 подтверждено, 7 уникальных

И расклад по приоритетам в подтвержденным находкам такой (p0-p3, p4 не классифицировано ни одной):

glm-5: 12 - 0 | 4 | 5 | 3
k2.5: 13 - 0 | 4 | 8 | 1
m2.5: 12 - 1 | 2 | 3 | 6
gpt-5.2: 26 - 2 | 8 | 8 | 8
q3.5: 11 - 0 | 0 | 3 | 8

▶️ Выводы: берем gpt-5.2 как бейзлайн фронтира, она уверенно смотрит issues медленно, но находит неплохо. Китайские модели будут послабее при широком поиске, на таких скромных семплингах результаты плавают, и сложно сказать кто умнее. Однако Qwen 3.5 выглядит слабее kimi / minimax / glm, что немного удивительно, ведь qwen весьма авторитетная лаба. Но цифры сами за себя говорят!

👉 Завершаем с этим этапом эвала и переходим к следующему

@deksden_notes

🔥5👍4❤2

619 viewsedited 04:31