AB Notes / AI × 1C × [ ... ]

По горячим следам:

Задача: оптимизировать запрос и архитектуру в подсистеме динамической генерации отчетов по xml-описанию от регулятора.
Запрос на 450 строк, объемы данных во временных таблицах запроса - до 50 млн строк.

Я выделил, что оптимизировать надо и архитектуру, т.е. это не локальная задача на оптимизацию запроса, надо хорошо пособирать контекст по структуре метаданным, связанным общим модулям, выполнять запросы к БД.

Сам воркфлоу и остальные детали под NDA, да и в целом этот пост не про методологию.

Решил прогнать небольшой бенчмарк по задаче, промпт везде один и тот же, отличается только наименованием тулов.

1. Gemini Flash 3.0 в Gemini CLI - херня, составил дизайн на пару абзацев, очень быстро пробежался, видно что не заморачивался со сбором контекста. Забыл создать документ-дизайн, хотя это была последняя инструкция в промпте.

2. Gemini Flash 3.0 в Antigravity - бюджет на ризонинг явно больше, думал дольше и собирал данные дольше. Тоже забыл сделать отчет, и вообще пошел код править, хотя в промпте был указано, что нужен только документ-дизайн. Со второй попытки написал короткий отчет, но рекомендация в нем была в целом дельная.

3. Gemini 3.0 Pro с High Reasoning в Antigravity - долго думал, по итогу предложил снести 1 ключевое поле в запросе, потому что оно по его мнению не нужно. Даже opus очень удивился такой тупости gemini, когда делал ревью. Плохо.

4. GLM 4.7 в Claude Code - хорошо собирал контекст, запускал субагентов, но итоговое решение поверхностное.

5. Opus 4.5 в Claude Code - как всегда круто, хорошо собирал контекст и дергал тулы. Предложения хорошие.

6. GPT 5.2 с High Reasoning в Codex Cli - хорошо собрал контекст, предложения дельные, а одно предложение так вообще лучшее, оно как раз на архитектуру, а не просто на оптимизацию запроса.

По итогу остановился на решении GPT 5.2 + развитое через ревью опусом.

Выводы:
- Gemini расстраивает, модели умные, но ленивые и в тулинг так нормально и не научились. Но как чат-боты хороши.
- GLM 4.7 подойдет для менее сложных задач, в т.ч. на архитектуру.
- Opus 4.5 в Claude Code - "Ну камон, это же ~~Козловский~~ Opus"
- GPT 5.2 очень умный, отлично пользуется тулами, хороший напарник для опуса для архитектурных задач. Немного поспрашивал его на тему 1С - все еще плавает.
Т.е. для дебага и задач на доработку ок, т.к. он будет коррелировать на код рядом, но для задач (greenfield), где надо спроектировать подсистему, большие независимые блоки - надо пробовать, пока не уверен. Но сам подход к задаче, "образ мышления", предложенные решения мне очень понравились. GPT 5.0 совсем чушь предлагал, когда его тестил ранее.

И еще один вывод: как уже писал, за оркестрацией агентов (причем с моделями от разных вендоров) будущее, сейчас оркестрирую исключительно на субагентах в claude code + иногда вызовы сторонние cli через bash, но в будущем сделаю (или подожду когда сделают) более детерминированный пайплайн оркестрации с разными cli и моделями, спешить пока некуда.

🔥10👍4

491 viewsedited 10:47