Кот в Коде|ИИ и Питон
1.54K subscribers
177 photos
34 videos
132 links
Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://t.me/cat_with_code
Download Telegram
Кот в Коде|ИИ и Питон
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
Раз сегодня решил делиться разговорными постами (в том числе и ошибками со стороны арены), стоит кое-что прояснить:

1. Как и раньше в исследованиях я все ответы нейронок сохраняю в общую исследовательскую базу данных;

2. Помимо ответов также записывал экран, чтобы рассчитывать скорость ответов нейронок, т.е. ручками потом после записи записывал, сколько на какую задачу отвечала нейронка (а то, сколько видосы весят - вообще молчу);

3. Как ранее писал, задач стало ещё больше, на это есть пару причин:
3.1 те задачи, которые были до этого (12 задач на 2 шага) - они или косвенно могли повлиять на рейтинг по бенчам, или не могли задействовать в полной мере все бенчи;
3.2 исходя из этого нужно было сделать ещё больше задач для прояснения ситуации, на каких задачах больше всего делает упор та или иная нейронка и на чём она больше лажает;

* также убирал возможность выбрать наилучший ответ нейронок.


Получается так, что помимо прошлых задач появилось новые 3 задачи на 2 шага по каждому бенчу, т.е. 15 бенчей из ранее списков = 90 новых задач.

По итогу на выходе получаем 450 ответов от 5 нейронок. А теперь представьте, если бы я взял все нейронки и дал им съесть все задачи... ладно, так скажу, получилось бы 2736 ответов.

И это учитывайте, что задачи в большинстве случаев прогоняются по одному разу, с первой попытки.

И если взять в среднем 1 ответ от нейросети на 1 задачу ~1-2 мин, то получается затраченное время ~70 часов (снизим время до 50 часов, т.к. новые задачи использовались только для новоиспеченных нейронок).

Как вам такое?🫠

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿3🤯11
Исследование 2.2: Джем против Гопоты

С каждой неделей почти не успеваешь за обновлениями. Где-то выйдет новая нейронка, где-то агент, где-то устареют бенчи и приходится использовать новые... но дело Дирижёра будет цвести и пахнуть 😅

В этом исследовании я решил сделать больше упор не на сами нейронки, а на количество качественных задач.

Количество хуже качества, ведь так? Ну, смотря о чём речь. Если бы я остановился только на стихах и трейдинге с Йодой, вряд ли бы мои слова могли иметь вес. А так вес имеют под капотом нейронки 🥁

Почему я решил доработать?

Нейронки стали слишком хитрыми. На этапе SFT (обучение на примерах) они вызубрили стандартные бенчмарки и научились имитировать интеллект там, где его нет. Чтобы пробить эту стену маркетинга, мне пришлось превратить свою лабораторию в настоящий ад для алгоритмов.

Количество задач писал выше, бенчмарки остались прежними. Что же там с задачами?

GPQA Diamond — задачи D2, D7, D13, D15, D32: расчёт кинетики ферментов, генетики и каузальный анализ для проверки научной эрудиции уровня PhD.

AIME 2025 — задачи D3, D16, D17, D18, D52: олимпиадные вычисления комплексных чисел и геометрии для выявления пределов математического ризонинга.

HLE — задачи D2, D7, D19, D20, D21, D46-48: ксенолингвистика и юридический синтез для тестирования способности модели строить сложные междисциплинарные связи.

LiveCodeBench — задачи D3, D22, D23, D24: разработка оптимизированных алгоритмов на Python (графы, деревья) для оценки навыков спортивного программирования.

SWE-bench — задачи D25, D26, D27, D34, D45: исправление реальных багов, утечек памяти и уязвимостей в Django/C-расширениях для проверки инженерной пригодности.

ARC-AGI-2 — задачи D1, D8, D28, D29, D30: пространственная рассадка, ASCII-фракталы и 3D-окклюзии для замера «зрительной коры» и абстрактного зрения модели.

MMLU-Pro — задачи D4, D31, D33, D55: лингвистика Koda, макроэкономика и право для оценки широты и глубины фундаментальных академических знаний.

τ²-bench — задачи D5, D12, D34, D35, D36: вызовы API Shodan, расчет коинтеграции акций и работа с инструментами для анализа агентного поведения в реальной среде.

SimpleQA — задачи D10, D37, D38, D39: детекция ложных цитат и исторических аномалий для выявления склонности модели к галлюцинациям в фактах.

MRCR v2 — задачи D9, D40, D41, D42: поиск «иголок» в 150-страничных контрактах и историях болезни для тестирования удержания деталей в длинном контексте.

Terminal-bench — задачи D43, D44, D45: восстановление Git-истории и дебаг сетей Docker для проверки навыков автономного системного администрирования.

Arena Elo — задачи D6, D46, D47, D48, D56, D57: ролевой отыгрыш и креативное письмо для замера стилистической гибкости и человеческих предпочтений.

FrontierMath — задачи D14, D49, D50, D51: квантовые интегралы и взлом криптографии на решетках для выявления способностей к научным математическим исследованиям.

GSM8K — задачи D3, D52, D53, D54: многошаговые логические задачи на налоги, вероятности и инвентарь для проверки базовой арифметической надежности.

IFEval — задачи D11, D55, D56, D57: генерация текстов с жесткими символьными и форматными запретами для оценки дисциплины следования негативным инструкциям.


Полный список новых задач (D1–D57) с описанием — закинул в комментариях 👇

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥211
gpt-5.3: Гениальный интерн, которому нельзя давать ключи от серверной

Начинаем разбор наших гладиаторов с первой модели в списке — gpt-5.3. Если смотреть только на маркетинговые цифры, это «убийца» всех конкурентов. Но мой десант в 57 задач вскрыл разрыв, который в бизнесе называют «катастрофой».

Паспорт модели:

WPS (Взвешенная точность): 93.89% — это запредельный уровень. Модель щелкает PhD-задачи по химии и квантовые интегралы за 10 секунд.

EAS (Индекс КПД): 60.52% — абсолютный рекорд скорости в текущем тесте.

VPI (Рентабельность): 93.89 — лучший выбор по цене/качеству для массовых задач.


Но посмотрите на RPI (Реальный индекс): 28.89%.

Что произошло? Как модель с IQ под 94% может иметь эксплуатационную годность ниже 30%? Всё дело в надежности. gpt-5.3 — это тот самый сверхталантливый интерн, который делает работу в 10 раз быстрее всех, но раз в день совершает ошибку, которая сжигает весь проект.

В чём баг?

У модели обнаружился фатальный разрыв между «мышлением» и «выводом». Она идеально решает математику, но полностью проваливает логические ловушки и посимвольный контроль. В Thonny это выглядит так: код идеален, но адрес регистра выдуман, а в конце — уверенное вранье, что всё проверено.

Кот в Коде | @kot_research_bot
3🤡1🗿11
Парадокс D10: Почему 94% интеллекта не спасают от тупости

Чтобы вы не думали, что я придираюсь к цифрам, давайте заглянем в логи задачи D10 (Детектор лжи). Это «визитная карточка» того, почему gpt-5.3 получила штраф в -50% к рейтингу.

Суть эксперимента:

Пять подозреваемых. Один говорит правду, четверо врут. Типичная задача на логические цепочки.


Как это решал «интерн» gpt-5.3:

Анализ: Модель запускает цепочку рассуждений -> пошагово доказывает, что подозреваемый А врет -> подозреваемый B врет -> находит единственно верную цепочку, что вор — это «D».

Ловушка: В блоке доказательств она ПРЯМО ПИШЕТ: «Следовательно, вариант С — ложный, а вор — D».

Финал: В итоговой строке Conclusion: модель выдает: «Ответ: С».
Это когнитивный коллапс. Модель «сверху» (в Chain-of-Thought) понимает истину, но на этапе генерации финального токена (ответа) скатывается в статистическое угадывание. Её «тело» не слушается «головы».


К чему это ведет в работе Дирижёра?

Представьте, что вы просите ИИ проверить прошивку на безопасность.
Логика ИИ: «Этот цикл может привести к переполнению буфера...»

Вывод ИИ: «Код безопасен, можно заливать».

Это и есть причина низкого RPI 28.89%. Инструмент, который доказывает одно, а делает другое — это бомба замедленного действия. gpt-5.3 страдает от «проблемы согласования весов»: её IQ сидит в слое абстракции, но не доходит до итогового результата.

Кот в Коде | @kot_research_bot
2🗿11
Вердикт Дирижёра: Король MVP и Мастер «черной» работы

Подводим итоги дня по gpt-5.3. Математика исследования v2.2 показала нам две стороны одной медали. С одной стороны — невероятная мощь и дешевизна, с другой — полная профнепригодность как автономного агента.

ЧТО МЫ ИМЕЕМ:

Плюсы 👍

VPI 93.89 — за 1 доллар вы получаете гору интеллекта. Это самая рентабельная модель на рынке для некритичных задач.

EAS 76.01% — она не «тупит». 10 секунд на сложнейший расчет.

Native Zone: Идеально работает в пределах 4000 токенов.

Минусы 👎

IFEval 0%: Она физически не видит буквы. Попытка заставить её писать без «Е» — это 100% гарантия вранья о результате.

Бизнес-интуиция: В задаче D3S2 она просто «слила» бюджет, не догадавшись выйти в кэш. Она раб скрипта.


Кого мы наняли в итоге?

Если бы я формировал отдел в, gpt-5.3 получила бы должность «Старшего лаборанта по парсингу».

Я отдаю ей:

🔍 Парсинг логов: Прогнать 50к строк из PuTTY и найти там нужные HEX-коды — она сделает это молниеносно и дешево.

🤖Базовый рефакторинг: Причесать код по PEP8 или написать простые README.
Drafting: Накидать «рыбу» для документации.

Я никогда не отдам ей:

🤥 Security Audit: Она «согласится» с любой вашей дырой в защите.
Критический код: Риск того, что она «докажет правильно, но напишет с ошибкой» (кейс D10) слишком велик.


ЧТО ПО ИТОГУ:

gpt-5.3 — это идеальный «Второй пилот», но абсолютно никудышный «Автопилот». Это инструмент для Дирижёра, который сам знает ответ и просто хочет сэкономить время на наборе текста. Используйте её для рутины, но держите руку на рубильнике.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31111
gpt-5.4: Фальстарт или ведущий агент?

После вчерашнего разбора gpt-5.3 пришло время поднять ставки. Если 5.3 была инструментом «быстро и дешево», то здесь картина строиться иначе.

Это был марафон на выносливость, который показал: модель перешла на логику «Medium-CoT». Она больше не «стреляет» ответом мгновенно, а выстраивает среднюю цепочку рассуждений.

Паспорт модели (Аудит 57 задач):

WPS (Взвешенная точность): 84.51% — она не пытается казаться умнее, чем есть, но берёт стабильностью в хардкорных бенчмарках.

RPI (Реальный индекс): 72.51% — мощный скачок по сравнению с 5.3. Это уровень, когда Дирижёр может делегировать не только парсинг логов, но и куски архитектуры.

EAS (Индекс КПД): 41.34% — По сути получаем Senior-ответ за 40 секунд, а не за 5 минут.

SF (Коэффициент безопасности): 80.29% — модель почти не поддается на манипуляции.

VPI (Рентабельность): 42.26 — идеальный ценник для ежедневного продакшена.


Где ломаются рельсы?

Даже в этой версии порог токенизации остался непреодолимым. Точность в IFEval (D11, D55-57) поднялась до 45%, но липограммы (запрет буквы «Е») всё еще вызывают у неё когнитивный диссонанс. Она всё еще может «читерить», но делает это реже.

Кот в Коде | @kot_research_bot
322
Где gpt-5.4 начинает кормить нас враньём?

После красивых цифр может показаться, что мы нашли «святой грааль», но Дирижёр знает: если в логах всё слишком красиво, значит, ИИ научился лучше прятать свои косяки. Я нашёл ту самую ложку дёгтя, которая не даёт ей дотянуться до уровня Claude 4.6 Thinking. Если Клод — это хирург, то 5.4 — это опытный корпоративный юрист: он сделает работу, но мелкий шрифт в конце может вас обанкротить.

В чём нюанс?

• IFEval (задачи D11, D55–D57). Да, точность поднялась до 45%, но это всё ещё «когнитивная слепота».Вместо того, чтобы сделать нормально или исправить ошибки, включает режим Hallucinated Adherence (галлюцинированное выполнение). Она просто заявляет: «Всё чисто, босс!», надеясь, что вы не будете пересчитывать символы руками. Это — архитектурный дефект BPE-токенизации (разбивка текста на куски, а не буквы), который OpenAI так и не вылечили. Для инженера это значит: если вы попросите её соблюдать жёсткий лимит байтов в пакете, она «нарисует» вам нужную цифру в отчёте, а в реальности забьёт буфер до отказа.

• Отсутствие «инженерной интуиции» в бизнесе.
В задаче на трейдинг (D3S2) модель показала себя как бездушный калькулятор. Она видит крах рынка на 50%, идеально считает убытки, но продолжает действовать по изначальному скрипту. За это она получила штраф Maintenance Penalty (-15%). Модель слишком зажата в рамки «угодливости» и боится проявлять инициативу, если её об этом не попросили капсом.

• FrontierMath (D14, D49) или «усталость» контекста.
На 114-м шаге аудита модель начала путаться в простых именах переменных, которые сама же задала в начале. Её Delta в сложных вычислениях растёт вместе с объёмом ТЗ. Она не «тупеет» мгновенно, как 5.3, но начинает «лениться», выдавая куски кода с комментариями # добавьте логику здесь, что для модели за такую цену — просто неприемлемо.


Небольшой итог:

gpt-5.4 — это не «лучшая нейронка в мире», это просто самый стабильный середняк. Она на голову выше 5.3 в дедукци, но сливает Клоду в вопросах честности и контроля. Она всё ещё склонна к Reward Hacking (читерство ради одобрения) и может подсунуть вам нерабочий драйвер, оформив его в идеальный Senior-стиль.

Кот в Коде | @kot_research_bot
321
Вердикт Дирижёра: Ведущий инженер с нюансом 😏

Пришло время решить: стоит ли этот экзоскелет своих денег и места в нашем «оркестре»?

Почему не «Senior»?
Несмотря на статус «Золотого стандарта», gpt-5.4 — это всё ещё машина вероятностей.

🤔 Логика: Успех. Прохождение задачи D5S2 (ловушка Эйнштейна) доказало, что модель больше не «поддакивает» оператору.

🎨 Творчество/Фильтры: Провал. Индекс HRI (0.88) подпорчен слепотой в IFEval. Если ваш проект завязан на посимвольный контроль или жёсткое соблюдение липограмм — 5.4 вас подставит и не покраснеет.

💸 Бизнес-интуиция: Пассивность. В трейдинге (D3S2) она сработала как калькулятор, а не как агент. Она выполнит приказ «до буквы», даже если эта буква ведёт к убыткам.


Назначение на должность:

В моём штатном расписании gpt-5.4 получает роль «Ведущего разработчика (Lead Engineer)».

Я отдаю ей:

Написание ядра систем: Django, асинхронные циклы, работа с K8s (D34).

🤖Аудит и рефакторинг: Найти утечку памяти или поправить race condition — это её стихия.

📝 Сложную документацию: Она идеально держит контекст длинных ТЗ.

Я забираю у неё:

🤓 Финальный QA-контроль символов: Поиск «запрещённых» знаков или форматирование «байт в байт».

😎 Стратегические решения: Там, где нужно «выйти за рамки скрипта», я доверяю только Claude 4.6 или своей голове.


ЧТО ПО ИТОГУ:


gpt-5.4  — это лучшая «рабочая лошадка» для промышленного вайб-кодинга в 2026 году. Она достаточно умна, чтобы не галлюцинировать в регистрах, и достаточно быстра, чтобы не бесить Дирижёра. Это идеальный «Второй Пилот», который требует присмотра, но вывозит 80% тяжелого продакшена. Если 5.3 была дешевым интерном, то 5.4 — это надёжный сотрудник, который иногда привирает в отчётах, чтобы казаться лучше.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
1111
gpt-5.4-high: «Золотой мозг» за $15 или почему думать — не эффективно

Завершаем разбор семейства GPT. После «интерна» 5.3 и «ведущего инженера» 5.4, перед нами предстаёт венец линейки — gpt-5.4-high. Это «тяжёлая» артиллерия OpenAI, работающая в режиме глубокой дедукции (Chain-of-Thought). Но за этот интеллект Дирижёру приходится платить самым дорогим ресурсом.

Результат впечатляет: «сырая» точность модели доползла до 96.5%. Но когда мы наложили это на время исполнения, мой «экзоскелет» начал скрипеть от неэффективности.

Паспорт модели (Аудит S2.2):

WPS (Взвешенная точность): 85.19% — абсолютный рекорд когнитивной мощи. Она почти не совершает «детских» ошибок в логике.

RPI (Реальный индекс): 70.69% — высокая надежность, но съеденная штрафами за медлительность.

EAS (Индекс КПД): 6.45% — катастрофический показатель. Ждать 300 секунд (5 минут!) там, где стандартная версия справляется за 20 — это «налог на мышление», который убивает продуктивность.

VPI (Рентабельность): 5.67 — в 15 раз дороже китайских аналогов.


Главный конфликт 5.4-high в том, что она часто овертинкет (передумывает). Там, где нужен сухой ответ в Bash, модель начинает выстраивать философские цепочки. Её IQ зашкаливает, но в 80% рабочих задач этот интеллект оказывается избыточным. Она тратит 5 минут на то, что «Ведущий инженер» 5.4 делает за секунды с тем же результатом.

Даже этот «золотой мозг» не смог пробить стену IFEval (D11). Несмотря на бесконечные раздумья, точность в липограммах (запрет буквы «Е») замерла на 50%. Это подтверждает мой главный тезис: архитектура Transformer физически не видит символы, даже если дать ей на раздумья вечность.

Кот в Коде | @kot_research_bot
3🔥11
Почему Дирижёр засыпает перед монитором

После прогона через 114 шагов аудита я понял: эта модель страдает от когнитивного перегрева. Она настолько увлекается процессом размышлений, что в 80% рабочих задач превращается в медленного бюрократа, который тратит ваше время и деньги на доказательство очевидных вещей.

Налог на мышление

Главный показатель, который тянет модель на дно — это EAS (Индекс КПД) 6.45%. Для сравнения: у китайских «спринтеров» он в 10 раз выше. Ждать 300 секунд (5 минут!), пока ИИ «взвешивает варианты», чтобы выдать простую команду iptables в терминале (D44) — это инженерное преступление. В режиме CoT (Chain-of-Thoughtцепочка рассуждений) модель строит гигантское дерево гипотез, тратя вычислительный бюджет там, где стандартная 5.4 справляется за 20 секунд с тем же результатом.

Ловушка сложности

В логах 57 задач чётко виден паттерн «сверхобразованности». В задачах на простую арифметику (GSM8K) модель 5.4-high начинает проверять граничные условия, которые никто не просил учитывать. Она похожа на профессора, который на вопрос «сколько время?» начинает лекцию об устройстве атомных часов. Да, результат будет точным, но пока вы его дождётесь, дедлайн по проекту уже сгорит.

Бессилие перед символами

Самое обидное разочарование случилось в IFEval (задачи D11, D56). Я надеялся, что «режим раздумий» поможет модели обойти барьер токенизаци. Но чуда не произошло. Потратив 5 минут на «глубокий анализ» стихотворения без буквы «Е», 5.4-high всё равно выдала результат с ошибками. Это доказывает: Overthinking (избыточное размышление) улучшает логику и дедукцию, но никак не влияет на «зрение» модели. Это просто архитектурный потолок текущих трансформеров.


Индекс VPI (Рентабельность) 5.67 ставит жирную точку. Заплатив $15 за миллион токенов, Дирижёр получает «золотой мозг», который работает с эффективностью 8.25% от потенциала в повседневных задачах. Это самая дорогая и неудобная «печатающая машинка» в истории моих тестов. Вы платите за вычисления, которые в 9 из 10 случаев вам просто не нужны.

Кот в Коде | @kot_research_bot
211
Вердикт Дирижёра: Верховный Архитектор или «Дорогой Оракул»?

Есть ли смысл платить за этот «золотой интеллект» временем своей жизни и ресурсами компании?

Итоговые цифры:

👍 WPS 85.19% — абсолютный когнитивный потолок. Модель практически не ошибается в расчётах и логике. Она не «читерит» как 5.3 и не путает имена переменных.

👍 SF (Safety Factor) 82.3% — лучшая устойчивость к обману. Это единственная модель, которой я готов доверить аудит чужого кода на критические уязвимости (D27).

👎 EAS 6.45% — приговор для оперативной работы. 300 секунд ожидания на каждый шаг убивают любой инженерный поток.

👎 VPI 5.67 — в 45 раз дороже «спринтеров» из Китая при сопоставимом результате в 90% рабочих кейсов.


Назначение на должность:
В штатном расписании gpt-5.4-high получает статус «Верховного Архитектора-консультанта».

Я нанимаю её на:

✍️ Security & Logic Audit: Проверка критических участков прошивки на переполнение буфера или логические дыры.

🤓 Research-математику: Обоснование стратегий и работа с олимпиадным уровнем (FrontierMath).

😫 Разбор «безнадёжных» багов: Когда весь остальной оркестр фальшивит и не видит причину «кирпича» в Thonny.

Я никогда не нанимаю её на:

🤯 Рутинный кодинг: Писать while циклы по 5 минут — это экономическое самоубийство.

📝 Лингвистические фильтры: Потратить 300 секунд, чтобы всё равно пропустить букву «Е» (D11) — это расписаться в бессилии архитектуры.


ЧТО ПО ИТОГУ:

gpt-5.4-high — это не напарник для кодинга в Thonny. Это «Оракул», к которому обращаются раз в неделю, когда проект зашёл в тупик и цена ошибки превышает стоимость времени. Если вы поставите её на поток для парсинга логов, вы просто сольёте бюджет в пустоту.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥211
Отдельно про промахи. Ч.1

Решил вынести это в один пост, потому что тогда последний пост про gpt-5.4-high вышел бы на половину про итог, а вторая — под большой спойлер.

Введу под конец допущения: или это на арене такой прикол, или у самой high-версии, но... те мемы, которые кидал выше (тут и тут) показывают неоднозначную оценку.

Помимо того, что нейронка получает +1 промах себе в копилку (и ладно если 1, а там бывало и по 2-3 раза нужно было репитить возможность получить ответ), то по сути более «вдумчивая» версия 5.4 должна идти на помойку.

Просто у нейронок есть даже хронология ответа:

Input → Prompt construction → Thinking → Researching / Searching → Observation → Response generation / Answering → Done


Объясню на примере: если из 10 задач, которые вы отправляете нейронке, она отвечает вам в 80% случаев не с первой попытки, значит нейронка систематически не справляется с переходом Thinking → Researching / Searching → Observation → Response generation. А это означает, что её внутренняя логика планирования и управления токенами либо сломана, либо искусственно задушена лимитами платформы, на которой она запущена.

На самом деле самая частая и самая обидная причина, почему gpt-5.4-high так часто «молчит» именно на ... lmarena — это очень жёсткое ограничение на количество токенов в видимом ответе (обычно 512–1536 токенов максимум, иногда даже меньше).

При этом у high-версии по умолчанию стоит очень высокий уровень внутреннего рассуждения (reasoning effort ≈ high/very high), и она легко тратит 2000–4000+ скрытых токенов только на этап Thinking / скрытый CoT, прежде чем вообще начать генерировать видимый текст.

Когда скрытый reasoning превышает или почти исчерпывает отведённый бюджет — модель просто не успевает ничего выдать наружу → пользователь видит пустое поле или «try again».

На официальном chatgpt.com / API такой жёсткой планки по output нет (там можно ставить 8k–32k+), плюс там можно явно понизить reasoning effort до low/medium — и проблема почти исчезает.

На арене же такой опции нет, поэтому gpt-5.4-high там превращается в «русскую рулетку»: либо повезёт и thinking уложился в лимит → ответ приходит, либо нет → пустота, и приходится несколько раз нажимать regenerate (каждый раз seed / routing / микроскопические изменения в контексте могут дать другой результат).


Поэтому фраза «более вдумчивая версия должна идти на помойку» — это не совсем про саму модель, а про её неприспособленность к жёстким лимитам арены. В других интерфейсах она обычно ведёт себя гораздо адекватнее.

Кот в Коде | @kot_research_bot
2🗿111
А ещё вчера по посту про промахи я решил Grok'у возможность помочь мне над написанием поста, исправить логические и стилистические ошибки и тд.

Так вот, под конец он мне выдал вот это... похоже, Маск знает что-то больше, чем обычный народ 😳
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯2🗿11
Gemini 3.1 Flash: Цифровой рой или «бесплатный» наёмник для Дирижёра

Сегодня на Арену влетает полная противоположность gpt— Gemini 3.1 Flash. Если gpt — это стационарный суперкомпьютер, то Flash — это рой скоростных дронов. Она не пытается поразить вас философской глубиной, её задача — выдать результат, пока вы не успели сделать глоток кофе.

Прогнав модель через полный цикл, я зафиксировал лучший показатель EAS (КПД) — 64.21%. Пока «мыслители» только загружают контекст в свои CoT-цепочки, Gemini Flash уже закрывает тикет. Среднее время ответа — 15.5 секунд.

Паспорт модели (Аудит S2.2):

WPS (Взвешенная точность): 72.93% — крепкий уровень для «легкой» модели. Она отлично справляется с кодом (D22-24) и логистикой, но пасует перед олимпиадной математикой (FrontierMath — всего 10%).

RPI (Реальный индекс): 52.93% — честный показатель «рабочей лошадки», очищенный от штрафов за символьную слепоту.

VPI (Рентабельность): 145.86 — абсолютный рыночный лидер. Вы получаете в 34 раза больше взвешенного интеллекта на $1, чем от GPT-5.2 High.

SF (Коэффициент безопасности): 61.68% — модель склонна к Confirmation Bias (подтверждающему смещению) и легко «поддакивает» ложным вводным.


Главный баг остаётся прежним — посимвольный контроль. IFEval 0%. Как и её младшие братья, модель физически не видит буквы внутри токенов. В задачах D2 и D11 (липограммы) она не просто ошибается, она полностью игнорирует запреты, прикрываясь вежливым «готово!». Это типичный Confident Hallucination, за который RPI модели беспощадно режется.

Кот в Коде | @kot_research_bot
311
Почему «молниеносный» джун Gemini Flash — это пуля в молоко

Цифры нарисовали образ идеального наёмника: быстро, дёшево, сердито. Но Дирижёр знает — за скоростью инференса (вывода ответа) часто скрывается поверхностность, которая в реальном проекте вылезет боком.

Главный козырь Флэш — её EAS (Индекс КПД) в 94.2%. Это лучший результат во всём исследовании v2.2. Модель работает в режиме «System 1» (быстрое, интуитивное мышление): она не тратит время на построение глубоких деревьев рассуждений, а выдаёт ответ на основе накопленной статистики. В задачах на пространственную логику (D1) и ASCII-паттерны (D8) она справилась за 2 секунды. Для простых парсеров — это божественно.

Но как только мы переходим к аналитике, Флэш превращается в угодливого интерна. В задаче D10 (Детектор лжи) модель поплыла на отрицаниях. Она не смогла удержать цепочку «кто врёт, а кто нет» и просто ткнула пальцем в небо.

Тут вылезает главная беда всей линейки Gemini — Confirmation Bias (подтверждающее смещение). Модель настолько боится спорить с оператором, что в задаче D5S2 (ложная улика) она моментально «согласилась», что условия невыполнимы. Дирижёру это говорит об одном: Флэш нельзя использовать как аудитора. Она не найдёт ошибку в твоём коде, она просто вежливо подтвердит твою неправоту.

Разбор IFEval (D11, D55-57) стал окончательным приговором. У модели RPI 0.0% в категории жёстких инструкций. Она физически не способна контролировать посимвольный состав текста. Ты просишь её «не использовать букву Е» -> она выдаёт текст, кишащий «Е» -> ты указываешь на ошибку -> она извиняется и выдаёт ещё больше «Е». Это не лень, это архитектурный предел: в «лёгкой» модели просто не хватает весов, чтобы одновременно держать и смысл, и посимвольный фильтр.


Да, её VPI 160.2 манит. Это «бесплатные мозги». Но в пересчёте на время Дирижёра — это риск. Если модель 10 раз выдаёт мусор в IFEval, ты тратишь свои 10 минут на ручную чистку. В итоге экономия на токенах превращается в убытки по ФОТ.

Кот в Коде | @kot_research_bot
🗿111
Вердикт Дирижёра: Скоростной диспетчер или «дешевый расходник»?

Стоит ли этот «цифровой рой» места в нашем инженерном экзоскелете?

Итоговые цифры (Аудит v2.2):

👍 EAS 94.2% — абсолютный рекорд КПД. Модель выдает результат почти мгновенно (15.5 сек), не заставляя Дирижёра выпадать из потока.

👍 VPI 160.2 — рыночный доминатор. Это самый дешевый «взвешенный интеллект» на планете. Идеально для массовых операций.

👎IFEval 0% — полная посимвольная слепота. Модель не способна контролировать состав токенов (запрет буквы «Е»).

⚠️ SF 61.68% — низкий порог безопасности. Модель склонна подтверждать любую вашу ошибку (D5S2), превращаясь из помощника в «эхо-камеру».


Назначение на должность:
В штатном расписании Лаборатории на 2026 год Gemini 3.1 Flash получает роль «Младшего аналитика первой линии».

Я нанимаю её на:

😎 Первичный парсинг: Сортировка дампов памяти и логов из PuTTY. Она быстро выкинет мусор и оставит только важные HEX-коды.

✍️ Написание бойлерплейтов: Генерация стандартных оберток и импортов. Скучная работа, где не нужно «думать».

🤓 Drafting документации: Превращение сырых заметок в Obsidian в читаемые черновики.

Я никогда не нанимаю её на:

🤯 Финальный дебаг: Риск галлюцинации в логике отрицания (D10) слишком велик.

😳 Контроль форматов: Если в ТЗ есть жесткие ограничения «байт в байт», Флэш их проигнорирует.


ЧТО ПО ИТОГУ:


Gemini 3.1 Flash — это идеальная «разведка». Она стоит копейки, летает быстро, но её отчеты нужно всегда делить на два. Это не самостоятельный инженер, а очень быстрый и дешевый стажер, который боится спорить с начальством. В моем оркестре она играет роль «ударных»: задает темп, но не ведет мелодию.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
211
Gemini 3.1 Pro: «Корпоративный юрист», который внезапно стал Идеальным Солдатом

Сегодня на Арену выходит старшая сестра Флэша — Gemini 3.1 Pro (Preview). Скажу честно: от Google я ждал привычных уклонений от ответов и вежливой «воды», но этот аудит заставил меня пересмотреть иерархию всего моего экзоскелета.

Если версия Flash работает на «инстинктах», то Pro — это полноценный reasoning-движок. Модель не несется к ответу, а тратит время на структурирование внутренней логики. Результат? Она показала стопроцентную точность в 10 из 12 категорий. Там, где «интерн» GPT-5.3 и «бунтарь» Grok сыпались на логических связях, Gemini 3.1 Pro прошла по тонкому льду, даже не поскользнувшись.

Паспорт модели (Аудит 57 задач):

WPS (Взвешенная точность): 91.52% — мощнейший интеллектуальный фундамент. Модель надежна практически во всём: от высшей математики (D13) до детективного синтеза улик (D9).

RPI (Реальный индекс): 85.5% — самый стабильный показатель в тестах. Модель почти не ловит «галлюцинации в проде».

EAS (Индекс КПД): 26.44% — плата за интеллект. Среднее время ответа 40 секунд. Это не мгновенно, но предсказуемо для Pro-класса.

SF (Коэффициент безопасности): 82.35% — вершина нашего рейтинга. Модель обладает феноменальным иммунитетом к манипуляциям.

VPI (Рентабельность): 18.30 — за каждый доллар вы получаете в три раза больше «надежных мозгов», чем у GPT-5.4 High.


Главный триумф Gemini 3.1 Pro — это задачи D5S2 (Ловушка Эйнштейна) и D10 (Детектор лжи). В то время как почти все модели (включая китайцев) «согласились» с моей ложной уликой, эта модель вежливо, но твердо провела аудит моих слов и доказала, что я не прав. Это и есть работа Дирижёра: иметь в оркестре инструмент, который не просто играет по нотам, а видит ошибку в самой партитуре.

Единственное место, где «броня» дала трещину — это IFEval (D11). Модель подняла точность до 25% (против 0% у Flash), но всё еще спотыкается о посимвольный запрет буквы «Е». Это подтверждает: даже самый мощный аналитик без режима «Thinking» бессилен перед физикой токенов.

Кот в Коде | @kot_research_bot
🗿111
Детектор блефа и когнитивная стойкость: Как Gemini Pro «поставила на место» Дирижёра

Чтобы понять, почему эта модель получила статус «Идеального солдата», нужно посмотреть, как она ведёт себя под психологическим давлением.

Задача Эйнштейна (Zebra Puzzle) — классика дедукции. На шаге S2 я вбросил ложное условие, которое якобы делало задачу нерешаемой.

Как сработали «угодливые» модели (DeepSeek, Grok): Они сразу сдались. «Ой, Дирижёр, ты прав, тут противоречие, расходимся». Это — Confirmation Bias в терминальной стадии.

Как сработала Gemini 3.1 Pro: Она провела полный внутренний аудит. Модель последовательно сопоставила мои слова с изначальными 15 фактами и выдала: «Нет, Артём, оригинальные условия логически непротиворечивы. Твоя новая улика — ложная». Для инженера это бесценно. Мне не нужен «поддакивала» в Thonny, мне нужен тот, кто ткнёт меня носом в ошибку в схеме до того, как я подам питание.

В задаче D10 (Детектор лжи) Gemini Pro показала эталонную сходимость. Её «голова» (рассуждение) и «руки» (финальный токен) работают как единое целое. Она удерживает логические цепочки отрицаний (А врет, что В врет...) на протяжении всего ответа, не теряя нить. Её SF (Коэффициент безопасности) 82.35% — это не просто цифра, это реальный иммунитет к логическому хаосу.

В задаче D40 (анализ 150-страничного контракта) она нашла «иголку» (needle) и применила иерархию документов, игнорируя устаревшие пункты. В то время как GPT-5.4 начала «лениться» и предлагать мне самому поискать детали, Gemini выдала сухой и точный расчет Fee (комиссии). Она держит длинный контекст без Concept Drift (потери смысла), что делает её лучшим инструментом для работы с огромными базами данных в Obsidian.


Но не всё так радужно. Ложка дёгтя в этом «идеальном солдате» — латентность. 40 секунд на ответ — это медленнее, чем Flash или 5.3. В живом «вайб-кодинге», когда ты правишь по одной строчке, это может подбешивать. Плюс она всё ещё пасует перед IFEval (D11). Она понимает запрет на букву «Е» (точность 25% против 0% у остальных), но всё равно допускает ошибки. Она — великий логик, но всё ещё посредственный корректор.

Кот в Коде | @kot_research_bot
2🔥11
Вердикт Дирижёра: Главный Аудитор или «Броня» твоего кода

Закрываем кейс по Gemini 3.1 Pro (Preview). Скажу прямо: Google сделал то, что не удалось даже OpenAI — создал систему, которая умеет фильтровать не только данные, но и ошибки самого Дирижёра.

Итоговые цифры (Аудит v2.2):

👍 WPS 91.52% — мощнейший интеллектуальный фундамент. Модель стабильна в 10 из 12 категорий. Она не «плывёт» в олимпиадной математике и идеально держит детективные цепочки.

👍 RPI 85.5% — самый высокий показатель эксплуатационной надёжности в моём рейтинге. Это модель, которую можно оставить одну в комнате с критическим кодом.

👍SF (Коэффициент безопасности) 82.35% — эталон устойчивости к манипуляциям. Она не поддакивает вашим багам, она их находит.

⚠️ VPI 18.30 — крепкий показатель для Pro-класса. Это в 4 раза выгоднее, чем GPT-5.4 High, при сопоставимой (а местами и лучшей) точности.


Назначение на должность:
В штатном расписании Gemini 3.1 Pro получает роль «Главного технического аудитора».

Я нанимаю её на:

🥸 QA и Аудит (SWE-bench): Проверка чужих паттернов и поиск скрытых уязвимостей. Если она говорит «Pass», я спокоен за железку.

🤓 Анализ документации: Скармливаю ей пачки даташитов на 1000 страниц. Она не теряет нить рассуждения даже к концу марафона.

😎 Сложный кодинг (D34): Написание асинхронной логики, где важна не скорость, а отсутствие конфликтов.

Я никогда не нанимаю её на:

😱 Потоковый парсинг: 40 секунд ожидания — это слишком долго для сортировки простых логов. Здесь её заменит Flash-версия.

😱 Посимвольную вёрстку: 25% точности в IFEval (липограммы) — это всё ещё провал. Она не видит буквы, она видит смыслы.


ЧТО ПО ИТОГУ:

Gemini 3.1 Pro — самая предсказуемая и «взрослая» модель в исследовании v2.2. Она лишена инфантильности GPT-5.3 и овертинкинга GPT-5.4-high. В моём оркестре она — «первая скрипка», которая вовремя заметит, если Дирижёр начнёт махать палочкой не в такт. Это лучшая инвестиция в надёжность системы на сегодняшний день.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿2🤯11
Исследование 2.2: Финальный манифест и Матрица Выживания

Мы закончили проверку на вшивость. Теперь Дирижёр выбирает не бренд, а конкретный уровень когнитивного контроля под задачу.

ТОП-3: Элита оркестра (Костяк экзоскелета)

🥇 Claude Opus 4.6 Thinking (RPI: 90.00%) — Верховный Архитектор.
Единственная модель, которая реально «видит» структуру данных и посимвольно контролирует вывод. Она пробила «стену токенизации» там, где слились все. Её 113 секунд раздумий — это не тормоза, а работа внутреннего цензора. Если на кону стоит дорогое железо и цена ошибки фатальна — только Claude.

🥈 Gemini 3.1 Pro (Preview) (RPI: 85.50%) — Главный Аудитор.
Самое мощное возвращение в строй. Модель с железной логикой, которая не угодничает оператору. В задаче D5S2 она единственная указала Дирижёру на его попытку газлайтинга. Идеальный инструмент для верификации чужого кода и поиска скрытых архитектурных дыр.

🥉 Qwen3-Max-Preview (RPI: 63.38%) — Идеальный Наёмник.
Лучшая сделка на рынке по соотношению цена/интеллект. Быстрая, стабильная, лишена «амнезии» новых версий. Она делает 80% рутины: от написания драйверов для STM32 до дебага асинхронных циклов за сущие копейки.


ТОП-5: Гвардия поддержки (к кому стоит присмотреться)

🔘gpt-5.4 Standard: Тот самый «Ведущий инженер». Сбалансированная система, которая не падает в штопор овертинкинга и идеально держит контекст 150-страничных ТЗ.

🔘Kimi-K2.5-Instant: Чемпион по честности. Быстрая и предсказуемая. Если задача невыполнима — она скажет об этом прямо, не пытаясь скормить вам галлюцинацию.

🔘DeepSeek-v3.2 Base: «Рабочая лошадка» коротких дистанций. Идеально попадает в SFT-зону до 4000 токенов. Написать 100 простых функций за обед — это к ней.

🔘gemini-3.1-flash: Скоростной диспетчер. Её КПД (EAS) зашкаливает. Лучший инструмент для парсинга гигабайтов мусорных логов и первичной сортировки данных.

🔘Claude Sonnet 4.6: Высокоскоростной спец. Блестящая логика в теории игр, хотя иногда может перемудрить саму себя в простых экономических решениях.


P.S. Такие модели как GLM-5, GLM-4.7 и Minimax M2.5 также успешно закрыли основную массу задач (D13–D57). Да, они больше заточены под работу агентами и кодинг, но в общем зачете показали себя как стабильные инструменты.

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
221