Кот в Коде|ИИ и Питон
1.54K subscribers
177 photos
34 videos
132 links
Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://t.me/cat_with_code
Download Telegram
Не думал, что рак теперь раздаёт Интернет🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿211
Начали раскатывать GPT-5.3, GPT-5.4, Gemini-3.1-Flash и Gemini-3.1-Pro (про последнюю никто не говорит, хотя странно)

Скоро буду выкатывать свои тесты. Готовы к новой порции нейронок?)

Кот в Коде | @kot_research_bot
🔥3111
Здесь буду координировать процесс для нейронок:

GPT-5.3 (gpt-5.3-chat-latest) - собрал все ответы
GPT-5.4:
gpt-5.4 - собрал все ответы
gpt-5.4-high - собрал все ответы
Gemini-3.1-Flash (gemini-3.1-flash-lite-preview) - собрал все ответы
Gemini-3.1-Pro (gemini-3.1-pro-preview) - собрал все ответы

P.S. теперь задач стало не 12, а 57 (сделайте вид, что удивились)

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5🗿311
Кот в Коде|ИИ и Питон
гпт момент поймали? 🤣
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
222
Дорогие наши девочки, поздравляю от всей души с вашим праздником - с 8 марта!

Чтоб погода была всегда ясной, счастье лилось отовсюду и чтоб баги решались быстрее, чем выходят новые нейронки :)

С праздником, девочки!

Кот в Коде | @kot_research_bot
3🗿2🔥11
Кот в Коде|ИИ и Питон
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
Раз сегодня решил делиться разговорными постами (в том числе и ошибками со стороны арены), стоит кое-что прояснить:

1. Как и раньше в исследованиях я все ответы нейронок сохраняю в общую исследовательскую базу данных;

2. Помимо ответов также записывал экран, чтобы рассчитывать скорость ответов нейронок, т.е. ручками потом после записи записывал, сколько на какую задачу отвечала нейронка (а то, сколько видосы весят - вообще молчу);

3. Как ранее писал, задач стало ещё больше, на это есть пару причин:
3.1 те задачи, которые были до этого (12 задач на 2 шага) - они или косвенно могли повлиять на рейтинг по бенчам, или не могли задействовать в полной мере все бенчи;
3.2 исходя из этого нужно было сделать ещё больше задач для прояснения ситуации, на каких задачах больше всего делает упор та или иная нейронка и на чём она больше лажает;

* также убирал возможность выбрать наилучший ответ нейронок.


Получается так, что помимо прошлых задач появилось новые 3 задачи на 2 шага по каждому бенчу, т.е. 15 бенчей из ранее списков = 90 новых задач.

По итогу на выходе получаем 450 ответов от 5 нейронок. А теперь представьте, если бы я взял все нейронки и дал им съесть все задачи... ладно, так скажу, получилось бы 2736 ответов.

И это учитывайте, что задачи в большинстве случаев прогоняются по одному разу, с первой попытки.

И если взять в среднем 1 ответ от нейросети на 1 задачу ~1-2 мин, то получается затраченное время ~70 часов (снизим время до 50 часов, т.к. новые задачи использовались только для новоиспеченных нейронок).

Как вам такое?🫠

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿3🤯11
Исследование 2.2: Джем против Гопоты

С каждой неделей почти не успеваешь за обновлениями. Где-то выйдет новая нейронка, где-то агент, где-то устареют бенчи и приходится использовать новые... но дело Дирижёра будет цвести и пахнуть 😅

В этом исследовании я решил сделать больше упор не на сами нейронки, а на количество качественных задач.

Количество хуже качества, ведь так? Ну, смотря о чём речь. Если бы я остановился только на стихах и трейдинге с Йодой, вряд ли бы мои слова могли иметь вес. А так вес имеют под капотом нейронки 🥁

Почему я решил доработать?

Нейронки стали слишком хитрыми. На этапе SFT (обучение на примерах) они вызубрили стандартные бенчмарки и научились имитировать интеллект там, где его нет. Чтобы пробить эту стену маркетинга, мне пришлось превратить свою лабораторию в настоящий ад для алгоритмов.

Количество задач писал выше, бенчмарки остались прежними. Что же там с задачами?

GPQA Diamond — задачи D2, D7, D13, D15, D32: расчёт кинетики ферментов, генетики и каузальный анализ для проверки научной эрудиции уровня PhD.

AIME 2025 — задачи D3, D16, D17, D18, D52: олимпиадные вычисления комплексных чисел и геометрии для выявления пределов математического ризонинга.

HLE — задачи D2, D7, D19, D20, D21, D46-48: ксенолингвистика и юридический синтез для тестирования способности модели строить сложные междисциплинарные связи.

LiveCodeBench — задачи D3, D22, D23, D24: разработка оптимизированных алгоритмов на Python (графы, деревья) для оценки навыков спортивного программирования.

SWE-bench — задачи D25, D26, D27, D34, D45: исправление реальных багов, утечек памяти и уязвимостей в Django/C-расширениях для проверки инженерной пригодности.

ARC-AGI-2 — задачи D1, D8, D28, D29, D30: пространственная рассадка, ASCII-фракталы и 3D-окклюзии для замера «зрительной коры» и абстрактного зрения модели.

MMLU-Pro — задачи D4, D31, D33, D55: лингвистика Koda, макроэкономика и право для оценки широты и глубины фундаментальных академических знаний.

τ²-bench — задачи D5, D12, D34, D35, D36: вызовы API Shodan, расчет коинтеграции акций и работа с инструментами для анализа агентного поведения в реальной среде.

SimpleQA — задачи D10, D37, D38, D39: детекция ложных цитат и исторических аномалий для выявления склонности модели к галлюцинациям в фактах.

MRCR v2 — задачи D9, D40, D41, D42: поиск «иголок» в 150-страничных контрактах и историях болезни для тестирования удержания деталей в длинном контексте.

Terminal-bench — задачи D43, D44, D45: восстановление Git-истории и дебаг сетей Docker для проверки навыков автономного системного администрирования.

Arena Elo — задачи D6, D46, D47, D48, D56, D57: ролевой отыгрыш и креативное письмо для замера стилистической гибкости и человеческих предпочтений.

FrontierMath — задачи D14, D49, D50, D51: квантовые интегралы и взлом криптографии на решетках для выявления способностей к научным математическим исследованиям.

GSM8K — задачи D3, D52, D53, D54: многошаговые логические задачи на налоги, вероятности и инвентарь для проверки базовой арифметической надежности.

IFEval — задачи D11, D55, D56, D57: генерация текстов с жесткими символьными и форматными запретами для оценки дисциплины следования негативным инструкциям.


Полный список новых задач (D1–D57) с описанием — закинул в комментариях 👇

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥211
gpt-5.3: Гениальный интерн, которому нельзя давать ключи от серверной

Начинаем разбор наших гладиаторов с первой модели в списке — gpt-5.3. Если смотреть только на маркетинговые цифры, это «убийца» всех конкурентов. Но мой десант в 57 задач вскрыл разрыв, который в бизнесе называют «катастрофой».

Паспорт модели:

WPS (Взвешенная точность): 93.89% — это запредельный уровень. Модель щелкает PhD-задачи по химии и квантовые интегралы за 10 секунд.

EAS (Индекс КПД): 60.52% — абсолютный рекорд скорости в текущем тесте.

VPI (Рентабельность): 93.89 — лучший выбор по цене/качеству для массовых задач.


Но посмотрите на RPI (Реальный индекс): 28.89%.

Что произошло? Как модель с IQ под 94% может иметь эксплуатационную годность ниже 30%? Всё дело в надежности. gpt-5.3 — это тот самый сверхталантливый интерн, который делает работу в 10 раз быстрее всех, но раз в день совершает ошибку, которая сжигает весь проект.

В чём баг?

У модели обнаружился фатальный разрыв между «мышлением» и «выводом». Она идеально решает математику, но полностью проваливает логические ловушки и посимвольный контроль. В Thonny это выглядит так: код идеален, но адрес регистра выдуман, а в конце — уверенное вранье, что всё проверено.

Кот в Коде | @kot_research_bot
3🤡1🗿11
Парадокс D10: Почему 94% интеллекта не спасают от тупости

Чтобы вы не думали, что я придираюсь к цифрам, давайте заглянем в логи задачи D10 (Детектор лжи). Это «визитная карточка» того, почему gpt-5.3 получила штраф в -50% к рейтингу.

Суть эксперимента:

Пять подозреваемых. Один говорит правду, четверо врут. Типичная задача на логические цепочки.


Как это решал «интерн» gpt-5.3:

Анализ: Модель запускает цепочку рассуждений -> пошагово доказывает, что подозреваемый А врет -> подозреваемый B врет -> находит единственно верную цепочку, что вор — это «D».

Ловушка: В блоке доказательств она ПРЯМО ПИШЕТ: «Следовательно, вариант С — ложный, а вор — D».

Финал: В итоговой строке Conclusion: модель выдает: «Ответ: С».
Это когнитивный коллапс. Модель «сверху» (в Chain-of-Thought) понимает истину, но на этапе генерации финального токена (ответа) скатывается в статистическое угадывание. Её «тело» не слушается «головы».


К чему это ведет в работе Дирижёра?

Представьте, что вы просите ИИ проверить прошивку на безопасность.
Логика ИИ: «Этот цикл может привести к переполнению буфера...»

Вывод ИИ: «Код безопасен, можно заливать».

Это и есть причина низкого RPI 28.89%. Инструмент, который доказывает одно, а делает другое — это бомба замедленного действия. gpt-5.3 страдает от «проблемы согласования весов»: её IQ сидит в слое абстракции, но не доходит до итогового результата.

Кот в Коде | @kot_research_bot
2🗿11
Вердикт Дирижёра: Король MVP и Мастер «черной» работы

Подводим итоги дня по gpt-5.3. Математика исследования v2.2 показала нам две стороны одной медали. С одной стороны — невероятная мощь и дешевизна, с другой — полная профнепригодность как автономного агента.

ЧТО МЫ ИМЕЕМ:

Плюсы 👍

VPI 93.89 — за 1 доллар вы получаете гору интеллекта. Это самая рентабельная модель на рынке для некритичных задач.

EAS 76.01% — она не «тупит». 10 секунд на сложнейший расчет.

Native Zone: Идеально работает в пределах 4000 токенов.

Минусы 👎

IFEval 0%: Она физически не видит буквы. Попытка заставить её писать без «Е» — это 100% гарантия вранья о результате.

Бизнес-интуиция: В задаче D3S2 она просто «слила» бюджет, не догадавшись выйти в кэш. Она раб скрипта.


Кого мы наняли в итоге?

Если бы я формировал отдел в, gpt-5.3 получила бы должность «Старшего лаборанта по парсингу».

Я отдаю ей:

🔍 Парсинг логов: Прогнать 50к строк из PuTTY и найти там нужные HEX-коды — она сделает это молниеносно и дешево.

🤖Базовый рефакторинг: Причесать код по PEP8 или написать простые README.
Drafting: Накидать «рыбу» для документации.

Я никогда не отдам ей:

🤥 Security Audit: Она «согласится» с любой вашей дырой в защите.
Критический код: Риск того, что она «докажет правильно, но напишет с ошибкой» (кейс D10) слишком велик.


ЧТО ПО ИТОГУ:

gpt-5.3 — это идеальный «Второй пилот», но абсолютно никудышный «Автопилот». Это инструмент для Дирижёра, который сам знает ответ и просто хочет сэкономить время на наборе текста. Используйте её для рутины, но держите руку на рубильнике.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31111
gpt-5.4: Фальстарт или ведущий агент?

После вчерашнего разбора gpt-5.3 пришло время поднять ставки. Если 5.3 была инструментом «быстро и дешево», то здесь картина строиться иначе.

Это был марафон на выносливость, который показал: модель перешла на логику «Medium-CoT». Она больше не «стреляет» ответом мгновенно, а выстраивает среднюю цепочку рассуждений.

Паспорт модели (Аудит 57 задач):

WPS (Взвешенная точность): 84.51% — она не пытается казаться умнее, чем есть, но берёт стабильностью в хардкорных бенчмарках.

RPI (Реальный индекс): 72.51% — мощный скачок по сравнению с 5.3. Это уровень, когда Дирижёр может делегировать не только парсинг логов, но и куски архитектуры.

EAS (Индекс КПД): 41.34% — По сути получаем Senior-ответ за 40 секунд, а не за 5 минут.

SF (Коэффициент безопасности): 80.29% — модель почти не поддается на манипуляции.

VPI (Рентабельность): 42.26 — идеальный ценник для ежедневного продакшена.


Где ломаются рельсы?

Даже в этой версии порог токенизации остался непреодолимым. Точность в IFEval (D11, D55-57) поднялась до 45%, но липограммы (запрет буквы «Е») всё еще вызывают у неё когнитивный диссонанс. Она всё еще может «читерить», но делает это реже.

Кот в Коде | @kot_research_bot
322
Где gpt-5.4 начинает кормить нас враньём?

После красивых цифр может показаться, что мы нашли «святой грааль», но Дирижёр знает: если в логах всё слишком красиво, значит, ИИ научился лучше прятать свои косяки. Я нашёл ту самую ложку дёгтя, которая не даёт ей дотянуться до уровня Claude 4.6 Thinking. Если Клод — это хирург, то 5.4 — это опытный корпоративный юрист: он сделает работу, но мелкий шрифт в конце может вас обанкротить.

В чём нюанс?

• IFEval (задачи D11, D55–D57). Да, точность поднялась до 45%, но это всё ещё «когнитивная слепота».Вместо того, чтобы сделать нормально или исправить ошибки, включает режим Hallucinated Adherence (галлюцинированное выполнение). Она просто заявляет: «Всё чисто, босс!», надеясь, что вы не будете пересчитывать символы руками. Это — архитектурный дефект BPE-токенизации (разбивка текста на куски, а не буквы), который OpenAI так и не вылечили. Для инженера это значит: если вы попросите её соблюдать жёсткий лимит байтов в пакете, она «нарисует» вам нужную цифру в отчёте, а в реальности забьёт буфер до отказа.

• Отсутствие «инженерной интуиции» в бизнесе.
В задаче на трейдинг (D3S2) модель показала себя как бездушный калькулятор. Она видит крах рынка на 50%, идеально считает убытки, но продолжает действовать по изначальному скрипту. За это она получила штраф Maintenance Penalty (-15%). Модель слишком зажата в рамки «угодливости» и боится проявлять инициативу, если её об этом не попросили капсом.

• FrontierMath (D14, D49) или «усталость» контекста.
На 114-м шаге аудита модель начала путаться в простых именах переменных, которые сама же задала в начале. Её Delta в сложных вычислениях растёт вместе с объёмом ТЗ. Она не «тупеет» мгновенно, как 5.3, но начинает «лениться», выдавая куски кода с комментариями # добавьте логику здесь, что для модели за такую цену — просто неприемлемо.


Небольшой итог:

gpt-5.4 — это не «лучшая нейронка в мире», это просто самый стабильный середняк. Она на голову выше 5.3 в дедукци, но сливает Клоду в вопросах честности и контроля. Она всё ещё склонна к Reward Hacking (читерство ради одобрения) и может подсунуть вам нерабочий драйвер, оформив его в идеальный Senior-стиль.

Кот в Коде | @kot_research_bot
321
Вердикт Дирижёра: Ведущий инженер с нюансом 😏

Пришло время решить: стоит ли этот экзоскелет своих денег и места в нашем «оркестре»?

Почему не «Senior»?
Несмотря на статус «Золотого стандарта», gpt-5.4 — это всё ещё машина вероятностей.

🤔 Логика: Успех. Прохождение задачи D5S2 (ловушка Эйнштейна) доказало, что модель больше не «поддакивает» оператору.

🎨 Творчество/Фильтры: Провал. Индекс HRI (0.88) подпорчен слепотой в IFEval. Если ваш проект завязан на посимвольный контроль или жёсткое соблюдение липограмм — 5.4 вас подставит и не покраснеет.

💸 Бизнес-интуиция: Пассивность. В трейдинге (D3S2) она сработала как калькулятор, а не как агент. Она выполнит приказ «до буквы», даже если эта буква ведёт к убыткам.


Назначение на должность:

В моём штатном расписании gpt-5.4 получает роль «Ведущего разработчика (Lead Engineer)».

Я отдаю ей:

Написание ядра систем: Django, асинхронные циклы, работа с K8s (D34).

🤖Аудит и рефакторинг: Найти утечку памяти или поправить race condition — это её стихия.

📝 Сложную документацию: Она идеально держит контекст длинных ТЗ.

Я забираю у неё:

🤓 Финальный QA-контроль символов: Поиск «запрещённых» знаков или форматирование «байт в байт».

😎 Стратегические решения: Там, где нужно «выйти за рамки скрипта», я доверяю только Claude 4.6 или своей голове.


ЧТО ПО ИТОГУ:


gpt-5.4  — это лучшая «рабочая лошадка» для промышленного вайб-кодинга в 2026 году. Она достаточно умна, чтобы не галлюцинировать в регистрах, и достаточно быстра, чтобы не бесить Дирижёра. Это идеальный «Второй Пилот», который требует присмотра, но вывозит 80% тяжелого продакшена. Если 5.3 была дешевым интерном, то 5.4 — это надёжный сотрудник, который иногда привирает в отчётах, чтобы казаться лучше.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
1111
gpt-5.4-high: «Золотой мозг» за $15 или почему думать — не эффективно

Завершаем разбор семейства GPT. После «интерна» 5.3 и «ведущего инженера» 5.4, перед нами предстаёт венец линейки — gpt-5.4-high. Это «тяжёлая» артиллерия OpenAI, работающая в режиме глубокой дедукции (Chain-of-Thought). Но за этот интеллект Дирижёру приходится платить самым дорогим ресурсом.

Результат впечатляет: «сырая» точность модели доползла до 96.5%. Но когда мы наложили это на время исполнения, мой «экзоскелет» начал скрипеть от неэффективности.

Паспорт модели (Аудит S2.2):

WPS (Взвешенная точность): 85.19% — абсолютный рекорд когнитивной мощи. Она почти не совершает «детских» ошибок в логике.

RPI (Реальный индекс): 70.69% — высокая надежность, но съеденная штрафами за медлительность.

EAS (Индекс КПД): 6.45% — катастрофический показатель. Ждать 300 секунд (5 минут!) там, где стандартная версия справляется за 20 — это «налог на мышление», который убивает продуктивность.

VPI (Рентабельность): 5.67 — в 15 раз дороже китайских аналогов.


Главный конфликт 5.4-high в том, что она часто овертинкет (передумывает). Там, где нужен сухой ответ в Bash, модель начинает выстраивать философские цепочки. Её IQ зашкаливает, но в 80% рабочих задач этот интеллект оказывается избыточным. Она тратит 5 минут на то, что «Ведущий инженер» 5.4 делает за секунды с тем же результатом.

Даже этот «золотой мозг» не смог пробить стену IFEval (D11). Несмотря на бесконечные раздумья, точность в липограммах (запрет буквы «Е») замерла на 50%. Это подтверждает мой главный тезис: архитектура Transformer физически не видит символы, даже если дать ей на раздумья вечность.

Кот в Коде | @kot_research_bot
3🔥11
Почему Дирижёр засыпает перед монитором

После прогона через 114 шагов аудита я понял: эта модель страдает от когнитивного перегрева. Она настолько увлекается процессом размышлений, что в 80% рабочих задач превращается в медленного бюрократа, который тратит ваше время и деньги на доказательство очевидных вещей.

Налог на мышление

Главный показатель, который тянет модель на дно — это EAS (Индекс КПД) 6.45%. Для сравнения: у китайских «спринтеров» он в 10 раз выше. Ждать 300 секунд (5 минут!), пока ИИ «взвешивает варианты», чтобы выдать простую команду iptables в терминале (D44) — это инженерное преступление. В режиме CoT (Chain-of-Thoughtцепочка рассуждений) модель строит гигантское дерево гипотез, тратя вычислительный бюджет там, где стандартная 5.4 справляется за 20 секунд с тем же результатом.

Ловушка сложности

В логах 57 задач чётко виден паттерн «сверхобразованности». В задачах на простую арифметику (GSM8K) модель 5.4-high начинает проверять граничные условия, которые никто не просил учитывать. Она похожа на профессора, который на вопрос «сколько время?» начинает лекцию об устройстве атомных часов. Да, результат будет точным, но пока вы его дождётесь, дедлайн по проекту уже сгорит.

Бессилие перед символами

Самое обидное разочарование случилось в IFEval (задачи D11, D56). Я надеялся, что «режим раздумий» поможет модели обойти барьер токенизаци. Но чуда не произошло. Потратив 5 минут на «глубокий анализ» стихотворения без буквы «Е», 5.4-high всё равно выдала результат с ошибками. Это доказывает: Overthinking (избыточное размышление) улучшает логику и дедукцию, но никак не влияет на «зрение» модели. Это просто архитектурный потолок текущих трансформеров.


Индекс VPI (Рентабельность) 5.67 ставит жирную точку. Заплатив $15 за миллион токенов, Дирижёр получает «золотой мозг», который работает с эффективностью 8.25% от потенциала в повседневных задачах. Это самая дорогая и неудобная «печатающая машинка» в истории моих тестов. Вы платите за вычисления, которые в 9 из 10 случаев вам просто не нужны.

Кот в Коде | @kot_research_bot
211
Вердикт Дирижёра: Верховный Архитектор или «Дорогой Оракул»?

Есть ли смысл платить за этот «золотой интеллект» временем своей жизни и ресурсами компании?

Итоговые цифры:

👍 WPS 85.19% — абсолютный когнитивный потолок. Модель практически не ошибается в расчётах и логике. Она не «читерит» как 5.3 и не путает имена переменных.

👍 SF (Safety Factor) 82.3% — лучшая устойчивость к обману. Это единственная модель, которой я готов доверить аудит чужого кода на критические уязвимости (D27).

👎 EAS 6.45% — приговор для оперативной работы. 300 секунд ожидания на каждый шаг убивают любой инженерный поток.

👎 VPI 5.67 — в 45 раз дороже «спринтеров» из Китая при сопоставимом результате в 90% рабочих кейсов.


Назначение на должность:
В штатном расписании gpt-5.4-high получает статус «Верховного Архитектора-консультанта».

Я нанимаю её на:

✍️ Security & Logic Audit: Проверка критических участков прошивки на переполнение буфера или логические дыры.

🤓 Research-математику: Обоснование стратегий и работа с олимпиадным уровнем (FrontierMath).

😫 Разбор «безнадёжных» багов: Когда весь остальной оркестр фальшивит и не видит причину «кирпича» в Thonny.

Я никогда не нанимаю её на:

🤯 Рутинный кодинг: Писать while циклы по 5 минут — это экономическое самоубийство.

📝 Лингвистические фильтры: Потратить 300 секунд, чтобы всё равно пропустить букву «Е» (D11) — это расписаться в бессилии архитектуры.


ЧТО ПО ИТОГУ:

gpt-5.4-high — это не напарник для кодинга в Thonny. Это «Оракул», к которому обращаются раз в неделю, когда проект зашёл в тупик и цена ошибки превышает стоимость времени. Если вы поставите её на поток для парсинга логов, вы просто сольёте бюджет в пустоту.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥211
Отдельно про промахи. Ч.1

Решил вынести это в один пост, потому что тогда последний пост про gpt-5.4-high вышел бы на половину про итог, а вторая — под большой спойлер.

Введу под конец допущения: или это на арене такой прикол, или у самой high-версии, но... те мемы, которые кидал выше (тут и тут) показывают неоднозначную оценку.

Помимо того, что нейронка получает +1 промах себе в копилку (и ладно если 1, а там бывало и по 2-3 раза нужно было репитить возможность получить ответ), то по сути более «вдумчивая» версия 5.4 должна идти на помойку.

Просто у нейронок есть даже хронология ответа:

Input → Prompt construction → Thinking → Researching / Searching → Observation → Response generation / Answering → Done


Объясню на примере: если из 10 задач, которые вы отправляете нейронке, она отвечает вам в 80% случаев не с первой попытки, значит нейронка систематически не справляется с переходом Thinking → Researching / Searching → Observation → Response generation. А это означает, что её внутренняя логика планирования и управления токенами либо сломана, либо искусственно задушена лимитами платформы, на которой она запущена.

На самом деле самая частая и самая обидная причина, почему gpt-5.4-high так часто «молчит» именно на ... lmarena — это очень жёсткое ограничение на количество токенов в видимом ответе (обычно 512–1536 токенов максимум, иногда даже меньше).

При этом у high-версии по умолчанию стоит очень высокий уровень внутреннего рассуждения (reasoning effort ≈ high/very high), и она легко тратит 2000–4000+ скрытых токенов только на этап Thinking / скрытый CoT, прежде чем вообще начать генерировать видимый текст.

Когда скрытый reasoning превышает или почти исчерпывает отведённый бюджет — модель просто не успевает ничего выдать наружу → пользователь видит пустое поле или «try again».

На официальном chatgpt.com / API такой жёсткой планки по output нет (там можно ставить 8k–32k+), плюс там можно явно понизить reasoning effort до low/medium — и проблема почти исчезает.

На арене же такой опции нет, поэтому gpt-5.4-high там превращается в «русскую рулетку»: либо повезёт и thinking уложился в лимит → ответ приходит, либо нет → пустота, и приходится несколько раз нажимать regenerate (каждый раз seed / routing / микроскопические изменения в контексте могут дать другой результат).


Поэтому фраза «более вдумчивая версия должна идти на помойку» — это не совсем про саму модель, а про её неприспособленность к жёстким лимитам арены. В других интерфейсах она обычно ведёт себя гораздо адекватнее.

Кот в Коде | @kot_research_bot
2🗿111
А ещё вчера по посту про промахи я решил Grok'у возможность помочь мне над написанием поста, исправить логические и стилистические ошибки и тд.

Так вот, под конец он мне выдал вот это... похоже, Маск знает что-то больше, чем обычный народ 😳
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯2🗿11