Кот в Коде|ИИ и Питон
1.63K subscribers
177 photos
34 videos
132 links
Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://t.me/cat_with_code
Download Telegram
Грядёт наплыв нейронок от OpenAI или же Сама Альтман решил ответить наплывом нейронок от Дарио Амодеи из Anthropic?

Давайте условимся, что OpenAI (ОпенАИ) = Сэм (Альтман), а Anthropic (Антропик) = Дарио (Амодеи).

Если вкратце, что у них там происходит:

- Начало января 2026: Дата-майнеры начинают активно обсуждать внутренний коднейм GPT-5.3 Garlic (ГПТ-5.3 Гэрлик) как следующий большой релиз Сэма.

- 5 февраля 2026: В один день и Сэм выпускает мощную агентную модель GPT-5.3-Codex, и Дарио Claude Opus 4.6 (Клауд Опус 4.6).

- 10 февраля 2026: Происходит крупный слив внутренних данных GPT-5.3 прямо в релизной версии Codex.

- 12 февраля 2026: Сэм выкатывает ускоренную версию GPT-5.3-Codex-Spark/Спарк (15x быстрее).

- 15 февраля 2026: создатель вирусного агента OpenClaw (Петера Штайнбергера) переходит к Сэму.

- 17 февраля 2026: Дарио выпускает Claude Sonnet 4.6 как ответный удар (дефолтная модель для всех).

- 19 февраля 2026: На саммите в Индии с Моди Альтман и Дарио стоят рядом, но отказываются взяться за руки — момент становится вирусным мемом.

- 26–27 февраля 2026: Дарио отказывает Пентагону снимать safeguards (защитные механизмы) от mass surveillance (массового наблюдения) и autonomous weapons (автономного оружия).

- 28 февраля 2026: Сэм соглашается на тот же контракт с Пентагоном (с теми же red lines/красными линиями).

- 2 марта 2026: Свежий слив GPT-5.4 в Гитхабе («gpt-5.4 or newer» + toggle Fast mode) — сообщество ждёт релиз примерно 26 марта.

- пару часов назад вышла новость, что сотрудники Сэма должны намеренно затормаживать процесс развития нейронки, чтобы не они не пришли к AGI (универсальному ИИ)... а то уволят🙂


И вся эта Санта-Барбара началась ещё в конце 2020, когда Дарио выступал с замедлением GPT-3, но Сэм ему отказал. После чего Дарио ушёл из OpenAI, прихватив с собой пару тройку коллег.

Расценивать обоих довольно не просто. С одной стороны Альтман - прагматик, который берёт от жизни всё, а Дарио - идеалист, который живёт по своим правилам. С другой стороны по ситуации с Пентагоном их можно охарактеризовать так:

Дарио: "Мы не дадим следить за американцами (и только за ними), не снимем защитные механизмы 😎"
Альтман: "Я просто не был уверен… 🤡"

А вы как смотрите на эту ситуацию?

😎 - Сэм жжёт
🧐 - Дарио лучше
😱 - AGI скоро?

P.S. не люблю хайпить на политике, поэтому пусть будет этот пост один из немногих, связанных с этой темой.

P.S.S теперь все тексты будут с пометками на русском языке?


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
321
гпт момент поймали? 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯421
У меня на асинхронности только и строится архитектура программ, чтобы и сервер параллельно ОПД*, и датчик ветра со станцией не легли, и экран показывал данные.

Оно а . как вон
🗿111
Не думал, что рак теперь раздаёт Интернет🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿211
Начали раскатывать GPT-5.3, GPT-5.4, Gemini-3.1-Flash и Gemini-3.1-Pro (про последнюю никто не говорит, хотя странно)

Скоро буду выкатывать свои тесты. Готовы к новой порции нейронок?)

Кот в Коде | @kot_research_bot
🔥3111
Здесь буду координировать процесс для нейронок:

GPT-5.3 (gpt-5.3-chat-latest) - собрал все ответы
GPT-5.4:
gpt-5.4 - собрал все ответы
gpt-5.4-high - собрал все ответы
Gemini-3.1-Flash (gemini-3.1-flash-lite-preview) - собрал все ответы
Gemini-3.1-Pro (gemini-3.1-pro-preview) - собрал все ответы

P.S. теперь задач стало не 12, а 57 (сделайте вид, что удивились)

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5🗿311
Кот в Коде|ИИ и Питон
гпт момент поймали? 🤣
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
222
Дорогие наши девочки, поздравляю от всей души с вашим праздником - с 8 марта!

Чтоб погода была всегда ясной, счастье лилось отовсюду и чтоб баги решались быстрее, чем выходят новые нейронки :)

С праздником, девочки!

Кот в Коде | @kot_research_bot
3🗿2🔥11
Кот в Коде|ИИ и Питон
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
Раз сегодня решил делиться разговорными постами (в том числе и ошибками со стороны арены), стоит кое-что прояснить:

1. Как и раньше в исследованиях я все ответы нейронок сохраняю в общую исследовательскую базу данных;

2. Помимо ответов также записывал экран, чтобы рассчитывать скорость ответов нейронок, т.е. ручками потом после записи записывал, сколько на какую задачу отвечала нейронка (а то, сколько видосы весят - вообще молчу);

3. Как ранее писал, задач стало ещё больше, на это есть пару причин:
3.1 те задачи, которые были до этого (12 задач на 2 шага) - они или косвенно могли повлиять на рейтинг по бенчам, или не могли задействовать в полной мере все бенчи;
3.2 исходя из этого нужно было сделать ещё больше задач для прояснения ситуации, на каких задачах больше всего делает упор та или иная нейронка и на чём она больше лажает;

* также убирал возможность выбрать наилучший ответ нейронок.


Получается так, что помимо прошлых задач появилось новые 3 задачи на 2 шага по каждому бенчу, т.е. 15 бенчей из ранее списков = 90 новых задач.

По итогу на выходе получаем 450 ответов от 5 нейронок. А теперь представьте, если бы я взял все нейронки и дал им съесть все задачи... ладно, так скажу, получилось бы 2736 ответов.

И это учитывайте, что задачи в большинстве случаев прогоняются по одному разу, с первой попытки.

И если взять в среднем 1 ответ от нейросети на 1 задачу ~1-2 мин, то получается затраченное время ~70 часов (снизим время до 50 часов, т.к. новые задачи использовались только для новоиспеченных нейронок).

Как вам такое?🫠

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿3🤯11
Исследование 2.2: Джем против Гопоты

С каждой неделей почти не успеваешь за обновлениями. Где-то выйдет новая нейронка, где-то агент, где-то устареют бенчи и приходится использовать новые... но дело Дирижёра будет цвести и пахнуть 😅

В этом исследовании я решил сделать больше упор не на сами нейронки, а на количество качественных задач.

Количество хуже качества, ведь так? Ну, смотря о чём речь. Если бы я остановился только на стихах и трейдинге с Йодой, вряд ли бы мои слова могли иметь вес. А так вес имеют под капотом нейронки 🥁

Почему я решил доработать?

Нейронки стали слишком хитрыми. На этапе SFT (обучение на примерах) они вызубрили стандартные бенчмарки и научились имитировать интеллект там, где его нет. Чтобы пробить эту стену маркетинга, мне пришлось превратить свою лабораторию в настоящий ад для алгоритмов.

Количество задач писал выше, бенчмарки остались прежними. Что же там с задачами?

GPQA Diamond — задачи D2, D7, D13, D15, D32: расчёт кинетики ферментов, генетики и каузальный анализ для проверки научной эрудиции уровня PhD.

AIME 2025 — задачи D3, D16, D17, D18, D52: олимпиадные вычисления комплексных чисел и геометрии для выявления пределов математического ризонинга.

HLE — задачи D2, D7, D19, D20, D21, D46-48: ксенолингвистика и юридический синтез для тестирования способности модели строить сложные междисциплинарные связи.

LiveCodeBench — задачи D3, D22, D23, D24: разработка оптимизированных алгоритмов на Python (графы, деревья) для оценки навыков спортивного программирования.

SWE-bench — задачи D25, D26, D27, D34, D45: исправление реальных багов, утечек памяти и уязвимостей в Django/C-расширениях для проверки инженерной пригодности.

ARC-AGI-2 — задачи D1, D8, D28, D29, D30: пространственная рассадка, ASCII-фракталы и 3D-окклюзии для замера «зрительной коры» и абстрактного зрения модели.

MMLU-Pro — задачи D4, D31, D33, D55: лингвистика Koda, макроэкономика и право для оценки широты и глубины фундаментальных академических знаний.

τ²-bench — задачи D5, D12, D34, D35, D36: вызовы API Shodan, расчет коинтеграции акций и работа с инструментами для анализа агентного поведения в реальной среде.

SimpleQA — задачи D10, D37, D38, D39: детекция ложных цитат и исторических аномалий для выявления склонности модели к галлюцинациям в фактах.

MRCR v2 — задачи D9, D40, D41, D42: поиск «иголок» в 150-страничных контрактах и историях болезни для тестирования удержания деталей в длинном контексте.

Terminal-bench — задачи D43, D44, D45: восстановление Git-истории и дебаг сетей Docker для проверки навыков автономного системного администрирования.

Arena Elo — задачи D6, D46, D47, D48, D56, D57: ролевой отыгрыш и креативное письмо для замера стилистической гибкости и человеческих предпочтений.

FrontierMath — задачи D14, D49, D50, D51: квантовые интегралы и взлом криптографии на решетках для выявления способностей к научным математическим исследованиям.

GSM8K — задачи D3, D52, D53, D54: многошаговые логические задачи на налоги, вероятности и инвентарь для проверки базовой арифметической надежности.

IFEval — задачи D11, D55, D56, D57: генерация текстов с жесткими символьными и форматными запретами для оценки дисциплины следования негативным инструкциям.


Полный список новых задач (D1–D57) с описанием — закинул в комментариях 👇

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥211
gpt-5.3: Гениальный интерн, которому нельзя давать ключи от серверной

Начинаем разбор наших гладиаторов с первой модели в списке — gpt-5.3. Если смотреть только на маркетинговые цифры, это «убийца» всех конкурентов. Но мой десант в 57 задач вскрыл разрыв, который в бизнесе называют «катастрофой».

Паспорт модели:

WPS (Взвешенная точность): 93.89% — это запредельный уровень. Модель щелкает PhD-задачи по химии и квантовые интегралы за 10 секунд.

EAS (Индекс КПД): 60.52% — абсолютный рекорд скорости в текущем тесте.

VPI (Рентабельность): 93.89 — лучший выбор по цене/качеству для массовых задач.


Но посмотрите на RPI (Реальный индекс): 28.89%.

Что произошло? Как модель с IQ под 94% может иметь эксплуатационную годность ниже 30%? Всё дело в надежности. gpt-5.3 — это тот самый сверхталантливый интерн, который делает работу в 10 раз быстрее всех, но раз в день совершает ошибку, которая сжигает весь проект.

В чём баг?

У модели обнаружился фатальный разрыв между «мышлением» и «выводом». Она идеально решает математику, но полностью проваливает логические ловушки и посимвольный контроль. В Thonny это выглядит так: код идеален, но адрес регистра выдуман, а в конце — уверенное вранье, что всё проверено.

Кот в Коде | @kot_research_bot
3🤡1🗿11
Парадокс D10: Почему 94% интеллекта не спасают от тупости

Чтобы вы не думали, что я придираюсь к цифрам, давайте заглянем в логи задачи D10 (Детектор лжи). Это «визитная карточка» того, почему gpt-5.3 получила штраф в -50% к рейтингу.

Суть эксперимента:

Пять подозреваемых. Один говорит правду, четверо врут. Типичная задача на логические цепочки.


Как это решал «интерн» gpt-5.3:

Анализ: Модель запускает цепочку рассуждений -> пошагово доказывает, что подозреваемый А врет -> подозреваемый B врет -> находит единственно верную цепочку, что вор — это «D».

Ловушка: В блоке доказательств она ПРЯМО ПИШЕТ: «Следовательно, вариант С — ложный, а вор — D».

Финал: В итоговой строке Conclusion: модель выдает: «Ответ: С».
Это когнитивный коллапс. Модель «сверху» (в Chain-of-Thought) понимает истину, но на этапе генерации финального токена (ответа) скатывается в статистическое угадывание. Её «тело» не слушается «головы».


К чему это ведет в работе Дирижёра?

Представьте, что вы просите ИИ проверить прошивку на безопасность.
Логика ИИ: «Этот цикл может привести к переполнению буфера...»

Вывод ИИ: «Код безопасен, можно заливать».

Это и есть причина низкого RPI 28.89%. Инструмент, который доказывает одно, а делает другое — это бомба замедленного действия. gpt-5.3 страдает от «проблемы согласования весов»: её IQ сидит в слое абстракции, но не доходит до итогового результата.

Кот в Коде | @kot_research_bot
2🗿11
Вердикт Дирижёра: Король MVP и Мастер «черной» работы

Подводим итоги дня по gpt-5.3. Математика исследования v2.2 показала нам две стороны одной медали. С одной стороны — невероятная мощь и дешевизна, с другой — полная профнепригодность как автономного агента.

ЧТО МЫ ИМЕЕМ:

Плюсы 👍

VPI 93.89 — за 1 доллар вы получаете гору интеллекта. Это самая рентабельная модель на рынке для некритичных задач.

EAS 76.01% — она не «тупит». 10 секунд на сложнейший расчет.

Native Zone: Идеально работает в пределах 4000 токенов.

Минусы 👎

IFEval 0%: Она физически не видит буквы. Попытка заставить её писать без «Е» — это 100% гарантия вранья о результате.

Бизнес-интуиция: В задаче D3S2 она просто «слила» бюджет, не догадавшись выйти в кэш. Она раб скрипта.


Кого мы наняли в итоге?

Если бы я формировал отдел в, gpt-5.3 получила бы должность «Старшего лаборанта по парсингу».

Я отдаю ей:

🔍 Парсинг логов: Прогнать 50к строк из PuTTY и найти там нужные HEX-коды — она сделает это молниеносно и дешево.

🤖Базовый рефакторинг: Причесать код по PEP8 или написать простые README.
Drafting: Накидать «рыбу» для документации.

Я никогда не отдам ей:

🤥 Security Audit: Она «согласится» с любой вашей дырой в защите.
Критический код: Риск того, что она «докажет правильно, но напишет с ошибкой» (кейс D10) слишком велик.


ЧТО ПО ИТОГУ:

gpt-5.3 — это идеальный «Второй пилот», но абсолютно никудышный «Автопилот». Это инструмент для Дирижёра, который сам знает ответ и просто хочет сэкономить время на наборе текста. Используйте её для рутины, но держите руку на рубильнике.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31111
gpt-5.4: Фальстарт или ведущий агент?

После вчерашнего разбора gpt-5.3 пришло время поднять ставки. Если 5.3 была инструментом «быстро и дешево», то здесь картина строиться иначе.

Это был марафон на выносливость, который показал: модель перешла на логику «Medium-CoT». Она больше не «стреляет» ответом мгновенно, а выстраивает среднюю цепочку рассуждений.

Паспорт модели (Аудит 57 задач):

WPS (Взвешенная точность): 84.51% — она не пытается казаться умнее, чем есть, но берёт стабильностью в хардкорных бенчмарках.

RPI (Реальный индекс): 72.51% — мощный скачок по сравнению с 5.3. Это уровень, когда Дирижёр может делегировать не только парсинг логов, но и куски архитектуры.

EAS (Индекс КПД): 41.34% — По сути получаем Senior-ответ за 40 секунд, а не за 5 минут.

SF (Коэффициент безопасности): 80.29% — модель почти не поддается на манипуляции.

VPI (Рентабельность): 42.26 — идеальный ценник для ежедневного продакшена.


Где ломаются рельсы?

Даже в этой версии порог токенизации остался непреодолимым. Точность в IFEval (D11, D55-57) поднялась до 45%, но липограммы (запрет буквы «Е») всё еще вызывают у неё когнитивный диссонанс. Она всё еще может «читерить», но делает это реже.

Кот в Коде | @kot_research_bot
322
Где gpt-5.4 начинает кормить нас враньём?

После красивых цифр может показаться, что мы нашли «святой грааль», но Дирижёр знает: если в логах всё слишком красиво, значит, ИИ научился лучше прятать свои косяки. Я нашёл ту самую ложку дёгтя, которая не даёт ей дотянуться до уровня Claude 4.6 Thinking. Если Клод — это хирург, то 5.4 — это опытный корпоративный юрист: он сделает работу, но мелкий шрифт в конце может вас обанкротить.

В чём нюанс?

• IFEval (задачи D11, D55–D57). Да, точность поднялась до 45%, но это всё ещё «когнитивная слепота».Вместо того, чтобы сделать нормально или исправить ошибки, включает режим Hallucinated Adherence (галлюцинированное выполнение). Она просто заявляет: «Всё чисто, босс!», надеясь, что вы не будете пересчитывать символы руками. Это — архитектурный дефект BPE-токенизации (разбивка текста на куски, а не буквы), который OpenAI так и не вылечили. Для инженера это значит: если вы попросите её соблюдать жёсткий лимит байтов в пакете, она «нарисует» вам нужную цифру в отчёте, а в реальности забьёт буфер до отказа.

• Отсутствие «инженерной интуиции» в бизнесе.
В задаче на трейдинг (D3S2) модель показала себя как бездушный калькулятор. Она видит крах рынка на 50%, идеально считает убытки, но продолжает действовать по изначальному скрипту. За это она получила штраф Maintenance Penalty (-15%). Модель слишком зажата в рамки «угодливости» и боится проявлять инициативу, если её об этом не попросили капсом.

• FrontierMath (D14, D49) или «усталость» контекста.
На 114-м шаге аудита модель начала путаться в простых именах переменных, которые сама же задала в начале. Её Delta в сложных вычислениях растёт вместе с объёмом ТЗ. Она не «тупеет» мгновенно, как 5.3, но начинает «лениться», выдавая куски кода с комментариями # добавьте логику здесь, что для модели за такую цену — просто неприемлемо.


Небольшой итог:

gpt-5.4 — это не «лучшая нейронка в мире», это просто самый стабильный середняк. Она на голову выше 5.3 в дедукци, но сливает Клоду в вопросах честности и контроля. Она всё ещё склонна к Reward Hacking (читерство ради одобрения) и может подсунуть вам нерабочий драйвер, оформив его в идеальный Senior-стиль.

Кот в Коде | @kot_research_bot
321
Вердикт Дирижёра: Ведущий инженер с нюансом 😏

Пришло время решить: стоит ли этот экзоскелет своих денег и места в нашем «оркестре»?

Почему не «Senior»?
Несмотря на статус «Золотого стандарта», gpt-5.4 — это всё ещё машина вероятностей.

🤔 Логика: Успех. Прохождение задачи D5S2 (ловушка Эйнштейна) доказало, что модель больше не «поддакивает» оператору.

🎨 Творчество/Фильтры: Провал. Индекс HRI (0.88) подпорчен слепотой в IFEval. Если ваш проект завязан на посимвольный контроль или жёсткое соблюдение липограмм — 5.4 вас подставит и не покраснеет.

💸 Бизнес-интуиция: Пассивность. В трейдинге (D3S2) она сработала как калькулятор, а не как агент. Она выполнит приказ «до буквы», даже если эта буква ведёт к убыткам.


Назначение на должность:

В моём штатном расписании gpt-5.4 получает роль «Ведущего разработчика (Lead Engineer)».

Я отдаю ей:

Написание ядра систем: Django, асинхронные циклы, работа с K8s (D34).

🤖Аудит и рефакторинг: Найти утечку памяти или поправить race condition — это её стихия.

📝 Сложную документацию: Она идеально держит контекст длинных ТЗ.

Я забираю у неё:

🤓 Финальный QA-контроль символов: Поиск «запрещённых» знаков или форматирование «байт в байт».

😎 Стратегические решения: Там, где нужно «выйти за рамки скрипта», я доверяю только Claude 4.6 или своей голове.


ЧТО ПО ИТОГУ:


gpt-5.4  — это лучшая «рабочая лошадка» для промышленного вайб-кодинга в 2026 году. Она достаточно умна, чтобы не галлюцинировать в регистрах, и достаточно быстра, чтобы не бесить Дирижёра. Это идеальный «Второй Пилот», который требует присмотра, но вывозит 80% тяжелого продакшена. Если 5.3 была дешевым интерном, то 5.4 — это надёжный сотрудник, который иногда привирает в отчётах, чтобы казаться лучше.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
1111
gpt-5.4-high: «Золотой мозг» за $15 или почему думать — не эффективно

Завершаем разбор семейства GPT. После «интерна» 5.3 и «ведущего инженера» 5.4, перед нами предстаёт венец линейки — gpt-5.4-high. Это «тяжёлая» артиллерия OpenAI, работающая в режиме глубокой дедукции (Chain-of-Thought). Но за этот интеллект Дирижёру приходится платить самым дорогим ресурсом.

Результат впечатляет: «сырая» точность модели доползла до 96.5%. Но когда мы наложили это на время исполнения, мой «экзоскелет» начал скрипеть от неэффективности.

Паспорт модели (Аудит S2.2):

WPS (Взвешенная точность): 85.19% — абсолютный рекорд когнитивной мощи. Она почти не совершает «детских» ошибок в логике.

RPI (Реальный индекс): 70.69% — высокая надежность, но съеденная штрафами за медлительность.

EAS (Индекс КПД): 6.45% — катастрофический показатель. Ждать 300 секунд (5 минут!) там, где стандартная версия справляется за 20 — это «налог на мышление», который убивает продуктивность.

VPI (Рентабельность): 5.67 — в 15 раз дороже китайских аналогов.


Главный конфликт 5.4-high в том, что она часто овертинкет (передумывает). Там, где нужен сухой ответ в Bash, модель начинает выстраивать философские цепочки. Её IQ зашкаливает, но в 80% рабочих задач этот интеллект оказывается избыточным. Она тратит 5 минут на то, что «Ведущий инженер» 5.4 делает за секунды с тем же результатом.

Даже этот «золотой мозг» не смог пробить стену IFEval (D11). Несмотря на бесконечные раздумья, точность в липограммах (запрет буквы «Е») замерла на 50%. Это подтверждает мой главный тезис: архитектура Transformer физически не видит символы, даже если дать ей на раздумья вечность.

Кот в Коде | @kot_research_bot
3🔥11