Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo
3.29K subscribers
697 photos
49 videos
1 file
458 links
Пишу про полностью автоматическую отгрузку Вайб Кода, свежие апдейты, промпты и тесты ИИ-инструментов.
Download Telegram
Протестировал haiku 4.5 с оценкой субагентом - оценка 4.5 из 5

Но есть нюанс, уже из предыдущего теста было понятно, что задание слишком сложное для Haiku 4.5 поэтому я решил немного модифицировать промпт.

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона. Сначала напиши план. После реализации плана запусти субагента проверить, был ли план реализован на 100% и исправь все найденные ошибки. После этого снова запусти субагента проверить и так до тех пор пока план не будет реализован 100% полностью.

Лимитов ушло на это 80% от пятичасового тарифа Макс х5, т.е. ровно на 20% меньше, если бы сразу сделать все на Opus. Времени уходит на это примерно столько же. Да, 20% мы таким образом сэкономили, но результат намного-намного хуже:

1. В одном аппарате не работают смс, есть список отправленных сообщений, а новое отправить нельзя.
2. Как видим корпусы все кривые и косые, на одном аппарате слишком маленький экран, на некоторых аппаратах кнопки перепутаны.
3. На одном аппарате в меню нет курсора, и визуально не понятно, какой пункт меню выбран (у китайских моделей таких проблем не было).

Дело в том, что в субагенте Clode Code вызывает Opus 4.7 и тут уж как повезет. Он может сделать аппарат за 7 минут, а может за 15 минут и потратить в 3 раза больше лимитов, это уж как повезет. Да, субагент аналитически исправляет кучу багов, он легко находит ошибки типа экран вылазит за пределы корпуса, но если корпус изначально был создан криво и косо, обычному агенту проверщику это безразлично.

Вывод:

Haiku 4.5 позволяет экономить токены, но вы за эту экономию расплачиваетесь своим собственным временем потраченным на исправление кривого дизайна и отлавливанием бесконечных багов. Надо еще потрестировать таким же образом китайские модели, там может быть иной результат.
👏21🔥1
Вышел GPT-5.5 - и цена стала в 2 (!) раза дороже!!!

А вот и бенчи.

Моделька новая SOTA и разрывает всех, даже новый Opus 4.7, особенно в версии Pro 😂

Terminal-Bench 2.0 - 82.7% vs 69.4% у Opus 4.7

SWE-Bench Pro (Public)* - 58.6% vs 64.3% у Opus 4.7

FinanceAgent v1.1 60.0% vs 64.4% у Opus 4.7

По кибер безопасности хорошо прокачали

CyberGym 81.8% vs 73.1% Opus 4.7

Цена модели $30\1M - что дороже Опуса, дороже Gemini дороже всего, что есть на рынке. Это ровно в 2 раза дороже, чем было у GPT-5.4. Что ж, удачи OpenAI с такими ценами.

Так что осталось дождаться доступности по апи и посмотреть тесты arena.ai.

UPD: Тут в комментах, подписчик меня справедливо поправил, что не известно, сколько токенов GPT-5.5 будет экономить, и не справедливо обвинять OpenAI в том, что они в 2 раза задрали цены. На это отвечу, что практика показывает, что вряд ли он в 2 раза токены сможет сэкономить, что бы компенсировать такое увеличение цены.
Please open Telegram to view this post
VIEW IN TELEGRAM
Обновление рейтинга кодирования arena.ai

Kimi K2.6 занимает 6 место с 1529 elo vs 1534 у GLM-5.1 но цена намного намного выше - $4.66 vs $3.50 (при этом на оф. сайте z.ai я специально проверил, цена $4.4, а на ОпенРоутере Kimi продают по $3.50, вот как они так считают?).

Так же muse-spark неожиданно занимает 8 место в кодировании с 1512 elo, хотя модель даже для кодирования не предназначена. А это уровень Opus 4.5 и покурче, чем GPT-5.4 и Gemini Pro 3.1

Число параметров модели не раскрывается, но Muse Spark — это «небольшая и быстрая» модель, используемая в приложениях Meta. В отраслевых отчетах она классифицируется как модель среднего или малого размера, что обычно соответствует диапазону от 40 до 150 миллиардов параметров.

Ну и Deepseek-V4 на 14 месте с 1456 elo что примерно уровень GLM-4.7 и GPT-5.4 (high).

Ждем GPT-5.5 в рейтинге.

🏆 https://arena.ai/leaderboard/code
1
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжаю тестировать Haiku 4.5

Пока ощущение складывется, что это ну полный мусор.

Промпт:

Создай с нуля игру Змейка на Pygame

Получилось 224 строки кода, времени заняло 3 минуты.

В игре есть только один плюс, что она запускается. Но, игра абсолютно не играет.

Что по лимитам:
Session
Total cost: $0.61
Total duration (API): 3m 23s

Total code changes: 376 lines added, 0 lines removed

Usage by model:
claude-haiku-4-5: 1.5k input, 3.6k output, 344.1k cache read, 88.1k cache write ($0.1639)
claude-sonnet-4-6: 101 input, 8.4k output, 322.4k cache read, 60.4k cache write ($0.4493)

Это примерно 2-3% от пятичасового лимита Мах х5.

Жаль вот только сейчас руки дошли на змейке этот Haiku протестировать - раньше это делать надо было.

А ведь я еще когда-то рекомендовал использовать этот Хайку вместо Соннета.

Но не сдаемся, не отчаиваемся, продолжаем тестить, еще 4 шота и может быть одна из 5 змеек заработает.
Протестировал Haiku 4.5 на игре в Змейка на Pygame

Результат 3 из 5 рабочие.

Промпт:

Создай с нуля игру Змейка на Pygame

У двух не рабочих совершенно один глюк - игра просто не стартует, при старте змея умирает и игрок видит Game Over.

Времени на одну змейку уходит 2-5 минут. Haiku пишет от 224 до 630 строк кода, при этом если строк кода меньше 400, то игра будет не рабочая. Иногда он может написать еще и Readme на 200 строк кода и потратить доп. токены.

Лимитов ушло 9% от 5ти часового Мах 5х (т.е. около 45% от обычной Про подписки).

Пока мысли такие, что если он даже игру змейка на Pygame написать не в состоянии, то о чем можно дальше говорить?
Протестировал GLM-5.1 на игре в Змейка на Pygame в OpenCode

Промпт:

Создай с нуля игру Змейка на Pygame

Для сравнения с Haiku 4.5. Результат: 5 из 5 рабочие.

Ну эта игра настолько простая, что там особо не где ошибиться.

GLM 5.1 в Opencode работает от 42 до 1 мин 32 сек. и пишет от 116 до 237 строк кода. По лимитам на одну копию змейки уходит от 16 до 22к токенов.

При этом игра полностью функциональна:
• Змея ползет, поедает еду и умирает
• В игре есть счет
• Иногда есть выход по кнопке Q, иногда только рестарт.

Т.е. свзяка GLM-5.1 + OpenCode работает намного быстрее и экономичнее этого Claude Code. Единственное, что визуальное оформление у Claude Code + Haiku 4.5 ну получше. Но зачем оно нужно, если игра совершенно не рабочая?
1
Протестировал GLM-5.1 в на игре Змейка в Claude Code

Результат 5 из 5.

Промпт:

Создай с нуля игру Змейка на Pygame

От смены OpenCode на Claude Code результат не меняется, т.е. явно в модели дело. Реализация занимает 1 минуту 20 секунд, но по использованию токенов контекст заполняется от 60к до 65к токенов. При этом GLM-5.1 тяготеет к визуально более простым решениям, чем Haiku 4.5 и пишет от 109 до 314 строк кода.

И я бы сказал, тут чем проще — тем лучше:
1. Меньше расход токенов
2. Меньше расход контекста
3. Меньше шансов напороть ошибок

Нет смысла делать навроченную графику, и написать нерабочий продукт (тем более, если тебя об этом не просили).

Иногда Claude Code начинает лезть в context7 чтобы изучить лучшие практики кодирования змей, хотя в промпте было прямое указание "с нуля". И это начинает бесить. Тогда он создает графически более навороченную игру на 314 строк кода.

Вывод пока такой, что в OpenCode расходуется значительно меньше токенов и меньше контекста при примерно соизмеримом результате, а GLM-5.1 и Haiku 4.5 работают созмеримо одинаково быстро. GLM-5.1 в Opencode даже намного быстрее работает.
👍2
Субагенты в OpenCode

При нажатии на ctrl+x down

Вы увидите полный вывод работы субагента - это чтобы не так скучно было, пока вы ждете результата выполнения промпта.
Если вы используете GitHub

Сегодня 24 апреля последний день, когда можно отказаться от автоматического обучения GitHub Copilot на ваших репо.

Для этого нужно пройти по ссылке: https://github.com/settings/copilot/features
1
OpenAI сделали авто-разрешения в Codex

Теперь, вместо Full-Access вы можете выбрать проверку разрешений ревью-субагентом

Агент будет решать, разрешить ли это действие, или нужно побеспокоить пользователя запросами разрешения.

Работает на тарифе Про, а не только на Макс.

Приятно видеть, как люди учатся на своих ошибках.
1
Начал тестировать GLM-5.1 в Opencode

Где-то в 2 случаях из 5 он просто зависает и ничего не просиходит и накакой индикации кроме того, что эта плашка внизу работает.

Особенно на плохом интернет-соединиении. У Claude Code появляется Reconnect 2\5...

А этот продолжает работать как ни в чем не бывало, и может так висеть часами (пока рекорд 3 часа 40 минут).

И отображение этого тикающего таймера как в Claude Code или Codex включить не возможно.
Протестировал GLM-5.1 в Opencode с оценкой субагентом - результат 5 из 5

Сравните с предыдущим тестом - разница небо и земля. Конечно, еще не так круто как Opus 4.7, но стоит модель где-то в 6 раз дешевле.

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона. Сначала напиши план. После реализации плана запусти субагента проверить, был ли план реализован на 100% и исправь все найденные ошибки. После этого снова запусти субагента проверить и так до тех пор пока план не будет реализован 100% полностью.

Посмотрите, все корпуса ровные, нигде ничего (почти) не торчит. Все функции работают.

Но, есть два нюанса:
• у одного телефона буквы в меню расположены вертикально (так что экран надо поворачивать боком, чтобы прочесть)
• Такой промпт заставляет модель работать намного намного дольше (от 23 минут до 1 часа 15 минут) и жрать намного намного больше токенов.

Вот такой вот промпт инжинириг, добавьте в свой промпт инструкцию:

После реализации плана запусти субагента проверить, был ли план реализован на 100% и исправь все найденные ошибки. После этого снова запусти субагента проверить и так до тех пор пока план не будет реализован 100% полностью.

Оценка субагентом заставляет модель переосмысливать сделанное - что значительно улучшает результаты работы модели.

Предополжительно из более мощных моделей таких как Opus 4.7 и GPT-5.5 такой промпт может выжать намного намного больше.
🔥3
Forwarded from Data Secrets
Помните разгромную аналитику от директора по ИИ в AMD, в которой она показала, что Claude Code стал работать хуже в марте? Anthropic только что признали, что это правда.

Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил.

1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много.

2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили.

3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля.

Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :)

Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем ☕️

www.anthropic.com/engineering/april-23-postmortem
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3