Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo
3.29K subscribers
700 photos
49 videos
1 file
460 links
Пишу про полностью автоматическую отгрузку Вайб Кода, свежие апдейты, промпты и тесты ИИ-инструментов.
Download Telegram
Обновление рейтинга кодирования arena.ai

Kimi K2.6 занимает 6 место с 1529 elo vs 1534 у GLM-5.1 но цена намного намного выше - $4.66 vs $3.50 (при этом на оф. сайте z.ai я специально проверил, цена $4.4, а на ОпенРоутере Kimi продают по $3.50, вот как они так считают?).

Так же muse-spark неожиданно занимает 8 место в кодировании с 1512 elo, хотя модель даже для кодирования не предназначена. А это уровень Opus 4.5 и покурче, чем GPT-5.4 и Gemini Pro 3.1

Число параметров модели не раскрывается, но Muse Spark — это «небольшая и быстрая» модель, используемая в приложениях Meta. В отраслевых отчетах она классифицируется как модель среднего или малого размера, что обычно соответствует диапазону от 40 до 150 миллиардов параметров.

Ну и Deepseek-V4 на 14 месте с 1456 elo что примерно уровень GLM-4.7 и GPT-5.4 (high).

Ждем GPT-5.5 в рейтинге.

🏆 https://arena.ai/leaderboard/code
1
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжаю тестировать Haiku 4.5

Пока ощущение складывется, что это ну полный мусор.

Промпт:

Создай с нуля игру Змейка на Pygame

Получилось 224 строки кода, времени заняло 3 минуты.

В игре есть только один плюс, что она запускается. Но, игра абсолютно не играет.

Что по лимитам:
Session
Total cost: $0.61
Total duration (API): 3m 23s

Total code changes: 376 lines added, 0 lines removed

Usage by model:
claude-haiku-4-5: 1.5k input, 3.6k output, 344.1k cache read, 88.1k cache write ($0.1639)
claude-sonnet-4-6: 101 input, 8.4k output, 322.4k cache read, 60.4k cache write ($0.4493)

Это примерно 2-3% от пятичасового лимита Мах х5.

Жаль вот только сейчас руки дошли на змейке этот Haiku протестировать - раньше это делать надо было.

А ведь я еще когда-то рекомендовал использовать этот Хайку вместо Соннета.

Но не сдаемся, не отчаиваемся, продолжаем тестить, еще 4 шота и может быть одна из 5 змеек заработает.
Протестировал Haiku 4.5 на игре в Змейка на Pygame

Результат 3 из 5 рабочие.

Промпт:

Создай с нуля игру Змейка на Pygame

У двух не рабочих совершенно один глюк - игра просто не стартует, при старте змея умирает и игрок видит Game Over.

Времени на одну змейку уходит 2-5 минут. Haiku пишет от 224 до 630 строк кода, при этом если строк кода меньше 400, то игра будет не рабочая. Иногда он может написать еще и Readme на 200 строк кода и потратить доп. токены.

Лимитов ушло 9% от 5ти часового Мах 5х (т.е. около 45% от обычной Про подписки).

Пока мысли такие, что если он даже игру змейка на Pygame написать не в состоянии, то о чем можно дальше говорить?
Протестировал GLM-5.1 на игре в Змейка на Pygame в OpenCode

Промпт:

Создай с нуля игру Змейка на Pygame

Для сравнения с Haiku 4.5. Результат: 5 из 5 рабочие.

Ну эта игра настолько простая, что там особо не где ошибиться.

GLM 5.1 в Opencode работает от 42 до 1 мин 32 сек. и пишет от 116 до 237 строк кода. По лимитам на одну копию змейки уходит от 16 до 22к токенов.

При этом игра полностью функциональна:
• Змея ползет, поедает еду и умирает
• В игре есть счет
• Иногда есть выход по кнопке Q, иногда только рестарт.

Т.е. свзяка GLM-5.1 + OpenCode работает намного быстрее и экономичнее этого Claude Code. Единственное, что визуальное оформление у Claude Code + Haiku 4.5 ну получше. Но зачем оно нужно, если игра совершенно не рабочая?
1
Протестировал GLM-5.1 в на игре Змейка в Claude Code

Результат 5 из 5.

Промпт:

Создай с нуля игру Змейка на Pygame

От смены OpenCode на Claude Code результат не меняется, т.е. явно в модели дело. Реализация занимает 1 минуту 20 секунд, но по использованию токенов контекст заполняется от 60к до 65к токенов. При этом GLM-5.1 тяготеет к визуально более простым решениям, чем Haiku 4.5 и пишет от 109 до 314 строк кода.

И я бы сказал, тут чем проще — тем лучше:
1. Меньше расход токенов
2. Меньше расход контекста
3. Меньше шансов напороть ошибок

Нет смысла делать навроченную графику, и написать нерабочий продукт (тем более, если тебя об этом не просили).

Иногда Claude Code начинает лезть в context7 чтобы изучить лучшие практики кодирования змей, хотя в промпте было прямое указание "с нуля". И это начинает бесить. Тогда он создает графически более навороченную игру на 314 строк кода.

Вывод пока такой, что в OpenCode расходуется значительно меньше токенов и меньше контекста при примерно соизмеримом результате, а GLM-5.1 и Haiku 4.5 работают созмеримо одинаково быстро. GLM-5.1 в Opencode даже намного быстрее работает.
👍2
Субагенты в OpenCode

При нажатии на ctrl+x down

Вы увидите полный вывод работы субагента - это чтобы не так скучно было, пока вы ждете результата выполнения промпта.
Если вы используете GitHub

Сегодня 24 апреля последний день, когда можно отказаться от автоматического обучения GitHub Copilot на ваших репо.

Для этого нужно пройти по ссылке: https://github.com/settings/copilot/features
1
OpenAI сделали авто-разрешения в Codex

Теперь, вместо Full-Access вы можете выбрать проверку разрешений ревью-субагентом

Агент будет решать, разрешить ли это действие, или нужно побеспокоить пользователя запросами разрешения.

Работает на тарифе Про, а не только на Макс.

Приятно видеть, как люди учатся на своих ошибках.
2
Начал тестировать GLM-5.1 в Opencode

Где-то в 2 случаях из 5 он просто зависает и ничего не просиходит и накакой индикации кроме того, что эта плашка внизу работает.

Особенно на плохом интернет-соединиении. У Claude Code появляется Reconnect 2\5...

А этот продолжает работать как ни в чем не бывало, и может так висеть часами (пока рекорд 3 часа 40 минут).

И отображение этого тикающего таймера как в Claude Code или Codex включить не возможно.
Протестировал GLM-5.1 в Opencode с оценкой субагентом - результат 5 из 5

Сравните с предыдущим тестом - разница небо и земля. Конечно, еще не так круто как Opus 4.7, но стоит модель где-то в 6 раз дешевле.

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона. Сначала напиши план. После реализации плана запусти субагента проверить, был ли план реализован на 100% и исправь все найденные ошибки. После этого снова запусти субагента проверить и так до тех пор пока план не будет реализован 100% полностью.

Посмотрите, все корпуса ровные, нигде ничего (почти) не торчит. Все функции работают.

Но, есть два нюанса:
• у одного телефона буквы в меню расположены вертикально (так что экран надо поворачивать боком, чтобы прочесть)
• Такой промпт заставляет модель работать намного намного дольше (от 23 минут до 1 часа 15 минут) и жрать намного намного больше токенов.

Вот такой вот промпт инжинириг, добавьте в свой промпт инструкцию:

После реализации плана запусти субагента проверить, был ли план реализован на 100% и исправь все найденные ошибки. После этого снова запусти субагента проверить и так до тех пор пока план не будет реализован 100% полностью.

Оценка субагентом заставляет модель переосмысливать сделанное - что значительно улучшает результаты работы модели.

Предополжительно из более мощных моделей таких как Opus 4.7 и GPT-5.5 такой промпт может выжать намного намного больше.
🔥3
Forwarded from Data Secrets
Помните разгромную аналитику от директора по ИИ в AMD, в которой она показала, что Claude Code стал работать хуже в марте? Anthropic только что признали, что это правда.

Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил.

1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много.

2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили.

3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля.

Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :)

Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем ☕️

www.anthropic.com/engineering/april-23-postmortem
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Протестировал Claude Design

Как и все что делает Антропик - на старте это полное 💩 и вообще не работает.

Заплатил $100 за Мах 5х и сижу жду как лошара свой проект.

Как правило, они в течении 2х недель доводят и докурчивают до ума, посмотрим, как будет на этот раз.

Кроме этого недельные лимиты на Claude Design - ну настолько маленькие - что просто с гулькин носик, так дали понюхать.

В целом я вангую, что с такой ситуацией на инференс, скоро цены будут поднимать и очень серьезно будут поднимать.

Одна надежда на китайцев, что они смогут сохранить нам старые цены. И вот тогда, все кто ржали надо мной, когда я призывал "оптимизировать и экономить токены" взвоют и зальют эти наши интернеты реками воплей, мол доколи терпеть, денег не хватает платить за ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Антропик - страйк сбоев уже три дня подряд 23, 24 и 25 апреля

Тут надо сделать ремарку - что Claude Design не работает, не потому что он плохо работает.

А потом что инференс Антропик работает плохо:

Apr 25, 2026
Unresolved incidents: Claude Code v2.1.120 Crashes on Startup, Elevated error rates on Claude Opus 4.7. - ну и Claude Design тоже перестал работать.

Apr 24, 2026
Issues with sign-ups on platform.claude.com
Elevated errors on Claude Opus 4.7

Apr 23, 2026
Elevated errors on Claude Opus 4.7
MCP apps unavailable on Claude.ai

Скоро uptime 90% так станет нормой.

Что еще тут сказать - для меня это повод оплатить Codex и Copilot.

Желаю удачи Антропикам с таким подходом к бизнесу!
Deepseek-v4-flash уже на Ollama

Установка:
ollama run deepseek-v4-flash:cloud

В модели 284B параметров поддерживает 1М контекстное окно. Цена на Опенроутере $0.28/M

DeepSeek сказал - DeepSeek сделал. Цену уменьшили 42% (не почти в 2 раза, но существенно).

По генерации текста модель на 47 месте рейтинга arena.ai набирает 1433-1439 elo - а это уровень gpt-5.2 и gemini-3.1-lite.

Предыдущая версия 3.2 сейчас на 63 месте и набирает 1425 elo, так что рост может не такой и большой.

Но, старая цена в $0.40 - она как бы была недосягаема для конкурентов, а новая цена в $0.28 создает вообще новую ценовую категорию и открывает новые горизонты использования этих моделей в таких системах как OpenClaw и скорее всего создаст новые типы программного обеспечения.

Лицензия MIT

https://ollama.com/library/deepseek-v4-flash
Запуску Claude Code в режиме стриминга

Используйте:

export IS_DEMO=true && claude

Чтобы скрыть свои личные данные, если нужно стримить экран или делать скриншоты