Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

Ребят, кто ждете результатов по GLM-5.1

Плохо ждете, но еще есть шанс перегословоать )))

Кстати, при таких бенчах его уже надо выставлять против чемпиона arena.ai

GLM-5.1 vs Opus 4.6 - бой в сверхтяжелом весе на звание чемпиона вайб кодирования.

Спойлер: По моим предыдущим скриншотам, вы можете догадаться, что я уже чутка потестил GLM-5.1 и результат меня не очень поразил. Поэтому нужно его уже выставлять против Опуса, потому что разница в цене ну в 5 раз... это очень много.

🔥2

294 viewsedited 05:03

Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

Протестировал GLM-5.1

Особой разницы между GLM-5.1 и GLM-5.1 мой тест не находит. Оба набирают по 4 балла из 5, но есть нюансы.

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

Работает ну очень долго:

• Планирование где-то 2 минуты 30 сек. Иногда вопросы задает, иногда не задает (я так догадываюсь, это зависит от тренированности модели использования тулс)
• Реализация 8 минут 53 сек. минимум, а то все 15 минут и дольше. Иногда просто вырубается и ничего не делает, надо писать "продолжи", чтобы снова начал делать.

Но в тесте GLM-5 я уже жаловался на скорость работы, в последтсвии это поправили и сейчас работает намного быстрее и стабильнее, чем при старте инференса.

Корпусы телефонов ровные, 4 из 5, как и у GLM-5.1 (один из экранов вылазит за пределы корпуса)

У одного телефона все шрифты, они не то что вверх ногами они повернуты боком (показал на скриншоте), так что прочитать что написано в меню вообще не возможно.

У одного телефона из 5 не работают смс, поэтому 4 балла из 5.

Будем ли тестировать в CludeCode? Наверное нет, я заметил, что на телефонах с игрой змейка, эти китайские модели в OpenCode лучше себя показывают, так что потратим время на что-то более полезное.

291 views06:04

Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

Протестированы все, больше новых моделей вроде не осталось

287 views06:16

Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

Please open Telegram to view this post

VIEW IN TELEGRAM

285 views06:19

Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

Мне тут подписчики подсказывают, что вышла новая модель Muse Spark

Давайте пока вместо тестирования мои мысли

1. Meta - они новички в кодировании, поэтому странно ждать от этой модели сильных результатов в кодировании. Были какие-то неудачные попытки делать Code LLama, но на текущий момент можно признать их провальными.

2. Мета сами пишут: Muse Spark демонстрирует конкурентоспособные результаты в задачах многомодального восприятия, рассуждения, здравоохранения и управления агентами, т.е. оринтирована больше на бенчим мультимодальности и на HLE, нежали на стандартные SWE Bench и Terminal Bench.

3. Есть какой-то LiveCodeBench Pro но я такой бенч не знаю, поэтому не могу ничего сказать. Но, в этом бенче модель всех разрывает.

В общем:
• моделька явно интересная для OpenClaw
• подождем, что скажут другие блогеры

Сейчас есть что тестировать, спойлеры:

1. orba/superpowers
2.

GLM-5.1 vs Opus 4.6

Как Антропики нам показали, что можно добиться крутых результатов в кодировании, если сфокусироваться, то и нам тоже надо фокусироваться на чем-то одном.

https://ai.meta.com/blog/introducing-muse-spark-msl/

😁2

288 viewsedited 06:31

Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

0:47

Media is too big

VIEW IN TELEGRAM

Ребята, ребята, посмотрите, какую игру в Змейку создал Opus 4.6

Да это просто небо и змеля по сравнению с тем что делаюет эти китайские десситиляты.

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

1. Телефон стартует не из меню, а реально с экрана на котором часы и информация.
2. Сообщения отправлюятся с анимацией.
3. Все нажатия кнопочек со звуком.

Уровень детализации намного круче того, что делают китайцы.

🔥6

286 viewsedited 09:18

Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

Протестировал Opus 4.6

Да, я раньше его не тестировал, потому что дорого! Оценка 5* из 5 (со звездочкой), ну а вы чего ожидали?

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

Это, как писал ранее, Opus 4.6 даже рядом нельзя сравнивать сравнивать с этими китайскими поделками, они берут дешевизной, а не качеством.

1. Все аппраты ровные, нигде ничего не торчит.
2. Все работает идеально - придраться не к чему.
3. Мелодия играет всегда Нокия Тюн (Grande Valse)
4. Змейка стилизована под Нокию, а не взята классическая "pygame".
5. Во всех аппаратах отправлюятся сообщения!

* Все вот эти анимации и мелочи - которые я не заказывал, но он сделал - это все очень и очень круто! Таким образом, со звездочкой - потому что Opus делает намного намного круче того уровня, который показывают китайцы и Cursor.

Откуда такие крутые результаты?

Дело в том, что у Claude Code в инструкции стоит тестирование по умолчанию. И Клод Код его тестирует своим нативным Хром плагином и он физически визуально видит все, что косо и криво.

А что по скорости работы?

Планирование: 2 минуты
Реализация: от 6 до 15 минут.

Какой был режим?
Тут есть нюанс, что я недавно установил себе superpowers и если его не отключать, то он включается автоматически, поэтому я выключил суперпаверс и тестировал в нативном режиме Plan -> Act. /effort стоит по умолчанию на medium.

И еще нюанс, что например z.ai ограничивают число потоков для GLM-5.1

А что по лимитам? Сколько токенов-то ушло?

Ну готовьтесь:
На каждый аппарат примерно по 1 Про 5-ти часовому лимиту. Т.е. на все 5 аппаратов ушло около одного пятичасового тарифа Макс за $100

👍2😁2

315 views09:24

Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

Тут по чатам гуляет инфа что Опус дескать понерфили

Ну понерфили и понерфили мне как-то пофигу вообще на это, я разницы с понерфеной и не понерфеной версии вообще не вижу. Не стоит принимать на веру все, что пишут в чатах, даже если я. Я живой человек и тоже ошибаюсь. Делайте свои тесты - получайте свой собственный опыт.

Ребята, ведь всех нас интересует вопрос, какую модель лучше использовать в кодировании, и стотит ли этот Опус свои ~~$75~~ $25 за миллион токенов. Да, еще не так давно Опус 75 баксов стоил.

Я протестировал огромное количество всех этих моделей от GPT 4.1 до Opus 4.6, потратил кучу времени, что бы вам не только написать, но и показать - оно того стоит!

А если вы видите - то напишите в комменты свои тесты:
1. Вот дескать мои тесты до нерфа
2. А вот после нерфа

Думаю всем будет интересно почитать. Мне особенно интересно, что у вас за тесты.

Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

Подписчик несколько раз прислал ссылку на видео, со словами "Вот какие задания нужно использовать в тестах"

Чтож, спасибо за видео! Теперь когда я сам протестировал Кими, могу дать развернутый ответ!

У меня конечно сильно пригорело, что автор сравнивает…

5🔥5

352 viewsedited 09:47

Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

Как создать свой маркетплейс плагинов для Claude Code и главное зачем?

Что такое маркетплейс

Это обычный публичный GitHub-репозиторий с определённой структурой папок. Claude Code умеет подключаться к таким репозиториям и устанавливать плагины из них одной командой.

Зачем это нужно

- Для себя — хранить свои скиллы в одном месте и переносить между проектами. Но главное, что вы не сможете нативно установить свой собственный плагин без своего маркетплейса.
- Для команды — стандартизировать рабочие процессы и делиться лучшими практиками.
- Для опенсорса — публиковать полезные скиллы для сообщества.

Структура такого репо:

  my-marketplace/                                                                                                                                                                                                    
  ├── .claude-plugin/                                                                                                                                                                                                
  │   └── marketplace.json
  ├── plugins/                                                                                                                                                                                                       
  │   └── my-plugin/                                                                                                                                                                                                 
  │       ├── .claude-plugin/                                                                                                                                                                                        
  │       │   └── plugin.json                                                                                                                                                                                        
  │       └── skills/                                                                                                                                                                                                
  │           └── my-skill.md
  └── README.md

Как это работает

Один JSON-файл, который перечисляет все плагины маркетплейса с описаниями и тегами. Пример

Публикуете — и любой пользователь Claude Code может подключить ваш маркетплейс и установить плагины.

Готовый пример с открытым кодом: https://github.com/etopro/plugin-marketplace

❤2

387 viewsedited 10:29

Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

Что тестируем дальше?

Anonymous Poll

Свой вариант, напишу в комментах

80 voters284 views08:30

Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

Посмотрите! Какую игрую в змейку создал GPT-5.4 - medium

Все функции, работают, но есть несколько но...

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

Тестировалось это все в Codex CLI - сначала план, потом реализация:

1. Дизайн фирменный GPTшный дизайн. Вы его ни с чем не перепутаете, по серо\серебристому корпусу, и зеленому экрану в клеточку. Специально записал видео во весь экран, чтобы показать, что аппарат настколько огромный, что даже не помещается в экране.
2. У телефона 2 меню. Одно меню на главном экране, второе при нажатии на любой пункт в первом меню 🙄

Больше нареканий нет, т.е. формально - это не блокирующий коммент аппарат полностью рабочий (змейка ползает, рингтон играет, смс отправляются!), но осадочек уже как бы остается... У Opus 4.6 таких приколов не было.

GPT-5.4-medium - работает довольно шустро. На планирование ушло 30 сек. На реализацию где-то 10 минут. Лимитов ушло 5% от дневного лимита.

1🔥3❤1

241 viewsedited 13:32

Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo

Протестировал GPT-5.4 - medium - результат 5 из 5

Я ж вам говорил, этот дизайн вы ни с чем не спутаете... результат 5 из 5 даже с medium thinking. Но, как обычно есть нюансы.

Промпт:

Создайте...

1. Все телефоны настолько курпные, что не влезают в экран.
2. Все аппараты ровные, экраны нигде не торчат за пределы корпуса (но если вы присмотритесь, некоторые клавиатуры кривые и косые).
3. Иногда он пишет туду список, иногда не пишет (не знаю, на что это влияет). Так же в режиме задавания вопросов, иногда он задает больше вопросов иногда меньше, так что имеет смысл написать: "задай мне как можно больше вопросов".

Больше у меня основных замечаний нет.

Но, есть дополнительные нюасны:
• В 2х змейках из 5 нет экрана гейм овер. Некоторые змейки стартуют только после нажатия на ок, что уже не канонично. (у китайцев таких приколов не было).
• У некоторых аппаратов отправлются смс (но не у всех).
• Видно, что он пыхтит и старается сделать Нокия Тюн, но только у 1 из 5 это реально Нокия Тюн.
• У последнего аппарата экран настолько пикселявый, что ничего не видно (у Опуса кстати, был аналогичный, но другой косяк).
• Если аппарат не стартует, возможно надо запусить веб сервер (я в этом еще не очень силен).

Выводы:

Мы видим, что создать телефон с игрой змейка, редактором смс и визуализатором мелодии для топовых американских моделей за 10 минут задача не сложная даже для среднего мышления с ван шота без тестирования (только нужен хотя бы нативный режим планирования).

Им не нужно объяснять, что "экран не должен торчать за пределы корпуса обязательно проверь".

GPT-5.4 делает намного-намного-намного дешевле Opus 4.6. Но, чисто субъективно, Opus 4.6 визуально делает на голову выше GPT-5.4, который в отличае от китайцев делает все ровно и аккуратно.

Так что:
Если у вас много свободного времени и для вас важна цена - китайские модели напишут вам кучу забагованного кода, (даже GLM-5.1), который вам потом долго тестировать.
Если у вас денег дофига - то американцы, делают все в 3-5 раз дороже и качественне, но тестировать все равно вам придется.

Тут такая делема, что по времени\деньгам? Написать доп. промпт "Экран не ровный исправь" (но это происходит в 20% случаев), или поставить на автопилот и не парится.

Что же по лимитам?

Как я писал ранее, на 1 аппарат уходит 5% обычного пятичасового лимита Плюс за $20. На все 5 аппаратов ушло 26% пятичасового лимита. Иногда он тратит 75% контекста, иногда 69%, иногда 79%. Вот 5% контекста - примерно 1% дневного лимита )

262 views14:30

About

Blog

Apps

Platform