Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo
3.11K subscribers
646 photos
41 videos
1 file
421 links
Пишу про полностью автоматическую отгрузку Вайб Кода, свежие апдейты, промпты и тесты ИИ-инструментов.
Download Telegram
Please open Telegram to view this post
VIEW IN TELEGRAM
Мне тут подписчики подсказывают, что вышла новая модель Muse Spark

Давайте пока вместо тестирования мои мысли

1. Meta - они новички в кодировании, поэтому странно ждать от этой модели сильных результатов в кодировании. Были какие-то неудачные попытки делать Code LLama, но на текущий момент можно признать их провальными.

2. Мета сами пишут: Muse Spark демонстрирует конкурентоспособные результаты в задачах многомодального восприятия, рассуждения, здравоохранения и управления агентами, т.е. оринтирована больше на бенчим мультимодальности и на HLE, нежали на стандартные SWE Bench и Terminal Bench.

3. Есть какой-то LiveCodeBench Pro но я такой бенч не знаю, поэтому не могу ничего сказать. Но, в этом бенче модель всех разрывает.

В общем:
• моделька явно интересная для OpenClaw
• подождем, что скажут другие блогеры

Сейчас есть что тестировать, спойлеры:
1. orba/superpowers
2.
GLM-5.1 vs Opus 4.6

Как Антропики нам показали, что можно добиться крутых результатов в кодировании, если сфокусироваться, то и нам тоже надо фокусироваться на чем-то одном.

https://ai.meta.com/blog/introducing-muse-spark-msl/
😁2
Media is too big
VIEW IN TELEGRAM
Ребята, ребята, посмотрите, какую игру в Змейку создал Opus 4.6

Да это просто небо и змеля по сравнению с тем что делаюет эти китайские десситиляты.

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

1. Телефон стартует не из меню, а реально с экрана на котором часы и информация.
2. Сообщения отправлюятся с анимацией.
3. Все нажатия кнопочек со звуком.

Уровень детализации намного круче того, что делают китайцы.
🔥6
Протестировал Opus 4.6

Да, я раньше его не тестировал, потому что дорого! Оценка 5* из 5 (со звездочкой), ну а вы чего ожидали?

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

Это, как писал ранее, Opus 4.6 даже рядом нельзя сравнивать сравнивать с этими китайскими поделками, они берут дешевизной, а не качеством.

1. Все аппраты ровные, нигде ничего не торчит.
2. Все работает идеально - придраться не к чему.
3. Мелодия играет всегда Нокия Тюн (Grande Valse)
4. Змейка стилизована под Нокию, а не взята классическая "pygame".
5. Во всех аппаратах отправлюятся сообщения!

* Все вот эти анимации и мелочи - которые я не заказывал, но он сделал - это все очень и очень круто! Таким образом, со звездочкой - потому что Opus делает намного намного круче того уровня, который показывают китайцы и Cursor.

Откуда такие крутые результаты?

Дело в том, что у Claude Code в инструкции стоит тестирование по умолчанию. И Клод Код его тестирует своим нативным Хром плагином и он физически визуально видит все, что косо и криво.

А что по скорости работы?

Планирование: 2 минуты
Реализация: от 6 до 15 минут.

Какой был режим?
Тут есть нюанс, что я недавно установил себе superpowers и если его не отключать, то он включается автоматически, поэтому я выключил суперпаверс и тестировал в нативном режиме Plan -> Act. /effort стоит по умолчанию на medium.

И еще нюанс, что например z.ai ограничивают число потоков для GLM-5.1

А что по лимитам? Сколько токенов-то ушло?

Ну готовьтесь:
На каждый аппарат примерно по 1 Про 5-ти часовому лимиту. Т.е. на все 5 аппаратов ушло около одного пятичасового тарифа Макс за $100
👍2😁2
Тут по чатам гуляет инфа что Опус дескать понерфили

Ну понерфили и понерфили мне как-то пофигу вообще на это, я разницы с понерфеной и не понерфеной версии вообще не вижу. Не стоит принимать на веру все, что пишут в чатах, даже если я. Я живой человек и тоже ошибаюсь. Делайте свои тесты - получайте свой собственный опыт.

Ребята, ведь всех нас интересует вопрос, какую модель лучше использовать в кодировании, и стотит ли этот Опус свои $75 $25 за миллион токенов. Да, еще не так давно Опус 75 баксов стоил.

Я протестировал огромное количество всех этих моделей от GPT 4.1 до Opus 4.6, потратил кучу времени, что бы вам не только написать, но и показать - оно того стоит!

А если вы видите - то напишите в комменты свои тесты:
1. Вот дескать мои тесты до нерфа
2. А вот после нерфа

Думаю всем будет интересно почитать. Мне особенно интересно, что у вас за тесты.
5🔥5
Как создать свой маркетплейс плагинов для Claude Code и главное зачем?

Что такое маркетплейс

Это обычный публичный GitHub-репозиторий с определённой структурой папок. Claude Code умеет подключаться к таким репозиториям и устанавливать плагины из них одной командой.

Зачем это нужно

- Для себя — хранить свои скиллы в одном месте и переносить между проектами. Но главное, что вы не сможете нативно установить свой собственный плагин без своего маркетплейса.
- Для команды — стандартизировать рабочие процессы и делиться лучшими практиками.
- Для опенсорса — публиковать полезные скиллы для сообщества.

Структура такого репо:

my-marketplace/
├── .claude-plugin/
│ └── marketplace.json
├── plugins/
│ └── my-plugin/
│ ├── .claude-plugin/
│ │ └── plugin.json
│ └── skills/
│ └── my-skill.md
└── README.md


Как это работает

Один JSON-файл, который перечисляет все плагины маркетплейса с описаниями и тегами. Пример

Публикуете — и любой пользователь Claude Code может подключить ваш маркетплейс и установить плагины.

Готовый пример с открытым кодом: https://github.com/etopro/plugin-marketplace
2
This media is not supported in your browser
VIEW IN TELEGRAM
Посмотрите! Какую игрую в змейку создал GPT-5.4 - medium

Все функции, работают, но есть несколько но...

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

Тестировалось это все в Codex CLI - сначала план, потом реализация:

1. Дизайн фирменный GPTшный дизайн. Вы его ни с чем не перепутаете, по серо\серебристому корпусу, и зеленому экрану в клеточку. Специально записал видео во весь экран, чтобы показать, что аппарат настколько огромный, что даже не помещается в экране.
2. У телефона 2 меню. Одно меню на главном экране, второе при нажатии на любой пункт в первом меню 🙄

Больше нареканий нет, т.е. формально - это не блокирующий коммент аппарат полностью рабочий (змейка ползает, рингтон играет, смс отправляются!), но осадочек уже как бы остается... У Opus 4.6 таких приколов не было.

GPT-5.4-medium - работает довольно шустро. На планирование ушло 30 сек. На реализацию где-то 10 минут. Лимитов ушло 5% от дневного лимита.
1🔥31
Протестировал GPT-5.4 - medium - результат 5 из 5

Я ж вам говорил, этот дизайн вы ни с чем не спутаете... результат 5 из 5 даже с medium thinking. Но, как обычно есть нюансы.

Промпт:

Создайте...

1. Все телефоны настолько курпные, что не влезают в экран.
2. Все аппараты ровные, экраны нигде не торчат за пределы корпуса (но если вы присмотритесь, некоторые клавиатуры кривые и косые).
3. Иногда он пишет туду список, иногда не пишет (не знаю, на что это влияет). Так же в режиме задавания вопросов, иногда он задает больше вопросов иногда меньше, так что имеет смысл написать: "задай мне как можно больше вопросов".

Больше у меня основных замечаний нет.

Но, есть дополнительные нюасны:
• В 2х змейках из 5 нет экрана гейм овер. Некоторые змейки стартуют только после нажатия на ок, что уже не канонично. (у китайцев таких приколов не было).
• У некоторых аппаратов отправлются смс (но не у всех).
• Видно, что он пыхтит и старается сделать Нокия Тюн, но только у 1 из 5 это реально Нокия Тюн.
• У последнего аппарата экран настолько пикселявый, что ничего не видно (у Опуса кстати, был аналогичный, но другой косяк).
• Если аппарат не стартует, возможно надо запусить веб сервер (я в этом еще не очень силен).

Выводы:

Мы видим, что создать телефон с игрой змейка, редактором смс и визуализатором мелодии для топовых американских моделей за 10 минут задача не сложная даже для среднего мышления с ван шота без тестирования (только нужен хотя бы нативный режим планирования).

Им не нужно объяснять, что "экран не должен торчать за пределы корпуса обязательно проверь".

GPT-5.4 делает намного-намного-намного дешевле Opus 4.6. Но, чисто субъективно, Opus 4.6 визуально делает на голову выше GPT-5.4, который в отличае от китайцев делает все ровно и аккуратно.

Так что:
Если у вас много свободного времени и для вас важна цена - китайские модели напишут вам кучу забагованного кода, (даже GLM-5.1), который вам потом долго тестировать.
Если у вас денег дофига - то американцы, делают все в 3-5 раз дороже и качественне, но тестировать все равно вам придется.

Тут такая делема, что по времени\деньгам? Написать доп. промпт "Экран не ровный исправь" (но это происходит в 20% случаев), или поставить на автопилот и не парится.

Что же по лимитам?

Как я писал ранее, на 1 аппарат уходит 5% обычного пятичасового лимита Плюс за $20. На все 5 аппаратов ушло 26% пятичасового лимита. Иногда он тратит 75% контекста, иногда 69%, иногда 79%. Вот 5% контекста - примерно 1% дневного лимита )
Какие-то итоги тестирования китацы vs американцы

1. Opus 4.6 и GPT 5.4 - 5 из 5 (стоят по $12-25 за 1M)
2. GLM5.1\5, Kimi K2.5, Composer 2 - 4-4.5 из 5 (стоят $2.2-4.4 за 1М)
3. Qwen 3.6, Minimax M2.7 и остальные 3 из 5
4. Устаревшие модели GPT-4.1 и др. 0 из 5

Как показывает практика, в таких простых задачах количество мышления особо на результат не влияет. Мышление влияет на число допускаемых ошибок.

Тут такая делема, что по времени\деньгам?

Написать доп. промпт "Экран не ровный исправь", но это происходит в 20%-40% случаев, а не каждый раз, и может быть намного намного дешевле, писать доп. пропты, потому что все равно за ними все тестировать нужно.

Для простых задач: "принеси подай", "закомить и запуш", "прогони тесты". - смело выбираем китайцев. Главное все так организовать, чтобы им как можно было меньше пространства ошибиться.

С другой стороны остается вопросик:

А что будет если Opus 4.6 напишет подробный план, а GPT-5.4 потом реализует? (Какой в этом сллучае будет дизайн?)
Теперь Клод Код может сам себе писать промпты

В последних версиях добавлии ScheduleWakeup - этот механизм добавляет хартбит в Claude Code. Теперь он может сам по себе просыпаться и делать ваш проект.

Чтобы это прикрыть, похоже нужен /loop stop

А вот OpenClaw этот ваш так не может.
Хороший вопрос задал подписчик в чате

Будем постепенно двигаться в этом направлении.

Только я не очень понял, какие инструменты:

Claude Code vs Codex vs Cursor

По поводу тестирования, я стараюсь тестировать все в максимально нативном режиме, не смешивать, т.е.

Opus - тестирую в Claude Code
GPT - в Кодекс
Китайские модели в OpenCode заметил, они там лучше работают.
Значит Composer надо протестировать в Cursor (я его по-моему в OpenCode) тестил, уже плохо помню.
👍1
Ребята, посмотрите какую крутую клавиатуру для СС я сделал в clihost

Да, можно запускать Claude Code с мобилки.

https://github.com/axisrow/clihost
1