Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo
3.11K subscribers
645 photos
41 videos
1 file
420 links
Пишу про полностью автоматическую отгрузку Вайб Кода, свежие апдейты, промпты и тесты ИИ-инструментов.
Download Telegram
Ребят, кто ждете результатов по GLM-5.1

Плохо ждете, но еще есть шанс перегословоать )))

Кстати, при таких бенчах его уже надо выставлять против чемпиона arena.ai

GLM-5.1 vs Opus 4.6 - бой в сверхтяжелом весе на звание чемпиона вайб кодирования.

Спойлер: По моим предыдущим скриншотам, вы можете догадаться, что я уже чутка потестил GLM-5.1 и результат меня не очень поразил. Поэтому нужно его уже выставлять против Опуса, потому что разница в цене ну в 5 раз... это очень много.
🔥2
Протестировал GLM-5.1

Особой разницы между GLM-5.1 и GLM-5.1 мой тест не находит. Оба набирают по 4 балла из 5, но есть нюансы.

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

Работает ну очень долго:

• Планирование где-то 2 минуты 30 сек. Иногда вопросы задает, иногда не задает (я так догадываюсь, это зависит от тренированности модели использования тулс)
• Реализация 8 минут 53 сек. минимум, а то все 15 минут и дольше. Иногда просто вырубается и ничего не делает, надо писать "продолжи", чтобы снова начал делать.

Но в тесте GLM-5 я уже жаловался на скорость работы, в последтсвии это поправили и сейчас работает намного быстрее и стабильнее, чем при старте инференса.

Корпусы телефонов ровные, 4 из 5, как и у GLM-5.1 (один из экранов вылазит за пределы корпуса)

У одного телефона все шрифты, они не то что вверх ногами они повернуты боком (показал на скриншоте), так что прочитать что написано в меню вообще не возможно.

У одного телефона из 5 не работают смс, поэтому 4 балла из 5.

Будем ли тестировать в CludeCode? Наверное нет, я заметил, что на телефонах с игрой змейка, эти китайские модели в OpenCode лучше себя показывают, так что потратим время на что-то более полезное.
Протестированы все, больше новых моделей вроде не осталось
Please open Telegram to view this post
VIEW IN TELEGRAM
Мне тут подписчики подсказывают, что вышла новая модель Muse Spark

Давайте пока вместо тестирования мои мысли

1. Meta - они новички в кодировании, поэтому странно ждать от этой модели сильных результатов в кодировании. Были какие-то неудачные попытки делать Code LLama, но на текущий момент можно признать их провальными.

2. Мета сами пишут: Muse Spark демонстрирует конкурентоспособные результаты в задачах многомодального восприятия, рассуждения, здравоохранения и управления агентами, т.е. оринтирована больше на бенчим мультимодальности и на HLE, нежали на стандартные SWE Bench и Terminal Bench.

3. Есть какой-то LiveCodeBench Pro но я такой бенч не знаю, поэтому не могу ничего сказать. Но, в этом бенче модель всех разрывает.

В общем:
• моделька явно интересная для OpenClaw
• подождем, что скажут другие блогеры

Сейчас есть что тестировать, спойлеры:
1. orba/superpowers
2.
GLM-5.1 vs Opus 4.6

Как Антропики нам показали, что можно добиться крутых результатов в кодировании, если сфокусироваться, то и нам тоже надо фокусироваться на чем-то одном.

https://ai.meta.com/blog/introducing-muse-spark-msl/
😁2
Media is too big
VIEW IN TELEGRAM
Ребята, ребята, посмотрите, какую игру в Змейку создал Opus 4.6

Да это просто небо и змеля по сравнению с тем что делаюет эти китайские десситиляты.

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

1. Телефон стартует не из меню, а реально с экрана на котором часы и информация.
2. Сообщения отправлюятся с анимацией.
3. Все нажатия кнопочек со звуком.

Уровень детализации намного круче того, что делают китайцы.
🔥6
Протестировал Opus 4.6

Да, я раньше его не тестировал, потому что дорого! Оценка 5* из 5 (со звездочкой), ну а вы чего ожидали?

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

Это, как писал ранее, Opus 4.6 даже рядом нельзя сравнивать сравнивать с этими китайскими поделками, они берут дешевизной, а не качеством.

1. Все аппраты ровные, нигде ничего не торчит.
2. Все работает идеально - придраться не к чему.
3. Мелодия играет всегда Нокия Тюн (Grande Valse)
4. Змейка стилизована под Нокию, а не взята классическая "pygame".
5. Во всех аппаратах отправлюятся сообщения!

* Все вот эти анимации и мелочи - которые я не заказывал, но он сделал - это все очень и очень круто! Таким образом, со звездочкой - потому что Opus делает намного намного круче того уровня, который показывают китайцы и Cursor.

Откуда такие крутые результаты?

Дело в том, что у Claude Code в инструкции стоит тестирование по умолчанию. И Клод Код его тестирует своим нативным Хром плагином и он физически визуально видит все, что косо и криво.

А что по скорости работы?

Планирование: 2 минуты
Реализация: от 6 до 15 минут.

Какой был режим?
Тут есть нюанс, что я недавно установил себе superpowers и если его не отключать, то он включается автоматически, поэтому я выключил суперпаверс и тестировал в нативном режиме Plan -> Act. /effort стоит по умолчанию на medium.

И еще нюанс, что например z.ai ограничивают число потоков для GLM-5.1

А что по лимитам? Сколько токенов-то ушло?

Ну готовьтесь:
На каждый аппарат примерно по 1 Про 5-ти часовому лимиту. Т.е. на все 5 аппаратов ушло около одного пятичасового тарифа Макс за $100
👍2😁2
Тут по чатам гуляет инфа что Опус дескать понерфили

Ну понерфили и понерфили мне как-то пофигу вообще на это, я разницы с понерфеной и не понерфеной версии вообще не вижу. Не стоит принимать на веру все, что пишут в чатах, даже если я. Я живой человек и тоже ошибаюсь. Делайте свои тесты - получайте свой собственный опыт.

Ребята, ведь всех нас интересует вопрос, какую модель лучше использовать в кодировании, и стотит ли этот Опус свои $75 $25 за миллион токенов. Да, еще не так давно Опус 75 баксов стоил.

Я протестировал огромное количество всех этих моделей от GPT 4.1 до Opus 4.6, потратил кучу времени, что бы вам не только написать, но и показать - оно того стоит!

А если вы видите - то напишите в комменты свои тесты:
1. Вот дескать мои тесты до нерфа
2. А вот после нерфа

Думаю всем будет интересно почитать. Мне особенно интересно, что у вас за тесты.
5🔥5
Как создать свой маркетплейс плагинов для Claude Code и главное зачем?

Что такое маркетплейс

Это обычный публичный GitHub-репозиторий с определённой структурой папок. Claude Code умеет подключаться к таким репозиториям и устанавливать плагины из них одной командой.

Зачем это нужно

- Для себя — хранить свои скиллы в одном месте и переносить между проектами. Но главное, что вы не сможете нативно установить свой собственный плагин без своего маркетплейса.
- Для команды — стандартизировать рабочие процессы и делиться лучшими практиками.
- Для опенсорса — публиковать полезные скиллы для сообщества.

Структура такого репо:

my-marketplace/
├── .claude-plugin/
│ └── marketplace.json
├── plugins/
│ └── my-plugin/
│ ├── .claude-plugin/
│ │ └── plugin.json
│ └── skills/
│ └── my-skill.md
└── README.md


Как это работает

Один JSON-файл, который перечисляет все плагины маркетплейса с описаниями и тегами. Пример

Публикуете — и любой пользователь Claude Code может подключить ваш маркетплейс и установить плагины.

Готовый пример с открытым кодом: https://github.com/etopro/plugin-marketplace
2
This media is not supported in your browser
VIEW IN TELEGRAM
Посмотрите! Какую игрую в змейку создал GPT-5.4 - medium

Все функции, работают, но есть несколько но...

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

Тестировалось это все в Codex CLI - сначала план, потом реализация:

1. Дизайн фирменный GPTшный дизайн. Вы его ни с чем не перепутаете, по серо\серебристому корпусу, и зеленому экрану в клеточку. Специально записал видео во весь экран, чтобы показать, что аппарат настколько огромный, что даже не помещается в экране.
2. У телефона 2 меню. Одно меню на главном экране, второе при нажатии на любой пункт в первом меню 🙄

Больше нареканий нет, т.е. формально - это не блокирующий коммент аппарат полностью рабочий (змейка ползает, рингтон играет, смс отправляются!), но осадочек уже как бы остается... У Opus 4.6 таких приколов не было.

GPT-5.4-medium - работает довольно шустро. На планирование ушло 30 сек. На реализацию где-то 10 минут. Лимитов ушло 5% от дневного лимита.
1🔥31
Протестировал GPT-5.4 - medium - результат 5 из 5

Я ж вам говорил, этот дизайн вы ни с чем не спутаете... результат 5 из 5 даже с medium thinking. Но, как обычно есть нюансы.

Промпт:

Создайте...

1. Все телефоны настолько курпные, что не влезают в экран.
2. Все аппараты ровные, экраны нигде не торчат за пределы корпуса (но если вы присмотритесь, некоторые клавиатуры кривые и косые).
3. Иногда он пишет туду список, иногда не пишет (не знаю, на что это влияет). Так же в режиме задавания вопросов, иногда он задает больше вопросов иногда меньше, так что имеет смысл написать: "задай мне как можно больше вопросов".

Больше у меня основных замечаний нет.

Но, есть дополнительные нюасны:
• В 2х змейках из 5 нет экрана гейм овер. Некоторые змейки стартуют только после нажатия на ок, что уже не канонично. (у китайцев таких приколов не было).
• У некоторых аппаратов отправлются смс (но не у всех).
• Видно, что он пыхтит и старается сделать Нокия Тюн, но только у 1 из 5 это реально Нокия Тюн.
• У последнего аппарата экран настолько пикселявый, что ничего не видно (у Опуса кстати, был аналогичный, но другой косяк).
• Если аппарат не стартует, возможно надо запусить веб сервер (я в этом еще не очень силен).

Выводы:

Мы видим, что создать телефон с игрой змейка, редактором смс и визуализатором мелодии для топовых американских моделей за 10 минут задача не сложная даже для среднего мышления с ван шота без тестирования (только нужен хотя бы нативный режим планирования).

Им не нужно объяснять, что "экран не должен торчать за пределы корпуса обязательно проверь".

GPT-5.4 делает намного-намного-намного дешевле Opus 4.6. Но, чисто субъективно, Opus 4.6 визуально делает на голову выше GPT-5.4, который в отличае от китайцев делает все ровно и аккуратно.

Так что:
Если у вас много свободного времени и для вас важна цена - китайские модели напишут вам кучу забагованного кода, (даже GLM-5.1), который вам потом долго тестировать.
Если у вас денег дофига - то американцы, делают все в 3-5 раз дороже и качественне, но тестировать все равно вам придется.

Тут такая делема, что по времени\деньгам? Написать доп. промпт "Экран не ровный исправь" (но это происходит в 20% случаев), или поставить на автопилот и не парится.

Что же по лимитам?

Как я писал ранее, на 1 аппарат уходит 5% обычного пятичасового лимита Плюс за $20. На все 5 аппаратов ушло 26% пятичасового лимита. Иногда он тратит 75% контекста, иногда 69%, иногда 79%. Вот 5% контекста - примерно 1% дневного лимита )