Ребят, кто ждете результатов по GLM-5.1
Плохо ждете, но еще есть шанс перегословоать )))
Кстати, при таких бенчах его уже надо выставлять против чемпиона arena.ai
GLM-5.1 vs Opus 4.6 - бой в сверхтяжелом весе на звание чемпиона вайб кодирования.
Спойлер:По моим предыдущим скриншотам, вы можете догадаться, что я уже чутка потестил GLM-5.1 и результат меня не очень поразил. Поэтому нужно его уже выставлять против Опуса, потому что разница в цене ну в 5 раз... это очень много.
Плохо ждете, но еще есть шанс перегословоать )))
Кстати, при таких бенчах его уже надо выставлять против чемпиона arena.ai
GLM-5.1 vs Opus 4.6 - бой в сверхтяжелом весе на звание чемпиона вайб кодирования.
Спойлер:
🔥2
Протестировал GLM-5.1
Особой разницы между GLM-5.1 и GLM-5.1 мой тест не находит. Оба набирают по 4 балла из 5, но есть нюансы.
Промпт:
Работает ну очень долго:
• Планирование где-то 2 минуты 30 сек. Иногда вопросы задает, иногда не задает (я так догадываюсь, это зависит от тренированности модели использования тулс)
• Реализация 8 минут 53 сек. минимум, а то все 15 минут и дольше. Иногда просто вырубается и ничего не делает, надо писать "продолжи", чтобы снова начал делать.
Но в тесте GLM-5 я уже жаловался на скорость работы, в последтсвии это поправили и сейчас работает намного быстрее и стабильнее, чем при старте инференса.
Корпусы телефонов ровные, 4 из 5, как и у GLM-5.1 (один из экранов вылазит за пределы корпуса)
У одного телефона все шрифты, они не то что вверх ногами они повернуты боком (показал на скриншоте), так что прочитать что написано в меню вообще не возможно.
У одного телефона из 5 не работают смс, поэтому 4 балла из 5.
Будем ли тестировать в CludeCode? Наверное нет, я заметил, что на телефонах с игрой змейка, эти китайские модели в OpenCode лучше себя показывают, так что потратим время на что-то более полезное.
Особой разницы между GLM-5.1 и GLM-5.1 мой тест не находит. Оба набирают по 4 балла из 5, но есть нюансы.
Промпт:
Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.Работает ну очень долго:
• Планирование где-то 2 минуты 30 сек. Иногда вопросы задает, иногда не задает (я так догадываюсь, это зависит от тренированности модели использования тулс)
• Реализация 8 минут 53 сек. минимум, а то все 15 минут и дольше. Иногда просто вырубается и ничего не делает, надо писать "продолжи", чтобы снова начал делать.
Но в тесте GLM-5 я уже жаловался на скорость работы, в последтсвии это поправили и сейчас работает намного быстрее и стабильнее, чем при старте инференса.
Корпусы телефонов ровные, 4 из 5, как и у GLM-5.1 (один из экранов вылазит за пределы корпуса)
У одного телефона все шрифты, они не то что вверх ногами они повернуты боком (показал на скриншоте), так что прочитать что написано в меню вообще не возможно.
У одного телефона из 5 не работают смс, поэтому 4 балла из 5.
Будем ли тестировать в CludeCode? Наверное нет, я заметил, что на телефонах с игрой змейка, эти китайские модели в OpenCode лучше себя показывают, так что потратим время на что-то более полезное.
Please open Telegram to view this post
VIEW IN TELEGRAM
Мне тут подписчики подсказывают, что вышла новая модель Muse Spark
Давайте пока вместо тестирования мои мысли
1. Meta - они новички в кодировании, поэтому странно ждать от этой модели сильных результатов в кодировании. Были какие-то неудачные попытки делать Code LLama, но на текущий момент можно признать их провальными.
2. Мета сами пишут: Muse Spark демонстрирует конкурентоспособные результаты в задачах многомодального восприятия, рассуждения, здравоохранения и управления агентами, т.е. оринтирована больше на бенчим мультимодальности и на HLE, нежали на стандартные SWE Bench и Terminal Bench.
3. Есть какой-то LiveCodeBench Pro но я такой бенч не знаю, поэтому не могу ничего сказать. Но, в этом бенче модель всех разрывает.
В общем:
• моделька явно интересная для OpenClaw
• подождем, что скажут другие блогеры
Сейчас есть что тестировать, спойлеры:
1. orba/superpowers
2. GLM-5.1 vs Opus 4.6
Как Антропики нам показали, что можно добиться крутых результатов в кодировании, если сфокусироваться, то и нам тоже надо фокусироваться на чем-то одном.
https://ai.meta.com/blog/introducing-muse-spark-msl/
Давайте пока вместо тестирования мои мысли
1. Meta - они новички в кодировании, поэтому странно ждать от этой модели сильных результатов в кодировании. Были какие-то неудачные попытки делать Code LLama, но на текущий момент можно признать их провальными.
2. Мета сами пишут: Muse Spark демонстрирует конкурентоспособные результаты в задачах многомодального восприятия, рассуждения, здравоохранения и управления агентами, т.е. оринтирована больше на бенчим мультимодальности и на HLE, нежали на стандартные SWE Bench и Terminal Bench.
3. Есть какой-то LiveCodeBench Pro но я такой бенч не знаю, поэтому не могу ничего сказать. Но, в этом бенче модель всех разрывает.
В общем:
• моделька явно интересная для OpenClaw
• подождем, что скажут другие блогеры
Сейчас есть что тестировать, спойлеры:
2.
Как Антропики нам показали, что можно добиться крутых результатов в кодировании, если сфокусироваться, то и нам тоже надо фокусироваться на чем-то одном.
https://ai.meta.com/blog/introducing-muse-spark-msl/
😁2
Media is too big
VIEW IN TELEGRAM
Ребята, ребята, посмотрите, какую игру в Змейку создал Opus 4.6
Да это просто небо и змеля по сравнению с тем что делаюет эти китайские десситиляты.
Промпт:
1. Телефон стартует не из меню, а реально с экрана на котором часы и информация.
2. Сообщения отправлюятся с анимацией.
3. Все нажатия кнопочек со звуком.
Уровень детализации намного круче того, что делают китайцы.
Да это просто небо и змеля по сравнению с тем что делаюет эти китайские десситиляты.
Промпт:
Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.1. Телефон стартует не из меню, а реально с экрана на котором часы и информация.
2. Сообщения отправлюятся с анимацией.
3. Все нажатия кнопочек со звуком.
Уровень детализации намного круче того, что делают китайцы.
🔥6
Протестировал Opus 4.6
Да, я раньше его не тестировал, потому что дорого! Оценка 5* из 5 (со звездочкой), ну а вы чего ожидали?
Промпт:
Это, как писал ранее, Opus 4.6 даже рядом нельзя сравнивать сравнивать с этими китайскими поделками, они берут дешевизной, а не качеством.
1. Все аппраты ровные, нигде ничего не торчит.
2. Все работает идеально - придраться не к чему.
3. Мелодия играет всегда Нокия Тюн (Grande Valse)
4. Змейка стилизована под Нокию, а не взята классическая "pygame".
5. Во всех аппаратах отправлюятся сообщения!
* Все вот эти анимации и мелочи - которые я не заказывал, но он сделал - это все очень и очень круто! Таким образом, со звездочкой - потому что Opus делает намного намного круче того уровня, который показывают китайцы и Cursor.
Откуда такие крутые результаты?
Дело в том, что у Claude Code в инструкции стоит тестирование по умолчанию. И Клод Код его тестирует своим нативным Хром плагином и он физически визуально видит все, что косо и криво.
А что по скорости работы?
Планирование: 2 минуты
Реализация: от 6 до 15 минут.
Какой был режим?
Тут есть нюанс, что я недавно установил себе superpowers и если его не отключать, то он включается автоматически, поэтому я выключил суперпаверс и тестировал в нативном режиме Plan -> Act. /effort стоит по умолчанию на medium.
И еще нюанс, что например z.ai ограничивают число потоков для GLM-5.1
А что по лимитам? Сколько токенов-то ушло?
Ну готовьтесь:
На каждый аппарат примерно по 1 Про 5-ти часовому лимиту. Т.е. на все 5 аппаратов ушло около одного пятичасового тарифа Макс за $100
Да, я раньше его не тестировал, потому что дорого! Оценка 5* из 5 (со звездочкой), ну а вы чего ожидали?
Промпт:
Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.
Это, как писал ранее, Opus 4.6 даже рядом нельзя сравнивать сравнивать с этими китайскими поделками, они берут дешевизной, а не качеством.
1. Все аппраты ровные, нигде ничего не торчит.
2. Все работает идеально - придраться не к чему.
3. Мелодия играет всегда Нокия Тюн (Grande Valse)
4. Змейка стилизована под Нокию, а не взята классическая "pygame".
5. Во всех аппаратах отправлюятся сообщения!
* Все вот эти анимации и мелочи - которые я не заказывал, но он сделал - это все очень и очень круто! Таким образом, со звездочкой - потому что Opus делает намного намного круче того уровня, который показывают китайцы и Cursor.
Откуда такие крутые результаты?
Дело в том, что у Claude Code в инструкции стоит тестирование по умолчанию. И Клод Код его тестирует своим нативным Хром плагином и он физически визуально видит все, что косо и криво.
А что по скорости работы?
Планирование: 2 минуты
Реализация: от 6 до 15 минут.
Какой был режим?
Тут есть нюанс, что я недавно установил себе superpowers и если его не отключать, то он включается автоматически, поэтому я выключил суперпаверс и тестировал в нативном режиме Plan -> Act. /effort стоит по умолчанию на medium.
И еще нюанс, что например z.ai ограничивают число потоков для GLM-5.1
А что по лимитам? Сколько токенов-то ушло?
Ну готовьтесь:
👍2😁2
Тут по чатам гуляет инфа что Опус дескать понерфили
Ну понерфили и понерфили мне как-то пофигу вообще на это, я разницы с понерфеной и не понерфеной версии вообще не вижу. Не стоит принимать на веру все, что пишут в чатах, даже если я. Я живой человек и тоже ошибаюсь. Делайте свои тесты - получайте свой собственный опыт.
Ребята, ведь всех нас интересует вопрос, какую модель лучше использовать в кодировании, и стотит ли этот Опус свои$75 $25 за миллион токенов. Да, еще не так давно Опус 75 баксов стоил.
Я протестировал огромное количество всех этих моделей от GPT 4.1 до Opus 4.6, потратил кучу времени, что бы вам не только написать, но и показать - оно того стоит!
А если вы видите - то напишите в комменты свои тесты:
1. Вот дескать мои тесты до нерфа
2. А вот после нерфа
Думаю всем будет интересно почитать. Мне особенно интересно, что у вас за тесты.
Ну понерфили и понерфили мне как-то пофигу вообще на это, я разницы с понерфеной и не понерфеной версии вообще не вижу. Не стоит принимать на веру все, что пишут в чатах, даже если я. Я живой человек и тоже ошибаюсь. Делайте свои тесты - получайте свой собственный опыт.
Ребята, ведь всех нас интересует вопрос, какую модель лучше использовать в кодировании, и стотит ли этот Опус свои
Я протестировал огромное количество всех этих моделей от GPT 4.1 до Opus 4.6, потратил кучу времени, что бы вам не только написать, но и показать - оно того стоит!
А если вы видите - то напишите в комменты свои тесты:
1. Вот дескать мои тесты до нерфа
2. А вот после нерфа
Думаю всем будет интересно почитать. Мне особенно интересно, что у вас за тесты.
Telegram
Vibe Coding: OpenCode, Claude Code, Codex, Cursor, Kilo
Подписчик несколько раз прислал ссылку на видео, со словами "Вот какие задания нужно использовать в тестах"
Чтож, спасибо за видео! Теперь когда я сам протестировал Кими, могу дать развернутый ответ!
У меня конечно сильно пригорело, что автор сравнивает…
Чтож, спасибо за видео! Теперь когда я сам протестировал Кими, могу дать развернутый ответ!
У меня конечно сильно пригорело, что автор сравнивает…
5🔥5
Как создать свой маркетплейс плагинов для Claude Code и главное зачем?
Что такое маркетплейс
Это обычный публичный GitHub-репозиторий с определённой структурой папок. Claude Code умеет подключаться к таким репозиториям и устанавливать плагины из них одной командой.
Зачем это нужно
- Для себя — хранить свои скиллы в одном месте и переносить между проектами. Но главное, что вы не сможете нативно установить свой собственный плагин без своего маркетплейса.
- Для команды — стандартизировать рабочие процессы и делиться лучшими практиками.
- Для опенсорса — публиковать полезные скиллы для сообщества.
Структура такого репо:
Как это работает
Один JSON-файл, который перечисляет все плагины маркетплейса с описаниями и тегами. Пример
Публикуете — и любой пользователь Claude Code может подключить ваш маркетплейс и установить плагины.
Готовый пример с открытым кодом: https://github.com/etopro/plugin-marketplace
Что такое маркетплейс
Это обычный публичный GitHub-репозиторий с определённой структурой папок. Claude Code умеет подключаться к таким репозиториям и устанавливать плагины из них одной командой.
Зачем это нужно
- Для себя — хранить свои скиллы в одном месте и переносить между проектами. Но главное, что вы не сможете нативно установить свой собственный плагин без своего маркетплейса.
- Для команды — стандартизировать рабочие процессы и делиться лучшими практиками.
- Для опенсорса — публиковать полезные скиллы для сообщества.
Структура такого репо:
my-marketplace/
├── .claude-plugin/
│ └── marketplace.json
├── plugins/
│ └── my-plugin/
│ ├── .claude-plugin/
│ │ └── plugin.json
│ └── skills/
│ └── my-skill.md
└── README.md Как это работает
Один JSON-файл, который перечисляет все плагины маркетплейса с описаниями и тегами. Пример
Публикуете — и любой пользователь Claude Code может подключить ваш маркетплейс и установить плагины.
Готовый пример с открытым кодом: https://github.com/etopro/plugin-marketplace
❤2
Что тестируем дальше?
Anonymous Poll
4%
TRAE
59%
GPT-5.4
45%
Sonnet-4.6
14%
Qoder
6%
Z-code (снова)
1%
Свой вариант, напишу в комментах
This media is not supported in your browser
VIEW IN TELEGRAM
Посмотрите! Какую игрую в змейку создал GPT-5.4 - medium
Все функции, работают, но есть несколько но...
Промпт:
Тестировалось это все в Codex CLI - сначала план, потом реализация:
1. Дизайн фирменный GPTшный дизайн. Вы его ни с чем не перепутаете, по серо\серебристому корпусу, и зеленому экрану в клеточку. Специально записал видео во весь экран, чтобы показать, что аппарат настколько огромный, что даже не помещается в экране.
2. У телефона 2 меню. Одно меню на главном экране, второе при нажатии на любой пункт в первом меню 🙄
Больше нареканий нет, т.е. формально - это не блокирующий коммент аппарат полностью рабочий (змейка ползает, рингтон играет, смс отправляются!), но осадочек уже как бы остается... У Opus 4.6 таких приколов не было.
GPT-5.4-medium - работает довольно шустро. На планирование ушло 30 сек. На реализацию где-то 10 минут. Лимитов ушло 5% от дневного лимита.
Все функции, работают, но есть несколько но...
Промпт:
Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.Тестировалось это все в Codex CLI - сначала план, потом реализация:
1. Дизайн фирменный GPTшный дизайн. Вы его ни с чем не перепутаете, по серо\серебристому корпусу, и зеленому экрану в клеточку. Специально записал видео во весь экран, чтобы показать, что аппарат настколько огромный, что даже не помещается в экране.
2. У телефона 2 меню. Одно меню на главном экране, второе при нажатии на любой пункт в первом меню 🙄
Больше нареканий нет, т.е. формально - это не блокирующий коммент аппарат полностью рабочий (змейка ползает, рингтон играет, смс отправляются!), но осадочек уже как бы остается... У Opus 4.6 таких приколов не было.
GPT-5.4-medium - работает довольно шустро. На планирование ушло 30 сек. На реализацию где-то 10 минут. Лимитов ушло 5% от дневного лимита.
1🔥3❤1
Протестировал GPT-5.4 - medium - результат 5 из 5
Я ж вам говорил, этот дизайн вы ни с чем не спутаете... результат 5 из 5 даже с medium thinking. Но, как обычно есть нюансы.
Промпт:
Создайте...
1. Все телефоны настолько курпные, что не влезают в экран.
2. Все аппараты ровные, экраны нигде не торчат за пределы корпуса (но если вы присмотритесь, некоторые клавиатуры кривые и косые).
3. Иногда он пишет туду список, иногда не пишет (не знаю, на что это влияет). Так же в режиме задавания вопросов, иногда он задает больше вопросов иногда меньше, так что имеет смысл написать: "задай мне как можно больше вопросов".
Больше у меня основных замечаний нет.
Но, есть дополнительные нюасны:
• В 2х змейках из 5 нет экрана гейм овер. Некоторые змейки стартуют только после нажатия на ок, что уже не канонично. (у китайцев таких приколов не было).
• У некоторых аппаратов отправлются смс (но не у всех).
• Видно, что он пыхтит и старается сделать Нокия Тюн, но только у 1 из 5 это реально Нокия Тюн.
• У последнего аппарата экран настолько пикселявый, что ничего не видно (у Опуса кстати, был аналогичный, но другой косяк).
• Если аппарат не стартует, возможно надо запусить веб сервер (я в этом еще не очень силен).
Выводы:
Мы видим, что создать телефон с игрой змейка, редактором смс и визуализатором мелодии для топовых американских моделей за 10 минут задача не сложная даже для среднего мышления с ван шота без тестирования (только нужен хотя бы нативный режим планирования).
Им не нужно объяснять, что "экран не должен торчать за пределы корпуса обязательно проверь".
GPT-5.4 делает намного-намного-намного дешевле Opus 4.6. Но, чисто субъективно, Opus 4.6 визуально делает на голову выше GPT-5.4, который в отличае от китайцев делает все ровно и аккуратно.
Так что:
Если у вас много свободного времени и для вас важна цена - китайские модели напишут вам кучу забагованного кода, (даже GLM-5.1), который вам потом долго тестировать.
Если у вас денег дофига - то американцы, делают все в 3-5 раз дороже и качественне, но тестировать все равно вам придется.
Тут такая делема, что по времени\деньгам? Написать доп. промпт "Экран не ровный исправь" (но это происходит в 20% случаев), или поставить на автопилот и не парится.
Что же по лимитам?
Как я писал ранее, на 1 аппарат уходит 5% обычного пятичасового лимита Плюс за $20. На все 5 аппаратов ушло 26% пятичасового лимита. Иногда он тратит 75% контекста, иногда 69%, иногда 79%. Вот 5% контекста - примерно 1% дневного лимита )
Я ж вам говорил, этот дизайн вы ни с чем не спутаете... результат 5 из 5 даже с medium thinking. Но, как обычно есть нюансы.
Промпт:
Создайте...
1. Все телефоны настолько курпные, что не влезают в экран.
2. Все аппараты ровные, экраны нигде не торчат за пределы корпуса (но если вы присмотритесь, некоторые клавиатуры кривые и косые).
3. Иногда он пишет туду список, иногда не пишет (не знаю, на что это влияет). Так же в режиме задавания вопросов, иногда он задает больше вопросов иногда меньше, так что имеет смысл написать: "задай мне как можно больше вопросов".
Больше у меня основных замечаний нет.
Но, есть дополнительные нюасны:
• В 2х змейках из 5 нет экрана гейм овер. Некоторые змейки стартуют только после нажатия на ок, что уже не канонично. (у китайцев таких приколов не было).
• У некоторых аппаратов отправлются смс (но не у всех).
• Видно, что он пыхтит и старается сделать Нокия Тюн, но только у 1 из 5 это реально Нокия Тюн.
• У последнего аппарата экран настолько пикселявый, что ничего не видно (у Опуса кстати, был аналогичный, но другой косяк).
• Если аппарат не стартует, возможно надо запусить веб сервер (я в этом еще не очень силен).
Выводы:
Мы видим, что создать телефон с игрой змейка, редактором смс и визуализатором мелодии для топовых американских моделей за 10 минут задача не сложная даже для среднего мышления с ван шота без тестирования (только нужен хотя бы нативный режим планирования).
Им не нужно объяснять, что "экран не должен торчать за пределы корпуса обязательно проверь".
GPT-5.4 делает намного-намного-намного дешевле Opus 4.6. Но, чисто субъективно, Opus 4.6 визуально делает на голову выше GPT-5.4, который в отличае от китайцев делает все ровно и аккуратно.
Так что:
Если у вас много свободного времени и для вас важна цена - китайские модели напишут вам кучу забагованного кода, (даже GLM-5.1), который вам потом долго тестировать.
Если у вас денег дофига - то американцы, делают все в 3-5 раз дороже и качественне, но тестировать все равно вам придется.
Тут такая делема, что по времени\деньгам? Написать доп. промпт "Экран не ровный исправь" (но это происходит в 20% случаев), или поставить на автопилот и не парится.
Что же по лимитам?
Как я писал ранее, на 1 аппарат уходит 5% обычного пятичасового лимита Плюс за $20. На все 5 аппаратов ушло 26% пятичасового лимита. Иногда он тратит 75% контекста, иногда 69%, иногда 79%. Вот 5% контекста - примерно 1% дневного лимита )