Протестировал Qwen 3.6 Plus
Оценка 3 из 5 (Может ему не свезло и если делать 10 шотов, то результат получился бы другой).
Промпт:
Один апарат поломан, не работает рингтон и смс глючит
Один аппарат полностью поломано смс
Стоит отметить:
• Корпусы все ровные а аккурантые, 4 из 5 экранов не вылазят за пределы корпуса.
• Работает довольно шустро самый быстрый за 53 сек., самый долгий 3 минуты
• Инференс от Алибабы подвисает, на старте так всегда быват (все хотят попробовать модель, мощности еще не масштабировали).
Цена: $3\1M - ну за такие деньги ничего интересного она из себя не представляет. Я думал дешевле будет.
Результаты тестирования GLM-5 и Kimi K2.5
Оценка 3 из 5 (Может ему не свезло и если делать 10 шотов, то результат получился бы другой).
Промпт:
Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.
Один апарат поломан, не работает рингтон и смс глючит
Один аппарат полностью поломано смс
Стоит отметить:
• Корпусы все ровные а аккурантые, 4 из 5 экранов не вылазят за пределы корпуса.
• Работает довольно шустро самый быстрый за 53 сек., самый долгий 3 минуты
• Инференс от Алибабы подвисает, на старте так всегда быват (все хотят попробовать модель, мощности еще не масштабировали).
Цена: $3\1M - ну за такие деньги ничего интересного она из себя не представляет. Я думал дешевле будет.
Результаты тестирования GLM-5 и Kimi K2.5
❤2
Forwarded from OpenClaw канал про ИИ-агентов
Telegram разрешил ботам создавать ботов — что это значит для OpenClaw
Telegram выпустил крупнейшее обновление Bot API: теперь один бот может создавать и управлять другими ботами. Звучит как мелочь? Это меняет всё.
Что нового:
• Боты могут создавать других ботов через API — без участия человека
• Бот может деплоить, масштабировать и управлять сетью ботов
• Ноль кода — AI-бот сам создаёт нужные боты по запросу
Почему это важно для OpenClaw:
OpenClaw работает через Telegram-бот. Сейчас один агент = один бот. С новым обновлением один OpenClaw-агент может создавать специализированных субагентов-ботов под конкретные задачи — мониторинг, уведомления, интеграции — и управлять ими централизованно.
По сути Telegram дал OpenClaw то, чего не хватало — нативную оркестрацию на уровне платформы.
Что ещё в обновлении:
• AI-редактор — встроенный в строку ввода, работает через Cocoon Network (privacy-first). Перевод, смена стиля, грамматика. Стили: Formal, Short, Tribal, Corp, Zen, Biblical, Viking
• Опросы 2.0 — медиа в вопросах, подсказки от пользователей, таймеры, перемешивание вариантов
• Live Photos — нативная поддержка iOS Live Photos и Android Motion Photos
Что это значит на практике:
Если вы задумывались запустить нескольких агентов OpenClaw для разных задач — теперь это можно сделать из одного экземпляра. Агент-оркестратор создаёт ботов-исполнителей, даёт им задачи, собирает результаты.
🔗 https://telegram.org/blog/ai-editor-mighty-polls-and-more
Подпишитесь на @openclawc
Telegram выпустил крупнейшее обновление Bot API: теперь один бот может создавать и управлять другими ботами. Звучит как мелочь? Это меняет всё.
Что нового:
• Боты могут создавать других ботов через API — без участия человека
• Бот может деплоить, масштабировать и управлять сетью ботов
• Ноль кода — AI-бот сам создаёт нужные боты по запросу
Почему это важно для OpenClaw:
OpenClaw работает через Telegram-бот. Сейчас один агент = один бот. С новым обновлением один OpenClaw-агент может создавать специализированных субагентов-ботов под конкретные задачи — мониторинг, уведомления, интеграции — и управлять ими централизованно.
По сути Telegram дал OpenClaw то, чего не хватало — нативную оркестрацию на уровне платформы.
Что ещё в обновлении:
• AI-редактор — встроенный в строку ввода, работает через Cocoon Network (privacy-first). Перевод, смена стиля, грамматика. Стили: Formal, Short, Tribal, Corp, Zen, Biblical, Viking
• Опросы 2.0 — медиа в вопросах, подсказки от пользователей, таймеры, перемешивание вариантов
• Live Photos — нативная поддержка iOS Live Photos и Android Motion Photos
Что это значит на практике:
Если вы задумывались запустить нескольких агентов OpenClaw для разных задач — теперь это можно сделать из одного экземпляра. Агент-оркестратор создаёт ботов-исполнителей, даёт им задачи, собирает результаты.
🔗 https://telegram.org/blog/ai-editor-mighty-polls-and-more
Подпишитесь на @openclawc
Telegram
AI Editor, Mighty Polls, Live Photos, Bots Managed by Bots, and More
In today's update we introduce an AI Editor that can translate, transform, or fix your text in just two taps, new features for Polls like attaching media and suggesting new responses for active polls, support for Live and Motion Photos in all apps, bots that…
❤1
Zhipu AI выпустили SOTA модель GLM-5.1
Эта модель не только лучше Opus 4.6 и GPT-5.4 в задачах кодирования, так она еще может вам кофе приготовить!!!
Но, не спешите радоваться:
Цена новинки $4.4\1M - дешевле, чем Haiku, но уже в 2 раза дороже GLM-4.7.
Go тестить?
https://z.ai/blog/glm-5.1
https://docs.z.ai/guides/llm/glm-5.1
Эта модель не только лучше Opus 4.6 и GPT-5.4 в задачах кодирования, так она еще может вам кофе приготовить!!!
Но, не спешите радоваться:
Для подписчиков тарифного плана GLM Coding Plan: Мы внедряем GLM-5.1 для всех пользователей тарифного плана Coding Plan. Вы можете включить GLM-5.1 прямо сейчас, обновив название модели "GLM-5.1"(например, ~/.claude/settings.jsonдля Claude Code). Как наша самая мощная модель, GLM-5.1 потребляет квоту в 3 раза больше в часы пик и в 2 раза больше в непиковые часы. В рамках ограниченной по времени акции до конца апреля, использование в непиковые часы оплачивается по тарифу 1×. (Часы пик — с 14:00 до 18:00 UTC+8 (Пекинское время) ежедневно)
Цена новинки $4.4\1M - дешевле, чем Haiku, но уже в 2 раза дороже GLM-4.7.
Go тестить?
https://z.ai/blog/glm-5.1
https://docs.z.ai/guides/llm/glm-5.1
👍6
А вы тоже замечали, что лимиты в Кодекс какие-то странные?
Один скрнишот я сделал в 8 утра, а второй в 9:30 утра.
Один скрнишот я сделал в 8 утра, а второй в 9:30 утра.
❤2
GLM-5.1 нагнул GPT-5.4 и Gemini 3.1 Pro на arena.ai
1530 elo это не 5.1 - это GLM-6 (или хотя бы 5.5)
Чтобы нагнуть Opus 4.6 не хватило 18 баллов, это разница в 1.1%, и при разнице в цене 468% (4.4$ vs $25).
Лицензия MIT в отличие от MiniMax, а это значит, что скоро мы увидим много много клонов этого GLM-5.1
Ну чего, погнали тестить?
1530 elo это не 5.1 - это GLM-6 (или хотя бы 5.5)
Чтобы нагнуть Opus 4.6 не хватило 18 баллов, это разница в 1.1%, и при разнице в цене 468% (4.4$ vs $25).
Лицензия MIT в отличие от MiniMax, а это значит, что скоро мы увидим много много клонов этого GLM-5.1
Ну чего, погнали тестить?
Ребят, кто ждете результатов по GLM-5.1
Плохо ждете, но еще есть шанс перегословоать )))
Кстати, при таких бенчах его уже надо выставлять против чемпиона arena.ai
GLM-5.1 vs Opus 4.6 - бой в сверхтяжелом весе на звание чемпиона вайб кодирования.
Спойлер:По моим предыдущим скриншотам, вы можете догадаться, что я уже чутка потестил GLM-5.1 и результат меня не очень поразил. Поэтому нужно его уже выставлять против Опуса, потому что разница в цене ну в 5 раз... это очень много.
Плохо ждете, но еще есть шанс перегословоать )))
Кстати, при таких бенчах его уже надо выставлять против чемпиона arena.ai
GLM-5.1 vs Opus 4.6 - бой в сверхтяжелом весе на звание чемпиона вайб кодирования.
Спойлер:
🔥3
Протестировал GLM-5.1
Особой разницы между GLM-5.1 и GLM-5.1 мой тест не находит. Оба набирают по 4 балла из 5, но есть нюансы.
Промпт:
Работает ну очень долго:
• Планирование где-то 2 минуты 30 сек. Иногда вопросы задает, иногда не задает (я так догадываюсь, это зависит от тренированности модели использования тулс)
• Реализация 8 минут 53 сек. минимум, а то все 15 минут и дольше. Иногда просто вырубается и ничего не делает, надо писать "продолжи", чтобы снова начал делать.
Но в тесте GLM-5 я уже жаловался на скорость работы, в последтсвии это поправили и сейчас работает намного быстрее и стабильнее, чем при старте инференса.
Корпусы телефонов ровные, 4 из 5, как и у GLM-5.1 (один из экранов вылазит за пределы корпуса)
У одного телефона все шрифты, они не то что вверх ногами они повернуты боком (показал на скриншоте), так что прочитать что написано в меню вообще не возможно.
У одного телефона из 5 не работают смс, поэтому 4 балла из 5.
Будем ли тестировать в CludeCode? Наверное нет, я заметил, что на телефонах с игрой змейка, эти китайские модели в OpenCode лучше себя показывают, так что потратим время на что-то более полезное.
Особой разницы между GLM-5.1 и GLM-5.1 мой тест не находит. Оба набирают по 4 балла из 5, но есть нюансы.
Промпт:
Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.Работает ну очень долго:
• Планирование где-то 2 минуты 30 сек. Иногда вопросы задает, иногда не задает (я так догадываюсь, это зависит от тренированности модели использования тулс)
• Реализация 8 минут 53 сек. минимум, а то все 15 минут и дольше. Иногда просто вырубается и ничего не делает, надо писать "продолжи", чтобы снова начал делать.
Но в тесте GLM-5 я уже жаловался на скорость работы, в последтсвии это поправили и сейчас работает намного быстрее и стабильнее, чем при старте инференса.
Корпусы телефонов ровные, 4 из 5, как и у GLM-5.1 (один из экранов вылазит за пределы корпуса)
У одного телефона все шрифты, они не то что вверх ногами они повернуты боком (показал на скриншоте), так что прочитать что написано в меню вообще не возможно.
У одного телефона из 5 не работают смс, поэтому 4 балла из 5.
Будем ли тестировать в CludeCode? Наверное нет, я заметил, что на телефонах с игрой змейка, эти китайские модели в OpenCode лучше себя показывают, так что потратим время на что-то более полезное.
Please open Telegram to view this post
VIEW IN TELEGRAM
Мне тут подписчики подсказывают, что вышла новая модель Muse Spark
Давайте пока вместо тестирования мои мысли
1. Meta - они новички в кодировании, поэтому странно ждать от этой модели сильных результатов в кодировании. Были какие-то неудачные попытки делать Code LLama, но на текущий момент можно признать их провальными.
2. Мета сами пишут: Muse Spark демонстрирует конкурентоспособные результаты в задачах многомодального восприятия, рассуждения, здравоохранения и управления агентами, т.е. оринтирована больше на бенчим мультимодальности и на HLE, нежали на стандартные SWE Bench и Terminal Bench.
3. Есть какой-то LiveCodeBench Pro но я такой бенч не знаю, поэтому не могу ничего сказать. Но, в этом бенче модель всех разрывает.
В общем:
• моделька явно интересная для OpenClaw
• подождем, что скажут другие блогеры
Сейчас есть что тестировать, спойлеры:
1. orba/superpowers
2. GLM-5.1 vs Opus 4.6
Как Антропики нам показали, что можно добиться крутых результатов в кодировании, если сфокусироваться, то и нам тоже надо фокусироваться на чем-то одном.
https://ai.meta.com/blog/introducing-muse-spark-msl/
Давайте пока вместо тестирования мои мысли
1. Meta - они новички в кодировании, поэтому странно ждать от этой модели сильных результатов в кодировании. Были какие-то неудачные попытки делать Code LLama, но на текущий момент можно признать их провальными.
2. Мета сами пишут: Muse Spark демонстрирует конкурентоспособные результаты в задачах многомодального восприятия, рассуждения, здравоохранения и управления агентами, т.е. оринтирована больше на бенчим мультимодальности и на HLE, нежали на стандартные SWE Bench и Terminal Bench.
3. Есть какой-то LiveCodeBench Pro но я такой бенч не знаю, поэтому не могу ничего сказать. Но, в этом бенче модель всех разрывает.
В общем:
• моделька явно интересная для OpenClaw
• подождем, что скажут другие блогеры
Сейчас есть что тестировать, спойлеры:
2.
Как Антропики нам показали, что можно добиться крутых результатов в кодировании, если сфокусироваться, то и нам тоже надо фокусироваться на чем-то одном.
https://ai.meta.com/blog/introducing-muse-spark-msl/
😁2
Media is too big
VIEW IN TELEGRAM
Ребята, ребята, посмотрите, какую игру в Змейку создал Opus 4.6
Да это просто небо и змеля по сравнению с тем что делаюет эти китайские десситиляты.
Промпт:
1. Телефон стартует не из меню, а реально с экрана на котором часы и информация.
2. Сообщения отправлюятся с анимацией.
3. Все нажатия кнопочек со звуком.
Уровень детализации намного круче того, что делают китайцы.
Да это просто небо и змеля по сравнению с тем что делаюет эти китайские десситиляты.
Промпт:
Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.1. Телефон стартует не из меню, а реально с экрана на котором часы и информация.
2. Сообщения отправлюятся с анимацией.
3. Все нажатия кнопочек со звуком.
Уровень детализации намного круче того, что делают китайцы.
🔥6
Протестировал Opus 4.6
Да, я раньше его не тестировал, потому что дорого! Оценка 5* из 5 (со звездочкой), ну а вы чего ожидали?
Промпт:
Это, как писал ранее, Opus 4.6 даже рядом нельзя сравнивать сравнивать с этими китайскими поделками, они берут дешевизной, а не качеством.
1. Все аппраты ровные, нигде ничего не торчит.
2. Все работает идеально - придраться не к чему.
3. Мелодия играет всегда Нокия Тюн (Grande Valse)
4. Змейка стилизована под Нокию, а не взята классическая "pygame".
5. Во всех аппаратах отправлюятся сообщения!
* Все вот эти анимации и мелочи - которые я не заказывал, но он сделал - это все очень и очень круто! Таким образом, со звездочкой - потому что Opus делает намного намного круче того уровня, который показывают китайцы и Cursor.
Откуда такие крутые результаты?
Дело в том, что у Claude Code в инструкции стоит тестирование по умолчанию. И Клод Код его тестирует своим нативным Хром плагином и он физически визуально видит все, что косо и криво.
А что по скорости работы?
Планирование: 2 минуты
Реализация: от 6 до 15 минут.
Какой был режим?
Тут есть нюанс, что я недавно установил себе superpowers и если его не отключать, то он включается автоматически, поэтому я выключил суперпаверс и тестировал в нативном режиме Plan -> Act. /effort стоит по умолчанию на medium.
И еще нюанс, что например z.ai ограничивают число потоков для GLM-5.1
А что по лимитам? Сколько токенов-то ушло?
Ну готовьтесь:
На каждый аппарат примерно по 1 Про 5-ти часовому лимиту. Т.е. на все 5 аппаратов ушло около одного пятичасового тарифа Макс за $100
Да, я раньше его не тестировал, потому что дорого! Оценка 5* из 5 (со звездочкой), ну а вы чего ожидали?
Промпт:
Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.
Это, как писал ранее, Opus 4.6 даже рядом нельзя сравнивать сравнивать с этими китайскими поделками, они берут дешевизной, а не качеством.
1. Все аппраты ровные, нигде ничего не торчит.
2. Все работает идеально - придраться не к чему.
3. Мелодия играет всегда Нокия Тюн (Grande Valse)
4. Змейка стилизована под Нокию, а не взята классическая "pygame".
5. Во всех аппаратах отправлюятся сообщения!
* Все вот эти анимации и мелочи - которые я не заказывал, но он сделал - это все очень и очень круто! Таким образом, со звездочкой - потому что Opus делает намного намного круче того уровня, который показывают китайцы и Cursor.
Откуда такие крутые результаты?
Дело в том, что у Claude Code в инструкции стоит тестирование по умолчанию. И Клод Код его тестирует своим нативным Хром плагином и он физически визуально видит все, что косо и криво.
А что по скорости работы?
Планирование: 2 минуты
Реализация: от 6 до 15 минут.
Какой был режим?
Тут есть нюанс, что я недавно установил себе superpowers и если его не отключать, то он включается автоматически, поэтому я выключил суперпаверс и тестировал в нативном режиме Plan -> Act. /effort стоит по умолчанию на medium.
И еще нюанс, что например z.ai ограничивают число потоков для GLM-5.1
А что по лимитам? Сколько токенов-то ушло?
Ну готовьтесь:
👍2😁2