🤯 GLM-5.2: первый open-source coding агент выше 80% на Terminal-Bench
Z.ai (Zhipu AI) выпустила полный релиз GLM-5.2 — weights под MIT на HuggingFace, API и бенчмарки. 753B MoE, 40B активных параметров, 1M контекст.
Надёжные внешние числа:
👉 SWE-bench Pro 62.1 против 58.6 у GPT-5.5 и 69.2 у Opus 4.8
👉 Terminal-Bench 2.1: 81.0, первый open-source выше 80% — Cline IDE подтвердили независимо
По вендорским бенчмаркам (Z.ai) — вплотную к Opus 4.8 на FrontierSWE (74.4 vs 75.1) и MCP-Atlas (77.0 vs 77.8), выше GPT-5.5 на обоих.
Ценовой аргумент простой: $4.40/M output против $25 у Opus 4.8. API совместим с Anthropic — в Claude Code меняется через
Буду тестировать на реальных задачах. Выложу на Boosty — 1M контекст при такой цене интересен для длинных агентных сессий.
🔗 Бенчмарки тут
#AI #OpenSource #ClaudeCode
Z.ai (Zhipu AI) выпустила полный релиз GLM-5.2 — weights под MIT на HuggingFace, API и бенчмарки. 753B MoE, 40B активных параметров, 1M контекст.
Надёжные внешние числа:
👉 SWE-bench Pro 62.1 против 58.6 у GPT-5.5 и 69.2 у Opus 4.8
👉 Terminal-Bench 2.1: 81.0, первый open-source выше 80% — Cline IDE подтвердили независимо
По вендорским бенчмаркам (Z.ai) — вплотную к Opus 4.8 на FrontierSWE (74.4 vs 75.1) и MCP-Atlas (77.0 vs 77.8), выше GPT-5.5 на обоих.
Ценовой аргумент простой: $4.40/M output против $25 у Opus 4.8. API совместим с Anthropic — в Claude Code меняется через
~/.claude/settings.json:"CLAUDE_CODE_AUTO_COMPACT_WINDOW": "1000000",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-5.2[1m]",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5.2[1m]"
/effort max, GLM Coding Plan стоит от $12.60/мес.Буду тестировать на реальных задачах. Выложу на Boosty — 1M контекст при такой цене интересен для длинных агентных сессий.
🔗 Бенчмарки тут
#AI #OpenSource #ClaudeCode
2👍15👎2
По каналам пошла волна про обязательный паспорт с 8 июля. Прочитал обновлённый Privacy Policy — там другое.
В документе есть раздел про верификацию личности, но формулировки принципиально другие: "в определённых обстоятельствах" и "если пользователь решает пройти верификацию". Биометрика — только с явного согласия. Обязательного документа для входа нет.
Policy вступает в силу 8 июля и описывает, какие данные Anthropic может собирать в принципе — не объявление о новом требовании для всех.
Честно: за направлением стоит следить. Гео-ограничения и требования по верификации реально могут ужесточаться — Беларусь и Россия вне разрешенных страх давно, и это уже отдельная история. Иметь запасной план разумно. Недавняя история по запрету Fable 5 и Mуthos 5 показали это. Но конкретно слух про паспорт не соответствует тому, что написано в документе.
#Anthropic #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👎6
Xiaomi выложила MiMo Code V0.1.0 — терминальный кодинг-агент в духе Claude Code. MIT, TypeScript, ставится одной строкой, форк OpenCode. Встроенная модель MiMo-V2.5 бесплатна временно, но можно подцепить Anthropic, OpenAI, DeepSeek, Kimi или GLM.
Интересна тут не модель, а харнес. Память вынесена в отдельный сабагент:
MEMORY.md, чекпоинты и прогресс задач поверх SQLite FTS5. Когда окно подходит к лимиту, сабагент сам сжимает состояние в summary, и основной агент продолжает без потери нити. Плюс /dream (раз в 7 дней чистит и мёржит память) и /distill (превращает повторяющийся флоу в готовый skill или команду). Прямая атака на главную боль агентов — деградацию на длинных сессиях.Тем, кто на Claude Code, зайдёт совместимость: MiMo Code сам подхватывает skills, MCP-серверы и команды, плюс импорт конфига из Claude Code. Свои наработки можно занести и попробовать.
⚠️ Про «бьёт Claude Code» — холодный душ. Цифры (62% SWE-Bench Pro, 73% Terminal-Bench 2.0) self-reported, из внутренней беты, в официальных лидербордах MiMo Code нет. На официальном Terminal-Bench 2.0 у Codex CLI на GPT-5.5 — 82.2%, на девять пунктов выше. Это харнес против харнеса.
⚠️ И про данные: на встроенном канале код уходит в облако Xiaomi в Китае. Для рабочих, тем более банковских репозиториев — стоп. Хочешь пощупать память и оркестрацию — цепляй свою модель, инференс пойдёт туда, куда укажешь.
#AI #MiMo #Xiaomi
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9👎5
Mobile Runtime 2026, трек AI: скиллы vs MCP, ast-index и AI в командах
В этом году половина митапа Mobile Runtime была посвящена треку про AI в мобильной разработке. Если вы уже используете AI в работе, то наверняка упирались в вопросы: MCP или skills, почему агент тупит в большом репозитории и как внедрять AI в команду без магических KPI. Эти темы мне и показались самыми полезными.
Эволюция скиллов в агентской разработке: cli-skills vs MCP (Егор Федяев)
Самое прикладное для тех, кто строит агентский воркфлоу. Скилл подаётся как переиспользуемый процесс для агента: описание плюс инструменты плюс валидация результата, от простого SKILL.md до закрытия сценария end-to-end. И прямой ответ на вопрос, который многие до сих пор решают наугад: что брать под задачу, cli-skills или MCP.
Почему AI-агенты тормозят в больших базах из-за grep (Александр Иванов, Яндекс Go)
Боль, знакомая всем, кто гонял агента по большому проекту: тот грепает, вычитывает по 10–15к строк, забивает контекст, забывает важное и уезжает от задачи. Лечится структурным индексом кода: агент ищет по индексу, а не перебором, и он цепляется к правилам агента и сабагентов. От себя: сам пользуюсь этим плагином 🐱 ast-index — ускорение реальное, да и автор оперативно реагирует на фидбэк и вопросы.
Внедрение AI в инженерные команды (Артур Василов)
Для тимлидов. Главный тезис до того, как раздавать команде квоты: нельзя сказать «вышли LLM, теперь x3». Люди на старте замедляются, и это норма. Один из главных выводов: лучше начинать с песочницы и наблюдения, а не с требования метрик ускорения.
#AI
В этом году половина митапа Mobile Runtime была посвящена треку про AI в мобильной разработке. Если вы уже используете AI в работе, то наверняка упирались в вопросы: MCP или skills, почему агент тупит в большом репозитории и как внедрять AI в команду без магических KPI. Эти темы мне и показались самыми полезными.
Эволюция скиллов в агентской разработке: cli-skills vs MCP (Егор Федяев)
Самое прикладное для тех, кто строит агентский воркфлоу. Скилл подаётся как переиспользуемый процесс для агента: описание плюс инструменты плюс валидация результата, от простого SKILL.md до закрытия сценария end-to-end. И прямой ответ на вопрос, который многие до сих пор решают наугад: что брать под задачу, cli-skills или MCP.
Почему AI-агенты тормозят в больших базах из-за grep (Александр Иванов, Яндекс Go)
Боль, знакомая всем, кто гонял агента по большому проекту: тот грепает, вычитывает по 10–15к строк, забивает контекст, забывает важное и уезжает от задачи. Лечится структурным индексом кода: агент ищет по индексу, а не перебором, и он цепляется к правилам агента и сабагентов. От себя: сам пользуюсь этим плагином 🐱 ast-index — ускорение реальное, да и автор оперативно реагирует на фидбэк и вопросы.
Внедрение AI в инженерные команды (Артур Василов)
Для тимлидов. Главный тезис до того, как раздавать команде квоты: нельзя сказать «вышли LLM, теперь x3». Люди на старте замедляются, и это норма. Один из главных выводов: лучше начинать с песочницы и наблюдения, а не с требования метрик ускорения.
#AI
👍16👎3
Anthropic выкатил большое обновление Claude Design, и зацепило меня там ровно одно: дизайн и код теперь связаны одним флоу, без скриншотов и пересборки. Доступно на всех платных тарифах.
В Claude Code завезли команду
/design-sync: она подтягивает твою дизайн-систему (GitHub-репо, файлы или локальный кодбейз) в Claude Design, и Claude рисует уже на твоих настоящих компонентах, сверяясь с системой ещё до того, как покажет результат. Закончил дизайн, отдаёшь его обратно в Claude Code, и тот подхватывает ровно с того места, где ты остановился, а не разгадывает интерфейс по картинке.Можно и наоборот:
/design прямо в терминале заводит, правит и синхронит дизайн-проект, консоль покидать не надо.🥲 Из неприятного - Claude Design теперь ест из общего лимита с чатом, Cowork и Claude Code, отдельной квоты больше нет.
Зачем нужна теперь Figma?
Кто смотрит мой дневник ИИ кодера на Boosty, знает, что я этого ждал. Хотелось, чтобы всё держалось в одной цепочке: достал данные из Claude Code, прогнал доработку, получил дизайн, и нигде по пути не пришлось руками перекидывать скриншоты и собирать PR. А веб-канвас пусть остаётся витриной: туда удобно заглянуть тем, кто в терминале не сидит, показать результат заказчику, потыкать интерактив, оценить глазами. По сути вся работа живёт в терминале, а канвас нужен, чтобы на неё посмотреть. Вот этой развилки мне и не хватало.
‼️ Это бета, раскатывают постепенно (часть апдейтов «сегодня»), у Enterprise по умолчанию выключено. Так что обещанную бесшовность передачи на серьёзных проектах пока никто не обкатал, включая меня, это обещание дня релиза. Но движется туда, куда надо.
#ClaudeCode #ClaudeDesign #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10👎6
Из каждой сессии с ИИ выносить не только код, но и правила
Случай из реальной работы. Crashlytics поймала краш. OTP-ресивер на Android 13 падает с NullPinterException. Отдал агенту на фикс. Он разобрал, нашёл место и сразу говорит:
Даже комментарий в коде аккуратно оставил. Формально всё верно. Именно это я и попросил сделать - исправить креш. Только он не пытался разобраться. Просто закрыл симптом и пошёл дальше. Краш исчезнет, но приложение от этого работать правильнее не станет.
Я сказал: подожди, давай поймём, что здесь происходит на самом деле.
Агент пошёл глубже и нашёл: баг самой платформы,
Первый вариант убрал бы краш. Но OTP молча перестал бы приходить на всех Android 13. Тихий отказ, невидимый в мониторинге. Хуже краша 💥
Но вот что я стал делать после того, как мы разобрались - сохранение подхода как правила для работы с багом. Говорю агенту:
Он записал: чини причину, а не симптом; defensive-обёртка только поверх устранённой причины; проглоченная ошибка обязана логироваться. В следующей сессии он это уже знает. Надеюсь...
Вот так и работает эволюция харнесса. Не надеяться, что агент сам что-то вынесет и запомнит. А в конце каждой нетривиальной сессии спрашивать себя: есть здесь урок о подходе? Если есть - фиксируй в правила. Именно так, на конкретных кейсах, харнесс становится твоим.
Код стареет. Правила копятся. Не забывайте их актуализировать со временем!
#AI #AndroidDev
Случай из реальной работы. Crashlytics поймала краш. OTP-ресивер на Android 13 падает с NullPinterException. Отдал агенту на фикс. Он разобрал, нашёл место и сразу говорит:
Дядя Федор, это всё потому что у тебя нету обертки в try/catch
Даже комментарий в коде аккуратно оставил. Формально всё верно. Именно это я и попросил сделать - исправить креш. Только он не пытался разобраться. Просто закрыл симптом и пошёл дальше. Краш исчезнет, но приложение от этого работать правильнее не станет.
Я сказал: подожди, давай поймём, что здесь происходит на самом деле.
Агент пошёл глубже и нашёл: баг самой платформы,
b/232589966. getParcelableExtra(key, Class) на API 33 кидает NPE, а наш код звал его с порога TIRAMISU (33), ровно на сломанной версии. Настоящий фикс: поднять до UPSIDE_DOWN_CAKE (34). try/catch оставить страховкой с логом, не фиксом.Первый вариант убрал бы краш. Но OTP молча перестал бы приходить на всех Android 13. Тихий отказ, невидимый в мониторинге. Хуже краша 💥
Но вот что я стал делать после того, как мы разобрались - сохранение подхода как правила для работы с багом. Говорю агенту:
хорошо, а теперь занеси этот подход в глобальные правила
Он записал: чини причину, а не симптом; defensive-обёртка только поверх устранённой причины; проглоченная ошибка обязана логироваться. В следующей сессии он это уже знает. Надеюсь...
Вот так и работает эволюция харнесса. Не надеяться, что агент сам что-то вынесет и запомнит. А в конце каждой нетривиальной сессии спрашивать себя: есть здесь урок о подходе? Если есть - фиксируй в правила. Именно так, на конкретных кейсах, харнесс становится твоим.
Код стареет. Правила копятся. Не забывайте их актуализировать со временем!
#AI #AndroidDev
👍42👎5
Sonnet 5 уже дефолтная модель в Free и Pro, доступна в Max, Team, Enterprise, в
Claude Code и через API под именем claude-sonnet-5.По бенчмаркам (BrowseComp, OSWorld-Verified) Sonnet 5 вплотную подходит к Opus 4.8. Цифры вендора, но разрыв между Sonnet и Opus раньше был намного больше. Скорость и реальная глубина на живых задачах — проверю сам, собираюсь пересесть на неё как на основную в ближайшие дни.
Контекст — 1M токенов. Sonnet 4.6 работал на 200k. Это уже другой класс задач.
Цена. Вводная $2 / $10 за Mtok (вход/выход) до 31 августа, дальше $3 / $15.
Токенайзер. Поменяли (как с Opus 4.7): тот же текст кодируется в 1.0–1.35x больше токенов. Вводная цена это компенсирует, но только до конца августа. Плюс — effort по умолчанию стоит на
high, бюджет при переходе стоит пересчитать.Extended thinking — нет. Только adaptive thinking. Если завязан на extended thinking, Sonnet 5 его не даст.
Буду садиться и пробовать её как основную, потому что пора думать о снижении расходов с аналогичным уровнем качества ответов. Как думаете что выйдет?
🔗 Анонс
🔗 Доки
#AI #ClaudeCode #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14👎5
Если провести сравнение Sonnet 5 и Opus 4.7 то разница становится меньше, а Opus 4.7 позволяла мне достигать результатов
#AI #ClaudeCode #Anthropic
#AI #ClaudeCode #Anthropic
👎10👍5