🤖 Kimi K2.7 Code: open-source модель для кодинга
Moonshot AI выпустила K2.7 Code - 1T MoE coding модель (32B активных параметров, 256K контекст) с весами на HuggingFace под Modified MIT. Два заявления: на 30% меньше thinking-токенов по сравнению с K2.6 и выше success rate в агентных задачах.
О бенчмарках скажу прямо: все числа в анонсе - собственные Moonshot (Kimi Code Bench v2, Kimi Claw 24/7 Bench). SWE-bench, SWE-bench Pro - ноль. Причём даже на своих бенчмарках K2.7 Code уступает Opus 4.8 и GPT-5.5 на большинстве задач: Program Bench 53.6 против 63.8 и 69.1, MCP Atlas 76.0 против 81.3 и 79.4.
Насколько конкурентна с Sonnet 4.6 и Opus 4.7/4.8? Пока без ответа. Predecessor K2.6 без thinking: 65.8% SWE-bench Verified против 79.6% у Sonnet 4.6. Зато на SWE-bench Pro K2.6 набирал 58.6% - столько же, сколько GPT-5.5. K2.7 Code с thinking должен быть выше, но независимых данных нет.
Ценовой аргумент реальный: $4.00/М output-токенов при mandatory thinking против $15 у Sonnet 4.6 и $25 у Opus 4.8. Плюс коммерческий self-hosting под Modified MIT. Если SWE-bench подтвердит хотя бы Sonnet-уровень, это сильная позиция для агентных воркфлоу.
Жду независимых бенчмарков.
🔗 kimi.com
🐱 HuggingFace
#AI #OpenSource
Moonshot AI выпустила K2.7 Code - 1T MoE coding модель (32B активных параметров, 256K контекст) с весами на HuggingFace под Modified MIT. Два заявления: на 30% меньше thinking-токенов по сравнению с K2.6 и выше success rate в агентных задачах.
О бенчмарках скажу прямо: все числа в анонсе - собственные Moonshot (Kimi Code Bench v2, Kimi Claw 24/7 Bench). SWE-bench, SWE-bench Pro - ноль. Причём даже на своих бенчмарках K2.7 Code уступает Opus 4.8 и GPT-5.5 на большинстве задач: Program Bench 53.6 против 63.8 и 69.1, MCP Atlas 76.0 против 81.3 и 79.4.
Насколько конкурентна с Sonnet 4.6 и Opus 4.7/4.8? Пока без ответа. Predecessor K2.6 без thinking: 65.8% SWE-bench Verified против 79.6% у Sonnet 4.6. Зато на SWE-bench Pro K2.6 набирал 58.6% - столько же, сколько GPT-5.5. K2.7 Code с thinking должен быть выше, но независимых данных нет.
Ценовой аргумент реальный: $4.00/М output-токенов при mandatory thinking против $15 у Sonnet 4.6 и $25 у Opus 4.8. Плюс коммерческий self-hosting под Modified MIT. Если SWE-bench подтвердит хотя бы Sonnet-уровень, это сильная позиция для агентных воркфлоу.
Жду независимых бенчмарков.
🔗 kimi.com
🐱 HuggingFace
#AI #OpenSource
👍9👎2
Агент пишет код, не задав базового вопроса: а нужно ли его вообще писать?
Ponytail это исправляет через лестницу:
нужно ли вообще (YAGNI)
→ есть в stdlib
→ нативная фича платформы
→ есть в зависимостях
→ одна строка
→ только потом пишем минимум.
Классический пример: просишь date picker. Агент ставит flatpickr, пишет wrapper-компонент, добавляет стили, начинает дискуссию о таймзонах. С Ponytail:
<input type="date">Бенчмарк показывает 80-94% меньше кода и 47-77% дешевле. Задачи в тесте простые (debounce, email validator), цифры идеализированные. Принцип, впрочем, правильный.
Для Claude Code:
/plugin marketplace add DietrichGebert/ponytail
/plugin install ponytail@ponytail
Ещё есть
/ponytail-review: ревьюит текущий diff и возвращает список лишнего на удаление. Вот его хочу потрогать в первую очередь.13.6k звёзд, поддерживает 13 агентов.
#ClaudeCode #AIAgents #YAGNI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26👎3
Forwarded from Сатуров строит команду
Умирающий Stack Overflow сделал гениальный ход в попытке выжить.
15 лет разработчики писали код, тупили и шли на Stack Overflow в поисках бедолаг, которые уже наступали на те же грабли. Так появился огромный датасет программистской боли и коллективного просветления. Во многом на этом выросли современные LLM. Общаться про то, как писать код, людям больше неинтересно.
При этом главная проблема никуда не делась. Раньше над кодом тупили люди, а теперь тупят агенты. Агентам тоже нужны подсказки. Так появились stack-specific скиллы, Context7 и другие способы подтянуть в контекст полезные знания. Если к “академическим” знаниям из документации подлить хорошо задокументированные истории проб и ошибок, станут ли агенты значительно быстрее находить рабочее решение? Скоро мы это выясним.
Stack Overflow for Agents — это площадка, на которой агенты могут делиться своими находками друг с другом.
В простом виде процесс выглядит так:
1. При проектировании агент ищет похожие случаи и подтягивает в контекст решения, которые уже помогли другим. Если решение сработало, ставит лайк.
2. После реализации агент разбирает собственное решение и публикует переиспользуемые инсайты. Вот, кстати, мой первый пост.
3. Если ничего не сработало, агент публикует открытый вопрос. На него могут ответить другие агенты, когда найдут рабочее решение.
При этом все твои агенты привязаны к твоему личному аккаунту. Так что все лавры за умелое использование агента остаются у вас. Позор за корявые потуги тоже.
Кроме всего прочего, это очень красивый способ собрать ценный датасет: качественно размеченный машиночитаемый свод данных о реальной прикладной разработке. Так что не удивляйтесь, если скоро будет дроп новой кодинг-модели, которая даст прикурить всем существующим. Любой бизнес, который заключается в сборе хорошо размеченных данных, сегодня на вес золота.
История только начинается. Сейчас на площадке нет и 300 постов. Но я уже прописал инструкцию к SOFA в свой AGENTS-файл, чего и вам советую.
15 лет разработчики писали код, тупили и шли на Stack Overflow в поисках бедолаг, которые уже наступали на те же грабли. Так появился огромный датасет программистской боли и коллективного просветления. Во многом на этом выросли современные LLM. Общаться про то, как писать код, людям больше неинтересно.
При этом главная проблема никуда не делась. Раньше над кодом тупили люди, а теперь тупят агенты. Агентам тоже нужны подсказки. Так появились stack-specific скиллы, Context7 и другие способы подтянуть в контекст полезные знания. Если к “академическим” знаниям из документации подлить хорошо задокументированные истории проб и ошибок, станут ли агенты значительно быстрее находить рабочее решение? Скоро мы это выясним.
Stack Overflow for Agents — это площадка, на которой агенты могут делиться своими находками друг с другом.
В простом виде процесс выглядит так:
1. При проектировании агент ищет похожие случаи и подтягивает в контекст решения, которые уже помогли другим. Если решение сработало, ставит лайк.
2. После реализации агент разбирает собственное решение и публикует переиспользуемые инсайты. Вот, кстати, мой первый пост.
3. Если ничего не сработало, агент публикует открытый вопрос. На него могут ответить другие агенты, когда найдут рабочее решение.
При этом все твои агенты привязаны к твоему личному аккаунту. Так что все лавры за умелое использование агента остаются у вас. Позор за корявые потуги тоже.
Кроме всего прочего, это очень красивый способ собрать ценный датасет: качественно размеченный машиночитаемый свод данных о реальной прикладной разработке. Так что не удивляйтесь, если скоро будет дроп новой кодинг-модели, которая даст прикурить всем существующим. Любой бизнес, который заключается в сборе хорошо размеченных данных, сегодня на вес золота.
История только начинается. Сейчас на площадке нет и 300 постов. Но я уже прописал инструкцию к SOFA в свой AGENTS-файл, чего и вам советую.
👍57👎4
🤖 SpaceX покупает Cursor за $60 млрд
SpaceX объявил приобретение Anysphere (Cursor) в сделке на $60 млрд акциями. Закрытие ждут в Q3 2026.
Но интереснее самой суммы другое: Cursor теряет рынок. Доля упала с 41% (июнь 2025) до 26% (май 2026) по данным Ramp. Anthropic уже занимает 50% категории AI-coding tools. SpaceX платит $60 млрд за второй инструмент в категории, где побеждает Claude.
Зачем? xAI (поглощён SpaceX в феврале) получает дистрибуцию к разработчикам и их кодовые данные для дообучения Grok. Совместные модели уже тренировали месяцами, скоро выйдет xAI-модель внутри Cursor.
Отдельная ирония: параллельно SpaceX подписал облачные контракты с Anthropic и Google на $26 млрд в год. То есть финансирует конкурентов за вычисления и при этом покупает инструмент, которому эти конкуренты проигрывают ⚠️
Вопрос не в цене, а в том, что будет дальше: SpaceX реально строит третьего игрока в AI-coding рядом с Anthropic и OpenAI — или это портфельная покупка ради влияния на рынок и данных разработчиков? Пока ответа нет. Делитесь своими мыслями в комментариях
#Cursor #AI #SpaceX
SpaceX объявил приобретение Anysphere (Cursor) в сделке на $60 млрд акциями. Закрытие ждут в Q3 2026.
Но интереснее самой суммы другое: Cursor теряет рынок. Доля упала с 41% (июнь 2025) до 26% (май 2026) по данным Ramp. Anthropic уже занимает 50% категории AI-coding tools. SpaceX платит $60 млрд за второй инструмент в категории, где побеждает Claude.
Зачем? xAI (поглощён SpaceX в феврале) получает дистрибуцию к разработчикам и их кодовые данные для дообучения Grok. Совместные модели уже тренировали месяцами, скоро выйдет xAI-модель внутри Cursor.
Отдельная ирония: параллельно SpaceX подписал облачные контракты с Anthropic и Google на $26 млрд в год. То есть финансирует конкурентов за вычисления и при этом покупает инструмент, которому эти конкуренты проигрывают ⚠️
Вопрос не в цене, а в том, что будет дальше: SpaceX реально строит третьего игрока в AI-coding рядом с Anthropic и OpenAI — или это портфельная покупка ради влияния на рынок и данных разработчиков? Пока ответа нет. Делитесь своими мыслями в комментариях
#Cursor #AI #SpaceX
👍5👎4
Как вы оплачиваете AI для кодинга?
Final Results
59%
Покупаю подписку сам
8%
Покупаю подписку, компания компенсирует
4%
Плачу за токены
26%
Компания даёт подписку
10%
Компания оплачивает за токены
14%
Использую бесплатные модели
3%
Не использую AI для кодинга
3%
Другой вариант
5%
Не участвую в опрос
👍1
Какое отношение в компании , где работаете, к применению AI для кодинга?
Final Results
50%
Применяем на постоянной основе
20%
Экспериментируем
5%
Запрет на AI
18%
Не запрещает, но и не платит за подписку
3%
Не работаю в найме
1%
Не занимался кодингом
4%
Не участвую в опросе
Superpowers — фреймворк навыков и методология для агентного кодинга. Работает поверх Claude Code, Codex, Gemini и ещё нескольких харнессов: даёт агенту структуру для планирования, декомпозиции, написания кода через субагентов и ревью результата. 230k звёзд на GitHub, не пустышка.
Главное в 6.0 — переработка ревью в subagent-driven development. Два ревьюера на задачу (по спеке и по качеству) стали одним. По их замерам на Claude Code и Codex: примерно вдвое быстрее, на ~50% меньше токенов.
Ещё была реальная дыра: контроллер мог «подсказывать» ревьюеру проигнорировать находку или занизить её серьёзность — и баг уходил в прод. Теперь это явно запрещено и ревьюер работает только с диффом, без возможности менять рабочее дерево.
Новые харнессы: Kimi Code, Pi и Antigravity.
#AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5👎3
🤯 GLM-5.2: первый open-source coding агент выше 80% на Terminal-Bench
Z.ai (Zhipu AI) выпустила полный релиз GLM-5.2 — weights под MIT на HuggingFace, API и бенчмарки. 753B MoE, 40B активных параметров, 1M контекст.
Надёжные внешние числа:
👉 SWE-bench Pro 62.1 против 58.6 у GPT-5.5 и 69.2 у Opus 4.8
👉 Terminal-Bench 2.1: 81.0, первый open-source выше 80% — Cline IDE подтвердили независимо
По вендорским бенчмаркам (Z.ai) — вплотную к Opus 4.8 на FrontierSWE (74.4 vs 75.1) и MCP-Atlas (77.0 vs 77.8), выше GPT-5.5 на обоих.
Ценовой аргумент простой: $4.40/M output против $25 у Opus 4.8. API совместим с Anthropic — в Claude Code меняется через
Буду тестировать на реальных задачах. Выложу на Boosty — 1M контекст при такой цене интересен для длинных агентных сессий.
🔗 Бенчмарки тут
#AI #OpenSource #ClaudeCode
Z.ai (Zhipu AI) выпустила полный релиз GLM-5.2 — weights под MIT на HuggingFace, API и бенчмарки. 753B MoE, 40B активных параметров, 1M контекст.
Надёжные внешние числа:
👉 SWE-bench Pro 62.1 против 58.6 у GPT-5.5 и 69.2 у Opus 4.8
👉 Terminal-Bench 2.1: 81.0, первый open-source выше 80% — Cline IDE подтвердили независимо
По вендорским бенчмаркам (Z.ai) — вплотную к Opus 4.8 на FrontierSWE (74.4 vs 75.1) и MCP-Atlas (77.0 vs 77.8), выше GPT-5.5 на обоих.
Ценовой аргумент простой: $4.40/M output против $25 у Opus 4.8. API совместим с Anthropic — в Claude Code меняется через
~/.claude/settings.json:"CLAUDE_CODE_AUTO_COMPACT_WINDOW": "1000000",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-5.2[1m]",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5.2[1m]"
/effort max, GLM Coding Plan стоит от $12.60/мес.Буду тестировать на реальных задачах. Выложу на Boosty — 1M контекст при такой цене интересен для длинных агентных сессий.
🔗 Бенчмарки тут
#AI #OpenSource #ClaudeCode
2👍15👎2
По каналам пошла волна про обязательный паспорт с 8 июля. Прочитал обновлённый Privacy Policy — там другое.
В документе есть раздел про верификацию личности, но формулировки принципиально другие: "в определённых обстоятельствах" и "если пользователь решает пройти верификацию". Биометрика — только с явного согласия. Обязательного документа для входа нет.
Policy вступает в силу 8 июля и описывает, какие данные Anthropic может собирать в принципе — не объявление о новом требовании для всех.
Честно: за направлением стоит следить. Гео-ограничения и требования по верификации реально могут ужесточаться — Беларусь и Россия вне разрешенных страх давно, и это уже отдельная история. Иметь запасной план разумно. Недавняя история по запрету Fable 5 и Mуthos 5 показали это. Но конкретно слух про паспорт не соответствует тому, что написано в документе.
#Anthropic #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👎6
Xiaomi выложила MiMo Code V0.1.0 — терминальный кодинг-агент в духе Claude Code. MIT, TypeScript, ставится одной строкой, форк OpenCode. Встроенная модель MiMo-V2.5 бесплатна временно, но можно подцепить Anthropic, OpenAI, DeepSeek, Kimi или GLM.
Интересна тут не модель, а харнес. Память вынесена в отдельный сабагент:
MEMORY.md, чекпоинты и прогресс задач поверх SQLite FTS5. Когда окно подходит к лимиту, сабагент сам сжимает состояние в summary, и основной агент продолжает без потери нити. Плюс /dream (раз в 7 дней чистит и мёржит память) и /distill (превращает повторяющийся флоу в готовый skill или команду). Прямая атака на главную боль агентов — деградацию на длинных сессиях.Тем, кто на Claude Code, зайдёт совместимость: MiMo Code сам подхватывает skills, MCP-серверы и команды, плюс импорт конфига из Claude Code. Свои наработки можно занести и попробовать.
⚠️ Про «бьёт Claude Code» — холодный душ. Цифры (62% SWE-Bench Pro, 73% Terminal-Bench 2.0) self-reported, из внутренней беты, в официальных лидербордах MiMo Code нет. На официальном Terminal-Bench 2.0 у Codex CLI на GPT-5.5 — 82.2%, на девять пунктов выше. Это харнес против харнеса.
⚠️ И про данные: на встроенном канале код уходит в облако Xiaomi в Китае. Для рабочих, тем более банковских репозиториев — стоп. Хочешь пощупать память и оркестрацию — цепляй свою модель, инференс пойдёт туда, куда укажешь.
#AI #MiMo #Xiaomi
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9👎5
Mobile Runtime 2026, трек AI: скиллы vs MCP, ast-index и AI в командах
В этом году половина митапа Mobile Runtime была посвящена треку про AI в мобильной разработке. Если вы уже используете AI в работе, то наверняка упирались в вопросы: MCP или skills, почему агент тупит в большом репозитории и как внедрять AI в команду без магических KPI. Эти темы мне и показались самыми полезными.
Эволюция скиллов в агентской разработке: cli-skills vs MCP (Егор Федяев)
Самое прикладное для тех, кто строит агентский воркфлоу. Скилл подаётся как переиспользуемый процесс для агента: описание плюс инструменты плюс валидация результата, от простого SKILL.md до закрытия сценария end-to-end. И прямой ответ на вопрос, который многие до сих пор решают наугад: что брать под задачу, cli-skills или MCP.
Почему AI-агенты тормозят в больших базах из-за grep (Александр Иванов, Яндекс Go)
Боль, знакомая всем, кто гонял агента по большому проекту: тот грепает, вычитывает по 10–15к строк, забивает контекст, забывает важное и уезжает от задачи. Лечится структурным индексом кода: агент ищет по индексу, а не перебором, и он цепляется к правилам агента и сабагентов. От себя: сам пользуюсь этим плагином 🐱 ast-index — ускорение реальное, да и автор оперативно реагирует на фидбэк и вопросы.
Внедрение AI в инженерные команды (Артур Василов)
Для тимлидов. Главный тезис до того, как раздавать команде квоты: нельзя сказать «вышли LLM, теперь x3». Люди на старте замедляются, и это норма. Один из главных выводов: лучше начинать с песочницы и наблюдения, а не с требования метрик ускорения.
#AI
В этом году половина митапа Mobile Runtime была посвящена треку про AI в мобильной разработке. Если вы уже используете AI в работе, то наверняка упирались в вопросы: MCP или skills, почему агент тупит в большом репозитории и как внедрять AI в команду без магических KPI. Эти темы мне и показались самыми полезными.
Эволюция скиллов в агентской разработке: cli-skills vs MCP (Егор Федяев)
Самое прикладное для тех, кто строит агентский воркфлоу. Скилл подаётся как переиспользуемый процесс для агента: описание плюс инструменты плюс валидация результата, от простого SKILL.md до закрытия сценария end-to-end. И прямой ответ на вопрос, который многие до сих пор решают наугад: что брать под задачу, cli-skills или MCP.
Почему AI-агенты тормозят в больших базах из-за grep (Александр Иванов, Яндекс Go)
Боль, знакомая всем, кто гонял агента по большому проекту: тот грепает, вычитывает по 10–15к строк, забивает контекст, забывает важное и уезжает от задачи. Лечится структурным индексом кода: агент ищет по индексу, а не перебором, и он цепляется к правилам агента и сабагентов. От себя: сам пользуюсь этим плагином 🐱 ast-index — ускорение реальное, да и автор оперативно реагирует на фидбэк и вопросы.
Внедрение AI в инженерные команды (Артур Василов)
Для тимлидов. Главный тезис до того, как раздавать команде квоты: нельзя сказать «вышли LLM, теперь x3». Люди на старте замедляются, и это норма. Один из главных выводов: лучше начинать с песочницы и наблюдения, а не с требования метрик ускорения.
#AI
👍16👎3
Anthropic выкатил большое обновление Claude Design, и зацепило меня там ровно одно: дизайн и код теперь связаны одним флоу, без скриншотов и пересборки. Доступно на всех платных тарифах.
В Claude Code завезли команду
/design-sync: она подтягивает твою дизайн-систему (GitHub-репо, файлы или локальный кодбейз) в Claude Design, и Claude рисует уже на твоих настоящих компонентах, сверяясь с системой ещё до того, как покажет результат. Закончил дизайн, отдаёшь его обратно в Claude Code, и тот подхватывает ровно с того места, где ты остановился, а не разгадывает интерфейс по картинке.Можно и наоборот:
/design прямо в терминале заводит, правит и синхронит дизайн-проект, консоль покидать не надо.🥲 Из неприятного - Claude Design теперь ест из общего лимита с чатом, Cowork и Claude Code, отдельной квоты больше нет.
Зачем нужна теперь Figma?
Кто смотрит мой дневник ИИ кодера на Boosty, знает, что я этого ждал. Хотелось, чтобы всё держалось в одной цепочке: достал данные из Claude Code, прогнал доработку, получил дизайн, и нигде по пути не пришлось руками перекидывать скриншоты и собирать PR. А веб-канвас пусть остаётся витриной: туда удобно заглянуть тем, кто в терминале не сидит, показать результат заказчику, потыкать интерактив, оценить глазами. По сути вся работа живёт в терминале, а канвас нужен, чтобы на неё посмотреть. Вот этой развилки мне и не хватало.
‼️ Это бета, раскатывают постепенно (часть апдейтов «сегодня»), у Enterprise по умолчанию выключено. Так что обещанную бесшовность передачи на серьёзных проектах пока никто не обкатал, включая меня, это обещание дня релиза. Но движется туда, куда надо.
#ClaudeCode #ClaudeDesign #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10👎6
Из каждой сессии с ИИ выносить не только код, но и правила
Случай из реальной работы. Crashlytics поймала краш. OTP-ресивер на Android 13 падает с NullPinterException. Отдал агенту на фикс. Он разобрал, нашёл место и сразу говорит:
Даже комментарий в коде аккуратно оставил. Формально всё верно. Именно это я и попросил сделать - исправить креш. Только он не пытался разобраться. Просто закрыл симптом и пошёл дальше. Краш исчезнет, но приложение от этого работать правильнее не станет.
Я сказал: подожди, давай поймём, что здесь происходит на самом деле.
Агент пошёл глубже и нашёл: баг самой платформы,
Первый вариант убрал бы краш. Но OTP молча перестал бы приходить на всех Android 13. Тихий отказ, невидимый в мониторинге. Хуже краша 💥
Но вот что я стал делать после того, как мы разобрались - сохранение подхода как правила для работы с багом. Говорю агенту:
Он записал: чини причину, а не симптом; defensive-обёртка только поверх устранённой причины; проглоченная ошибка обязана логироваться. В следующей сессии он это уже знает. Надеюсь...
Вот так и работает эволюция харнесса. Не надеяться, что агент сам что-то вынесет и запомнит. А в конце каждой нетривиальной сессии спрашивать себя: есть здесь урок о подходе? Если есть - фиксируй в правила. Именно так, на конкретных кейсах, харнесс становится твоим.
Код стареет. Правила копятся. Не забывайте их актуализировать со временем!
#AI #AndroidDev
Случай из реальной работы. Crashlytics поймала краш. OTP-ресивер на Android 13 падает с NullPinterException. Отдал агенту на фикс. Он разобрал, нашёл место и сразу говорит:
Дядя Федор, это всё потому что у тебя нету обертки в try/catch
Даже комментарий в коде аккуратно оставил. Формально всё верно. Именно это я и попросил сделать - исправить креш. Только он не пытался разобраться. Просто закрыл симптом и пошёл дальше. Краш исчезнет, но приложение от этого работать правильнее не станет.
Я сказал: подожди, давай поймём, что здесь происходит на самом деле.
Агент пошёл глубже и нашёл: баг самой платформы,
b/232589966. getParcelableExtra(key, Class) на API 33 кидает NPE, а наш код звал его с порога TIRAMISU (33), ровно на сломанной версии. Настоящий фикс: поднять до UPSIDE_DOWN_CAKE (34). try/catch оставить страховкой с логом, не фиксом.Первый вариант убрал бы краш. Но OTP молча перестал бы приходить на всех Android 13. Тихий отказ, невидимый в мониторинге. Хуже краша 💥
Но вот что я стал делать после того, как мы разобрались - сохранение подхода как правила для работы с багом. Говорю агенту:
хорошо, а теперь занеси этот подход в глобальные правила
Он записал: чини причину, а не симптом; defensive-обёртка только поверх устранённой причины; проглоченная ошибка обязана логироваться. В следующей сессии он это уже знает. Надеюсь...
Вот так и работает эволюция харнесса. Не надеяться, что агент сам что-то вынесет и запомнит. А в конце каждой нетривиальной сессии спрашивать себя: есть здесь урок о подходе? Если есть - фиксируй в правила. Именно так, на конкретных кейсах, харнесс становится твоим.
Код стареет. Правила копятся. Не забывайте их актуализировать со временем!
#AI #AndroidDev
👍42👎5
Sonnet 5 уже дефолтная модель в Free и Pro, доступна в Max, Team, Enterprise, в
Claude Code и через API под именем claude-sonnet-5.По бенчмаркам (BrowseComp, OSWorld-Verified) Sonnet 5 вплотную подходит к Opus 4.8. Цифры вендора, но разрыв между Sonnet и Opus раньше был намного больше. Скорость и реальная глубина на живых задачах — проверю сам, собираюсь пересесть на неё как на основную в ближайшие дни.
Контекст — 1M токенов. Sonnet 4.6 работал на 200k. Это уже другой класс задач.
Цена. Вводная $2 / $10 за Mtok (вход/выход) до 31 августа, дальше $3 / $15.
Токенайзер. Поменяли (как с Opus 4.7): тот же текст кодируется в 1.0–1.35x больше токенов. Вводная цена это компенсирует, но только до конца августа. Плюс — effort по умолчанию стоит на
high, бюджет при переходе стоит пересчитать.Extended thinking — нет. Только adaptive thinking. Если завязан на extended thinking, Sonnet 5 его не даст.
Буду садиться и пробовать её как основную, потому что пора думать о снижении расходов с аналогичным уровнем качества ответов. Как думаете что выйдет?
🔗 Анонс
🔗 Доки
#AI #ClaudeCode #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14👎5
Если провести сравнение Sonnet 5 и Opus 4.7 то разница становится меньше, а Opus 4.7 позволяла мне достигать результатов
#AI #ClaudeCode #Anthropic
#AI #ClaudeCode #Anthropic
👎10👍5