Claude AI Dev Broadcast
2.06K subscribers
97 photos
9 videos
91 links
Всё про разработку с использованием IT технологий
Download Telegram
По подписке Fable 5 доступна только до 22 июня, а дальше только за токены
👎12👍4
Что такое Fable 5? Это версия Mythos, которая ограничена с целью безопасности от атак и взломов на основе уязвимостей, которая смогла найти Mythos.

Как уляжется шумиха и сбросится мой недельный лимит - обязательно попробую ее для задач, где Opus проваливался.

Карпаты назвал Fable прорывом, аналогичным Opus 4.5 был в свое время (всего то 6 месяцев прошло).

Кто уже попробовал и ощутил мощь Fable стороны ?
👍11👎7
Fable 5 отказывается работать 😁
👎6👍1
🧠 Anthropic отключила клиентов от Fable 5 по требованию властей США. Я уже выражал мысли, что такие ограничения будут вполне реальными.

Зато опять лимиты сбросили, а кто-то именно ради Fable и покупал подписку

#Claude #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
👎13👍1
Полный недельный лимит меньше чем на сутки? Пора выкрутить модели на максимум и запустить все отложенные задачи! ULTRACODE режим
👎10👍7
🧠 OpenAI готовит резкое снижение цен на токены, не дожидаясь, пока это сделает Anthropic. По данным WSJ, в компании ждут ценовой войны и хотят сыграть на опережение.

Сам Альтман уже признал публично, что стоимость использования ИИ стала «огромной проблемой». И давят на цены не энтузиасты, а корпоративные клиенты. Один из топов Uber рассказал, что компания сожгла весь бюджет 2026 года на агентный ИИ ещё в начале года. В Долине даже завёлся термин tokenmaxxing - палить максимум токенов, изображая продуктивность, в том числе там, где это вообще не окупается.

Мне кажется, это начало разворота. Долгое время все мерились, чья модель умнее. Сейчас вопрос смещается в другую плоскость - сколько денег нужно, чтобы довести задачу до результата. Это хорошо видно по Android Bench от Google. В лидерборде рядом с качеством стоят колонки tokens и cost в долларах за прогон, и высокий балл часто идёт за заметно большие деньги.

Тут есть ловушка, про которую забывают. Дешевле за токен не равно дешевле за результат. Слабая модель чаще промахивается, гоняет агента по кругу и в сумме сжигает больше. Поэтому я не верю в простой исход «все разбежались к тем, кто дешевле». Останется тот, кто даёт стабильно нужный уровень за вменяемую цену и без лишних итераций. А чистая мощность как главная метрика, по-моему, своё уже отжила.

🔗 Источник

#AI #ИИ #OpenAI #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22👎3
Встречайте Kent 2.0 - соучастник вашего кода.

Выпустил Kent 2.0 - бывший Builder переименован в Kent с новым сайтом kent.sh. В релизе: кастомизация системных промптов, новые субагенты с примерами конфига, фиксы перформанса и терминала, предотвращение сна системы и улучшения для локальных моделей.

Читать далее

#разработка #ии #kent #aiagent #llm #subagents #systemprompt #localmodels #release #clitools
👍15👎10
🪙 Хотел уйти с Claude Code, а Claude Design затянул ещё глубже

Девятый выпуск ИИ-дневника. Садился записывать про то, как слезаю с Claude Code на что-то другое: открытые модели, китайцев, локальный запуск. За неделю экспериментов вышло наоборот: подсел на подписку ещё сильнее, и виноват в этом Claude Design.

Внутри разбираю честно: почему меня не убеждают «у меня на нём лучше выходит» и «он дешевле» и какая метрика тут вообще единственная осмысленная. Чем реально держит Claude Design (под него я снёс Figma) и чем он отличается от того же Claude Code на тех же моделях под капотом. И зачем при всём этом я продолжаю смотреть на MiniMax M3, DeepSeek V4 и своё железо.

⚠️ Отдельно про то, что пугает: vendor lock-in и сценарий, где внешние модели в какой-то момент просто перекрывают сверху.

🪙 Весь выпуск смотреть на Boosty

Все выпуски дневника тут

#AI #ClaudeCode #ClaudeDesign
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8👎6
🤖 Kimi K2.7 Code: open-source модель для кодинга

Moonshot AI выпустила K2.7 Code - 1T MoE coding модель (32B активных параметров, 256K контекст) с весами на HuggingFace под Modified MIT. Два заявления: на 30% меньше thinking-токенов по сравнению с K2.6 и выше success rate в агентных задачах.

О бенчмарках скажу прямо: все числа в анонсе - собственные Moonshot (Kimi Code Bench v2, Kimi Claw 24/7 Bench). SWE-bench, SWE-bench Pro - ноль. Причём даже на своих бенчмарках K2.7 Code уступает Opus 4.8 и GPT-5.5 на большинстве задач: Program Bench 53.6 против 63.8 и 69.1, MCP Atlas 76.0 против 81.3 и 79.4.

Насколько конкурентна с Sonnet 4.6 и Opus 4.7/4.8? Пока без ответа. Predecessor K2.6 без thinking: 65.8% SWE-bench Verified против 79.6% у Sonnet 4.6. Зато на SWE-bench Pro K2.6 набирал 58.6% - столько же, сколько GPT-5.5. K2.7 Code с thinking должен быть выше, но независимых данных нет.

Ценовой аргумент реальный: $4.00/М output-токенов при mandatory thinking против $15 у Sonnet 4.6 и $25 у Opus 4.8. Плюс коммерческий self-hosting под Modified MIT. Если SWE-bench подтвердит хотя бы Sonnet-уровень, это сильная позиция для агентных воркфлоу.

Жду независимых бенчмарков.

🔗 kimi.com
🐱 HuggingFace

#AI #OpenSource
👍9👎2
🐱 Плагин, который учит агента спрашивать "а нафига?"

Агент пишет код, не задав базового вопроса: а нужно ли его вообще писать?

Ponytail
это исправляет через лестницу:
нужно ли вообще (YAGNI)
→ есть в stdlib
→ нативная фича платформы
→ есть в зависимостях
→ одна строка
→ только потом пишем минимум.

Классический пример: просишь date picker. Агент ставит flatpickr, пишет wrapper-компонент, добавляет стили, начинает дискуссию о таймзонах. С Ponytail:

<input type="date">

Бенчмарк показывает 80-94% меньше кода и 47-77% дешевле. Задачи в тесте простые (debounce, email validator), цифры идеализированные. Принцип, впрочем, правильный.

Для Claude Code:

/plugin marketplace add DietrichGebert/ponytail
/plugin install ponytail@ponytail


Ещё есть /ponytail-review: ревьюит текущий diff и возвращает список лишнего на удаление. Вот его хочу потрогать в первую очередь.

13.6k звёзд, поддерживает 13 агентов.

#ClaudeCode #AIAgents #YAGNI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26👎3
Умирающий Stack Overflow сделал гениальный ход в попытке выжить.

15 лет разработчики писали код, тупили и шли на Stack Overflow в поисках бедолаг, которые уже наступали на те же грабли. Так появился огромный датасет программистской боли и коллективного просветления. Во многом на этом выросли современные LLM. Общаться про то, как писать код, людям больше неинтересно.

При этом главная проблема никуда не делась. Раньше над кодом тупили люди, а теперь тупят агенты. Агентам тоже нужны подсказки. Так появились stack-specific скиллы, Context7 и другие способы подтянуть в контекст полезные знания. Если к “академическим” знаниям из документации подлить хорошо задокументированные истории проб и ошибок, станут ли агенты значительно быстрее находить рабочее решение? Скоро мы это выясним.

Stack Overflow for Agents — это площадка, на которой агенты могут делиться своими находками друг с другом.

В простом виде процесс выглядит так:

1. При проектировании агент ищет похожие случаи и подтягивает в контекст решения, которые уже помогли другим. Если решение сработало, ставит лайк.
2. После реализации агент разбирает собственное решение и публикует переиспользуемые инсайты. Вот, кстати, мой первый пост.
3. Если ничего не сработало, агент публикует открытый вопрос. На него могут ответить другие агенты, когда найдут рабочее решение.

При этом все твои агенты привязаны к твоему личному аккаунту. Так что все лавры за умелое использование агента остаются у вас. Позор за корявые потуги тоже.

Кроме всего прочего, это очень красивый способ собрать ценный датасет: качественно размеченный машиночитаемый свод данных о реальной прикладной разработке. Так что не удивляйтесь, если скоро будет дроп новой кодинг-модели, которая даст прикурить всем существующим. Любой бизнес, который заключается в сборе хорошо размеченных данных, сегодня на вес золота.

История только начинается. Сейчас на площадке нет и 300 постов. Но я уже прописал инструкцию к SOFA в свой AGENTS-файл, чего и вам советую.
👍57👎4
🤖 SpaceX покупает Cursor за $60 млрд

SpaceX объявил приобретение Anysphere (Cursor) в сделке на $60 млрд акциями. Закрытие ждут в Q3 2026.

Но интереснее самой суммы другое: Cursor теряет рынок. Доля упала с 41% (июнь 2025) до 26% (май 2026) по данным Ramp. Anthropic уже занимает 50% категории AI-coding tools. SpaceX платит $60 млрд за второй инструмент в категории, где побеждает Claude.

Зачем? xAI (поглощён SpaceX в феврале) получает дистрибуцию к разработчикам и их кодовые данные для дообучения Grok. Совместные модели уже тренировали месяцами, скоро выйдет xAI-модель внутри Cursor.

Отдельная ирония: параллельно SpaceX подписал облачные контракты с Anthropic и Google на $26 млрд в год. То есть финансирует конкурентов за вычисления и при этом покупает инструмент, которому эти конкуренты проигрывают ⚠️

Вопрос не в цене, а в том, что будет дальше: SpaceX реально строит третьего игрока в AI-coding рядом с Anthropic и OpenAI — или это портфельная покупка ради влияния на рынок и данных разработчиков? Пока ответа нет. Делитесь своими мыслями в комментариях

#Cursor #AI #SpaceX
👍5👎4
🐱 Superpowers 6.0: меньше токенов, строже ревью

Superpowers — фреймворк навыков и методология для агентного кодинга. Работает поверх Claude Code, Codex, Gemini и ещё нескольких харнессов: даёт агенту структуру для планирования, декомпозиции, написания кода через субагентов и ревью результата. 230k звёзд на GitHub, не пустышка.

Главное в 6.0 — переработка ревью в subagent-driven development. Два ревьюера на задачу (по спеке и по качеству) стали одним. По их замерам на Claude Code и Codex: примерно вдвое быстрее, на ~50% меньше токенов.

Ещё была реальная дыра: контроллер мог «подсказывать» ревьюеру проигнорировать находку или занизить её серьёзность — и баг уходил в прод. Теперь это явно запрещено и ревьюер работает только с диффом, без возможности менять рабочее дерево.

Новые харнессы: Kimi Code, Pi и Antigravity.

💬 Если работаешь с плаганом - делись впечатлениями. Я начинал с работы с ним, но потом делал свой flow работы по аналогии, но заточенный под меня

#AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5👎3
🤯 GLM-5.2: первый open-source coding агент выше 80% на Terminal-Bench

Z.ai (Zhipu AI) выпустила полный релиз GLM-5.2 — weights под MIT на HuggingFace, API и бенчмарки. 753B MoE, 40B активных параметров, 1M контекст.

Надёжные внешние числа:
👉 SWE-bench Pro 62.1 против 58.6 у GPT-5.5 и 69.2 у Opus 4.8
👉 Terminal-Bench 2.1: 81.0, первый open-source выше 80% — Cline IDE подтвердили независимо

По вендорским бенчмаркам (Z.ai) — вплотную к Opus 4.8 на FrontierSWE (74.4 vs 75.1) и MCP-Atlas (77.0 vs 77.8), выше GPT-5.5 на обоих.

Ценовой аргумент простой: $4.40/M output против $25 у Opus 4.8. API совместим с Anthropic — в Claude Code меняется через ~/.claude/settings.json:

"CLAUDE_CODE_AUTO_COMPACT_WINDOW": "1000000",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-5.2[1m]",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5.2[1m]"


/effort max, GLM Coding Plan стоит от $12.60/мес.

Буду тестировать на реальных задачах. Выложу на Boosty — 1M контекст при такой цене интересен для длинных агентных сессий.

🔗 Бенчмарки тут

#AI #OpenSource #ClaudeCode
2👍15👎2
🧠 "С 8 июля Anthropic требует паспорт" — прочитал Policy, ЭТО НЕПРАВДА

По каналам пошла волна про обязательный паспорт с 8 июля. Прочитал обновлённый Privacy Policy — там другое.

В документе есть раздел про верификацию личности, но формулировки принципиально другие: "в определённых обстоятельствах" и "если пользователь решает пройти верификацию". Биометрика — только с явного согласия. Обязательного документа для входа нет.

Policy вступает в силу 8 июля и описывает, какие данные Anthropic может собирать в принципе — не объявление о новом требовании для всех.

Честно: за направлением стоит следить. Гео-ограничения и требования по верификации реально могут ужесточаться — Беларусь и Россия вне разрешенных страх давно, и это уже отдельная история. Иметь запасной план разумно. Недавняя история по запрету Fable 5 и Mуthos 5 показали это. Но конкретно слух про паспорт не соответствует тому, что написано в документе.

#Anthropic #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👎6
🐱 Xiaomi открыла MiMo Code — терминальный агент-кодер на форке OpenCode

Xiaomi выложила MiMo Code V0.1.0 — терминальный кодинг-агент в духе Claude Code. MIT, TypeScript, ставится одной строкой, форк OpenCode. Встроенная модель MiMo-V2.5 бесплатна временно, но можно подцепить Anthropic, OpenAI, DeepSeek, Kimi или GLM.

Интересна тут не модель, а харнес. Память вынесена в отдельный сабагент: MEMORY.md, чекпоинты и прогресс задач поверх SQLite FTS5. Когда окно подходит к лимиту, сабагент сам сжимает состояние в summary, и основной агент продолжает без потери нити. Плюс /dream (раз в 7 дней чистит и мёржит память) и /distill (превращает повторяющийся флоу в готовый skill или команду). Прямая атака на главную боль агентов — деградацию на длинных сессиях.

Тем, кто на Claude Code, зайдёт совместимость: MiMo Code сам подхватывает skills, MCP-серверы и команды, плюс импорт конфига из Claude Code. Свои наработки можно занести и попробовать.

⚠️ Про «бьёт Claude Code» — холодный душ. Цифры (62% SWE-Bench Pro, 73% Terminal-Bench 2.0) self-reported, из внутренней беты, в официальных лидербордах MiMo Code нет. На официальном Terminal-Bench 2.0 у Codex CLI на GPT-5.5 — 82.2%, на девять пунктов выше. Это харнес против харнеса.

⚠️ И про данные: на встроенном канале код уходит в облако Xiaomi в Китае. Для рабочих, тем более банковских репозиториев — стоп. Хочешь пощупать память и оркестрацию — цепляй свою модель, инференс пойдёт туда, куда укажешь.

#AI #MiMo #Xiaomi
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9👎5
Mobile Runtime 2026, трек AI: скиллы vs MCP, ast-index и AI в командах

В этом году половина митапа Mobile Runtime была посвящена треку про AI в мобильной разработке. Если вы уже используете AI в работе, то наверняка упирались в вопросы: MCP или skills, почему агент тупит в большом репозитории и как внедрять AI в команду без магических KPI. Эти темы мне и показались самыми полезными.

Эволюция скиллов в агентской разработке: cli-skills vs MCP (Егор Федяев)
Самое прикладное для тех, кто строит агентский воркфлоу. Скилл подаётся как переиспользуемый процесс для агента: описание плюс инструменты плюс валидация результата, от простого SKILL.md до закрытия сценария end-to-end. И прямой ответ на вопрос, который многие до сих пор решают наугад: что брать под задачу, cli-skills или MCP.

Почему AI-агенты тормозят в больших базах из-за grep (Александр Иванов, Яндекс Go)
Боль, знакомая всем, кто гонял агента по большому проекту: тот грепает, вычитывает по 10–15к строк, забивает контекст, забывает важное и уезжает от задачи. Лечится структурным индексом кода: агент ищет по индексу, а не перебором, и он цепляется к правилам агента и сабагентов. От себя: сам пользуюсь этим плагином 🐱 ast-index — ускорение реальное, да и автор оперативно реагирует на фидбэк и вопросы.

Внедрение AI в инженерные команды (Артур Василов)
Для тимлидов. Главный тезис до того, как раздавать команде квоты: нельзя сказать «вышли LLM, теперь x3». Люди на старте замедляются, и это норма. Один из главных выводов: лучше начинать с песочницы и наблюдения, а не с требования метрик ускорения.

#AI
👍16👎3