Claude AI Dev Broadcast
2.06K subscribers
97 photos
9 videos
91 links
Всё про разработку с использованием IT технологий
Download Telegram
Forwarded from Android Broadcast
🔴 Созвон Закрытого Сообщества. Жаркая дискуссия: какой агент лучше. Best practices, ошибки и как работать с ИИ.

Гость — Никита @Nek.12. Один из немногих в русскоязычном сообществе, у кого я реально нашел много интересного для работы с ИИ. Никита не использует Claude Code, Codex или Cursor. Он написал своего агента с нуля. Builder — это CLI-хarness с супервайзером, скиллами, Docker-сэндбоксингом, клиент-серверной архитектурой и возможностью гонять агента автономно сутками. Всё сам. На Kotlin-бекенде. В одиночку.

У нас принципиально разные подходы. Я работаю с Claude Code, активно использую MCP-серверы и верю в это. Никита написал статью "MCP is Deprecated" и считает, что сложные агентные оркестраторы — это микроменеджмент, который мешает модели работать.

Будем разбираться, кто прав. Или оба правы по-своему. Или оба не правы.

Формат — живой разговор, вы можете задавать вопросы в чате прямо во время эфира.

🪙 Стрим пройдет для платных подписчиков на Boosty

#AndroidBroadcast #LIVE
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29👎4
Kimi Code CLI - официально решение от создателей моделей Kimi для кодинга. По суди сделали свой Claude Code, но адаптированный под свои модели. И это очень важно, ведь вставлять сторонние модели Claude Code дает хуже результат, ведь часть фичей непосредственно затачиваются под фичи CLI.
👍8👎4
🤯 Гипотеза агента заблокировала поиск реального ответа и стоила миллионов токенов

Пишу приложение для записи экрана и внешней камеры на macOS. Нужна поддержка 4K через AVFoundation. Камера анонсирует формат 420v 3840×2160@30fps.

Opus 4.8 с extended thinking посчитал bandwidth "в уме", получил 3.7 Gbps (видно ограничение камеры), решил что не влезает в кабель и выдал "невозможно". Без единого практического теста. Просто гипотеза, оформленная как факт.

Дальше агент десятки раундов защищал этот вывод. Я запускал отдельный research-агент и он тоже ходил по кругу, потому что искал подтверждение невозможного, а не причину.

Новая сессия. Подключил документацию, заставил проверять практически. И только тогда нашлась реальная причина: AVFoundation всегда скидывает разрешение внешней камеры до Full HD. Это ограничение фреймворка, не железа. Вывод "невозможно" оказался верным, но агент пришёл к нему только через практику, не через расчёт в уме.

Если бы первый агент не застрял на непроверенной гипотезе и сразу пошёл тестировать и реальная причина нашлась бы за один прогон.

По итогу зашил правило в инструкции проекта: любое "невозможно" требует практического подтверждения. Эмпирика - это гипотеза для проверки, не аргумент для остановки.

Какая бы модель ни стояла под капотом — без этого правила агент будет уверенно защищать собственные предположения вместо поиска ответа. Со стороны пользователя требуется постоянная настройка и улучшение настроек в проекте и глобально.

#AIdev #ClaudeCode #Opus #macOS
👍32👎6
Вышла модель Claude Fable 5 - упрощенная Mythos. Пи*** лимитам - жрет в 2 раза больше Opus
👎15👍9
По подписке Fable 5 доступна только до 22 июня, а дальше только за токены
👎12👍4
Что такое Fable 5? Это версия Mythos, которая ограничена с целью безопасности от атак и взломов на основе уязвимостей, которая смогла найти Mythos.

Как уляжется шумиха и сбросится мой недельный лимит - обязательно попробую ее для задач, где Opus проваливался.

Карпаты назвал Fable прорывом, аналогичным Opus 4.5 был в свое время (всего то 6 месяцев прошло).

Кто уже попробовал и ощутил мощь Fable стороны ?
👍11👎7
Fable 5 отказывается работать 😁
👎6👍1
🧠 Anthropic отключила клиентов от Fable 5 по требованию властей США. Я уже выражал мысли, что такие ограничения будут вполне реальными.

Зато опять лимиты сбросили, а кто-то именно ради Fable и покупал подписку

#Claude #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
👎13👍1
Полный недельный лимит меньше чем на сутки? Пора выкрутить модели на максимум и запустить все отложенные задачи! ULTRACODE режим
👎10👍7
🧠 OpenAI готовит резкое снижение цен на токены, не дожидаясь, пока это сделает Anthropic. По данным WSJ, в компании ждут ценовой войны и хотят сыграть на опережение.

Сам Альтман уже признал публично, что стоимость использования ИИ стала «огромной проблемой». И давят на цены не энтузиасты, а корпоративные клиенты. Один из топов Uber рассказал, что компания сожгла весь бюджет 2026 года на агентный ИИ ещё в начале года. В Долине даже завёлся термин tokenmaxxing - палить максимум токенов, изображая продуктивность, в том числе там, где это вообще не окупается.

Мне кажется, это начало разворота. Долгое время все мерились, чья модель умнее. Сейчас вопрос смещается в другую плоскость - сколько денег нужно, чтобы довести задачу до результата. Это хорошо видно по Android Bench от Google. В лидерборде рядом с качеством стоят колонки tokens и cost в долларах за прогон, и высокий балл часто идёт за заметно большие деньги.

Тут есть ловушка, про которую забывают. Дешевле за токен не равно дешевле за результат. Слабая модель чаще промахивается, гоняет агента по кругу и в сумме сжигает больше. Поэтому я не верю в простой исход «все разбежались к тем, кто дешевле». Останется тот, кто даёт стабильно нужный уровень за вменяемую цену и без лишних итераций. А чистая мощность как главная метрика, по-моему, своё уже отжила.

🔗 Источник

#AI #ИИ #OpenAI #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22👎3
Встречайте Kent 2.0 - соучастник вашего кода.

Выпустил Kent 2.0 - бывший Builder переименован в Kent с новым сайтом kent.sh. В релизе: кастомизация системных промптов, новые субагенты с примерами конфига, фиксы перформанса и терминала, предотвращение сна системы и улучшения для локальных моделей.

Читать далее

#разработка #ии #kent #aiagent #llm #subagents #systemprompt #localmodels #release #clitools
👍15👎10
🪙 Хотел уйти с Claude Code, а Claude Design затянул ещё глубже

Девятый выпуск ИИ-дневника. Садился записывать про то, как слезаю с Claude Code на что-то другое: открытые модели, китайцев, локальный запуск. За неделю экспериментов вышло наоборот: подсел на подписку ещё сильнее, и виноват в этом Claude Design.

Внутри разбираю честно: почему меня не убеждают «у меня на нём лучше выходит» и «он дешевле» и какая метрика тут вообще единственная осмысленная. Чем реально держит Claude Design (под него я снёс Figma) и чем он отличается от того же Claude Code на тех же моделях под капотом. И зачем при всём этом я продолжаю смотреть на MiniMax M3, DeepSeek V4 и своё железо.

⚠️ Отдельно про то, что пугает: vendor lock-in и сценарий, где внешние модели в какой-то момент просто перекрывают сверху.

🪙 Весь выпуск смотреть на Boosty

Все выпуски дневника тут

#AI #ClaudeCode #ClaudeDesign
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8👎6
🤖 Kimi K2.7 Code: open-source модель для кодинга

Moonshot AI выпустила K2.7 Code - 1T MoE coding модель (32B активных параметров, 256K контекст) с весами на HuggingFace под Modified MIT. Два заявления: на 30% меньше thinking-токенов по сравнению с K2.6 и выше success rate в агентных задачах.

О бенчмарках скажу прямо: все числа в анонсе - собственные Moonshot (Kimi Code Bench v2, Kimi Claw 24/7 Bench). SWE-bench, SWE-bench Pro - ноль. Причём даже на своих бенчмарках K2.7 Code уступает Opus 4.8 и GPT-5.5 на большинстве задач: Program Bench 53.6 против 63.8 и 69.1, MCP Atlas 76.0 против 81.3 и 79.4.

Насколько конкурентна с Sonnet 4.6 и Opus 4.7/4.8? Пока без ответа. Predecessor K2.6 без thinking: 65.8% SWE-bench Verified против 79.6% у Sonnet 4.6. Зато на SWE-bench Pro K2.6 набирал 58.6% - столько же, сколько GPT-5.5. K2.7 Code с thinking должен быть выше, но независимых данных нет.

Ценовой аргумент реальный: $4.00/М output-токенов при mandatory thinking против $15 у Sonnet 4.6 и $25 у Opus 4.8. Плюс коммерческий self-hosting под Modified MIT. Если SWE-bench подтвердит хотя бы Sonnet-уровень, это сильная позиция для агентных воркфлоу.

Жду независимых бенчмарков.

🔗 kimi.com
🐱 HuggingFace

#AI #OpenSource
👍9👎2
🐱 Плагин, который учит агента спрашивать "а нафига?"

Агент пишет код, не задав базового вопроса: а нужно ли его вообще писать?

Ponytail
это исправляет через лестницу:
нужно ли вообще (YAGNI)
→ есть в stdlib
→ нативная фича платформы
→ есть в зависимостях
→ одна строка
→ только потом пишем минимум.

Классический пример: просишь date picker. Агент ставит flatpickr, пишет wrapper-компонент, добавляет стили, начинает дискуссию о таймзонах. С Ponytail:

<input type="date">

Бенчмарк показывает 80-94% меньше кода и 47-77% дешевле. Задачи в тесте простые (debounce, email validator), цифры идеализированные. Принцип, впрочем, правильный.

Для Claude Code:

/plugin marketplace add DietrichGebert/ponytail
/plugin install ponytail@ponytail


Ещё есть /ponytail-review: ревьюит текущий diff и возвращает список лишнего на удаление. Вот его хочу потрогать в первую очередь.

13.6k звёзд, поддерживает 13 агентов.

#ClaudeCode #AIAgents #YAGNI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26👎3
Умирающий Stack Overflow сделал гениальный ход в попытке выжить.

15 лет разработчики писали код, тупили и шли на Stack Overflow в поисках бедолаг, которые уже наступали на те же грабли. Так появился огромный датасет программистской боли и коллективного просветления. Во многом на этом выросли современные LLM. Общаться про то, как писать код, людям больше неинтересно.

При этом главная проблема никуда не делась. Раньше над кодом тупили люди, а теперь тупят агенты. Агентам тоже нужны подсказки. Так появились stack-specific скиллы, Context7 и другие способы подтянуть в контекст полезные знания. Если к “академическим” знаниям из документации подлить хорошо задокументированные истории проб и ошибок, станут ли агенты значительно быстрее находить рабочее решение? Скоро мы это выясним.

Stack Overflow for Agents — это площадка, на которой агенты могут делиться своими находками друг с другом.

В простом виде процесс выглядит так:

1. При проектировании агент ищет похожие случаи и подтягивает в контекст решения, которые уже помогли другим. Если решение сработало, ставит лайк.
2. После реализации агент разбирает собственное решение и публикует переиспользуемые инсайты. Вот, кстати, мой первый пост.
3. Если ничего не сработало, агент публикует открытый вопрос. На него могут ответить другие агенты, когда найдут рабочее решение.

При этом все твои агенты привязаны к твоему личному аккаунту. Так что все лавры за умелое использование агента остаются у вас. Позор за корявые потуги тоже.

Кроме всего прочего, это очень красивый способ собрать ценный датасет: качественно размеченный машиночитаемый свод данных о реальной прикладной разработке. Так что не удивляйтесь, если скоро будет дроп новой кодинг-модели, которая даст прикурить всем существующим. Любой бизнес, который заключается в сборе хорошо размеченных данных, сегодня на вес золота.

История только начинается. Сейчас на площадке нет и 300 постов. Но я уже прописал инструкцию к SOFA в свой AGENTS-файл, чего и вам советую.
👍57👎4
🤖 SpaceX покупает Cursor за $60 млрд

SpaceX объявил приобретение Anysphere (Cursor) в сделке на $60 млрд акциями. Закрытие ждут в Q3 2026.

Но интереснее самой суммы другое: Cursor теряет рынок. Доля упала с 41% (июнь 2025) до 26% (май 2026) по данным Ramp. Anthropic уже занимает 50% категории AI-coding tools. SpaceX платит $60 млрд за второй инструмент в категории, где побеждает Claude.

Зачем? xAI (поглощён SpaceX в феврале) получает дистрибуцию к разработчикам и их кодовые данные для дообучения Grok. Совместные модели уже тренировали месяцами, скоро выйдет xAI-модель внутри Cursor.

Отдельная ирония: параллельно SpaceX подписал облачные контракты с Anthropic и Google на $26 млрд в год. То есть финансирует конкурентов за вычисления и при этом покупает инструмент, которому эти конкуренты проигрывают ⚠️

Вопрос не в цене, а в том, что будет дальше: SpaceX реально строит третьего игрока в AI-coding рядом с Anthropic и OpenAI — или это портфельная покупка ради влияния на рынок и данных разработчиков? Пока ответа нет. Делитесь своими мыслями в комментариях

#Cursor #AI #SpaceX
👍5👎4