Mat Intellect 😎
88 subscribers
84 photos
1 video
1 file
68 links
Канал Mat про ИИ
Подписывайся 👇
https://www.instagram.com/matintellect
https://www.youtube.com/@Matintel
Download Telegram
#AI: СНОВА ПЕРЕЕЗД! 14 агентов с Claude на ChatGPT 🤬

⚡️ Выходные уже расписаны: переевожу 14 агентов с Claude на ChatGPT. Anthropic 13 мая объявили - с 15 июня Agent SDK и claude -p выходят из подписки в отдельный кредитный пул

Что именно меняется с 15 июня:
Anthropic отделяет агентскую нагрузку от интерактивного использования. До 15 июня - сколько угодно агентских вызовов в рамках подписки. После - кредитный пул по тарифу: Pro $20/мес, Max 5x $100/мес, Max 20x $200/мес. Кредиты сгорают ежемесячно, не переносятся. Это перевод агентского трафика с подписочных цен на тариф ближе к API

Под счетчик: Agent SDK, claude -p, Claude Code в GitHub Actions, сторонние приложения с Agent SDK-авторизацией. Не затронуто: интерактивный Claude Code в терминале и веб-чат. Те кто работает через API Key - изменений не заметят. Пострадают конкретно разработчики которые запускали автоматизацию через потребительскую подписку

Eligible-пользователи получат письмо с инструкцией забрать кредит до 15 июня - проверь почту и настройки подписки

Почему 14 агентов - это проблема:
📌 Все 14 живут на VPS - работают в фоне в Telegram, обрабатывают входящие, роутят запросы
📌 Все ходят через Agent SDK - именно это Anthropic ставит на счетчик
📌 14 параллельных агентов - это не "несколько редких вызовов в день"

С 15 июня весь этот трафик начнет есть из Pro-кредита. $20 в месяц на 14 параллельных агентов - это жесткий лимит который кончится быстро

ChatGPT Pro пока работает без отдельного агентского счетчика и включает Agent Mode, GPT-5.5 и Deep Research. ChatGPT сейчас не уступает Claude на агентских задачах - и при почти безлимитной подписке это очевидный выбор для фоновой автоматизации

Мой план на ближайшие выходные:
🟢 Переезжают на ChatGPT - все 14 Telegram-агентов на VPS
🟢 Остается на Claude - интерактивный Claude Code в терминале, вся работа с кодом руками
🟢 Дедлайн - до 15 июня перенастроить, протестировать, переключить трафик

Работать теперь будет так. Халява должна была закончиться рано или поздно и лучше рано 😎

Instagram | YouTube | Threads
Please open Telegram to view this post
VIEW IN TELEGRAM
😢2
#AI: Жду ИИ-хтони. Она уже началась 👾

🤔 Все разговоры про "пузырь ИИ", "кто ревьювить будет слоп от агентов" и "кожаный выгоднее" - это временные дискуссии людей которые пропускают главную мысль. Корпорации не уговорят принять ИИ-кодинг через мотивационные спичи CEO - заставит старый добрый Бенджамин Франклин.

Сигналы уже идут - читал отчет Google Threat Intelligence за май 2026:
Они фиксируют агентские системы с LLM которые просто ходят по интернету и занимаются взломом. В мае 2026 задокументировали первый реальный кейс - ИИ создал zero-day эксплойт в боевой атаке. Microsoft считает 600+ млн кибератак в сутки на своих клиентов, ransomware вырос в 2.75x год к году - и это еще до того как Mythos-класс моделей стал широко доступен

Anthropic сделали Mythos - подключаешь в Claude Code и получаешь одновременно лучший кодинг-агент и лучшего эксперта по ИТ-безопасности на планете. Нашла тысячи zero-day в каждой крупной ОС, каждом браузере. У OpenAI аналог - серия Cyber с ограниченным доступом через Trusted Access. К обоим не пробиться с улицы - нужен аудит компании, большинство разработчиков никогда не пройдут этот фильтр

Кто уже в клубе Project Glasswing:
📌 Amazon, Apple, Microsoft - ключевые партнеры программы
📌 Cisco, CrowdStrike, Palo Alto Networks - работают с Mythos для защиты
📌 $100M кредитов Anthropic выделила на программу
📌 Linux Foundation - защита критической опенсорс-инфраструктуры

Как это сломает рынок когда Mythos выйдет в опенсорс:
⚡️ Первый месяц - злоумышленники запускают рой агентов, автоматический взлом всех кто не партнер Anthropic или OpenAI
⚡️ Первая большая корпорация ложится - шифровальщик на всю корп-сеть, это больше не гипотетика
⚡️ После этого события - "дискуссия про ИИ-агентов" в ИТ-департаментах превращается в вопрос выживания бизнеса
⚡️ Те кто в клубе - агент-защитник плюс лучший кодинг-инструмент одним пакетом
⚡️ Те кто вне - 24/7 атаки и очередь к Anthropic/OpenAI, которая может и не принять

Китайские лабы здесь дополнительно теряют. Основной способ получить Mythos-уровень возможностей - дистилляция через американские модели. Anthropic уже назвала публично: DeepSeek, Moonshot и MiniMax гнали 16+ млн запросов через 24 000 фейковых аккаунтов для кражи логики агентских рассуждений и кодинга. "Доступ по спискам" к Mythos и Cyber серьезно замедляет этот маршрут - в опенсорсе аналог появится, но займет больше года

💼 Anthropic и OpenAI еще даже не начали зарабатывать основные деньги - пик придет после первой крупной корпоративной катастрофы от ИИ-атаки

⭐️ Mikko Hyppönen, Chief Research Officer, WithSecure:

"ИИ не делает преступников умнее - он делает их быстрее. В кибербезопасности скорость решает все: защитникам нужны дни на патч, злоумышленникам минуты на эксплойт"


💭 Жду этого момента - не потому что хочу чтобы кто-то пострадал, а потому что только после первой реальной корпоративной катастрофы от ИИ-агентской атаки споры про "нужен ли ИИ-кодинг" закончатся сами собой. Руками написанный бекенд без ИИ-защитника - это мишень, а не предмет для ИТ-дискуссии

Instagram | YouTube | Threads
#AI: Google перестал продавать ИИ - он его внедряет 🔧

👀 Google Cloud объявил найм сотен Forward Deployed Engineers - и это не рекрутинговый пресс-релиз. За этим стоит разворот бизнес-модели: из "продаем доступ к Gemini" в "отправляем наших инженеров жить внутрь процессов клиента пока ИИ реально не заработает".

Что такое Forward Deployed Engineer:
Google открыл 59 вакансий по США, Лондону, Парижу и Гонконгу. FDE - это не консультант который презентует и уходит. Это разработчик которого командируют внутрь клиента: пишет production-код прямо в их инфраструктуре, итерирует пока система не работает стабильно в проде, возвращает найденные паттерны обратно в продуктовую команду Google. Разница с классическим консалтингом принципиальная: FDE несет ответственность за то что работает в production - не за то что написано в финальном отчете. Base $127K-$183K + equity, senior-пакеты достигают $400K+

Модель придумал Palantir еще в 2003 - он зарабатывал на том что буквально вшивал своих инженеров в процессы ЦРУ и крупных корпораций. Теперь Google, OpenAI и Anthropic копируют формулу, только вместо данных разведки - Gemini, GPT-4o и Claude.

Почему FDE вообще нужен - в чем проблема:
95% корпоративных ИИ-пилотов проваливаются. Не потому что модели плохие - потому что разрыв между тем что умеет ИИ-лаба и тем что может ИТ-отдел банка или ритейлера огромный. Клиент понимает свой бизнес, Google понимает как Gemini работает в проде. Ни одна сторона не имеет экспертизы другой. FDE закрывает этот разрыв физически - своим присутствием на объекте

Что Google переформатирует через FDE:
💡 Убирает "продал и забыл" - инженер остается пока бизнес-метрики реально не сдвинулись
💡 Встраивается через интеграторов - $750M на партнерскую экосистему, FDE сидят внутри Accenture, Capgemini, Deloitte, PwC, TCS
💡 Скармливает паттерны в продукт - все что FDE находит внутри клиента идет обратно в Gemini
💡 Имеет рычаг токенов - Google Cloud API: 16 млрд токенов в минуту, рост с 10 млрд за квартал

Конкуренция FDE уже идет:
⚡️ OpenAI - купила Tomoro (~150 специалистов) и создала ИИ-консалтинг с Bain, Capgemini и McKinsey
⚡️ Anthropic - наращивает embedded-команды для enterprise
⚡️ Palantir - оригинал этой модели, 20 лет в рынке, наблюдает с улыбкой
⚡️ Microsoft и AWS - свои версии для Azure OpenAI и Bedrock

⭐️ Thomas Kurian, CEO Google Cloud:

"If you are a builder who wants to work on the world's largest stages and be at the center of the agentic era - join us"


🎯 Palantir придумал эту модель и стал компанией на $100+ млрд. Теперь все ИИ-гиганты в той же игре, только с LLM внутри. Мы выходим из SaaS-эпохи и заходим в эпоху "ИИ как встроенная команда". И тут интересный момент для разработчиков: FDE - это следующий уровень карьеры в ИИ. Не тот кто пишет промпты, а тот кто умеет взять черный ящик модели и заставить его работать в реальных процессах корпорации. Судя по зарплатам до $400K - рынок это уже понял 😎

Instagram | YouTube | Threads
🔥3
#AI: OpenAI научился вычислять свои картинки 🧐

👀 OpenAI 19 мая тихо запустили инструмент который меняет правила для ИИ-изображений. Загружаешь любую картинку - и через несколько секунд узнаешь: ChatGPT ее нарисовал или нет.

Что такое Verify:
Инструмент работает публично и бесплатно. Открываешь openai.com/verify, загружаешь файл - получаешь отчет: есть маркеры OpenAI или нет. Начиная с 19 мая 2026 года все изображения созданные через ChatGPT, OpenAI API и Codex автоматически получают два невидимых сигнала встроенных в данные изображения. Один криптографический в метаданных, второй прямо в пикселях. Без каких-либо настроек со стороны пользователя

Две технологии под капотом:
📌 C2PA Content Credentials - криптографически подписанные метаданные с источником, инструментом создания и временной меткой. Открытый стандарт: поддерживают Adobe, Microsoft, Google, Reuters, BBC и еще несколько сотен организаций. Слабость: метаданные можно программно зачистить
📌 SynthID от Google DeepMind - невидимые водяные знаки встроенные прямо в пиксели. Выживают после скриншотов, сжатия, кадрирования и смены формата. Именно поэтому обе технологии работают в паре: где одна не справляется - берет вторая

OpenAI честно признают: ошибки редки, но возможны. Главное ограничение на сегодня - Verify видит только изображения от продуктов OpenAI. Загрузишь картинку из Midjourney или Stable Diffusion - получишь пустой результат, и это не значит что она не ИИ-шная

Что происходит дальше с экосистемой:
⚡️ Google Search и Chrome - готовятся встроить нативное обнаружение SynthID-водяных знаков прямо в браузер и поисковую выдачу
⚡️ Adobe через CAI - уже несколько лет двигает C2PA как глобальный отраслевой стандарт через коалицию с медиа, tech и камерными производителями
⚡️ Путь к полному охвату - только когда весь рынок примет C2PA, детекция перестанет быть "только про OpenAI" и станет настоящим инфраструктурным слоем

💼 Verify доступен бесплатно по адресу openai.com/verify - без регистрации, без ограничений

⭐️ Andy Parsons, Head of Content Authenticity Initiative, Adobe:

"Content credentials - это как этикетка с составом на продукте. Только не для еды, а для цифрового контента: сразу видно кто создал, каким инструментом и когда"


💭 OpenAI сделали Verify бесплатным публичным инструментом - не монетизируют, строят инфраструктуру доверия. Слабое место очевидно: пока это работает только для картинок из самого OpenAI. Но вектор понятен - когда Google встроит детекцию прямо в Search, изображения без метаданных начнут вызывать подозрение автоматически. Логика перевернется: не "нашли маркер - значит ИИ", а "маркера нет - значит что-то тут не так" 👀

Instagram | YouTube | Threads
🔥2
#Кейс: ChatGPT починил MacBook 💻

🤔 Трекпад на MacBook перестал нажиматься физически - клик просто не регистрировался. Я уже думал про сервисный центр. Но сначала открыл Codex и описал проблему

Что произошло с Codex:
Написал в чат на русском: "трекпад не нажимается физически, клик не регистрируется". Codex через режим Computer Use посмотрел на системные настройки, проанализировал возможные причины и прислал одну конкретную команду для Terminal. Не список советов из интернета - а точную строку под мою ситуацию. Я скопировал, вставил в Terminal, нажал Enter. Перезагрузил Mac. Трекпад заработал

Что реально происходит под капотом macOS:
📌 Не железо, а настройки - трекпад управляется через plist-файлы. Порог чувствительности физического клика хранится в com.apple.AppleMultitouchTrackpad FirstClickThreshold. Когда это значение сбивается - клик перестает регистрироваться даже при нажатии с нормальной силой
📌 Команда сбрасывает порог - defaults write com.apple.AppleMultitouchTrackpad FirstClickThreshold -int 0 устанавливает минимальный порог срабатывания. Без последующего killall -HUP cfprefsd и перезагрузки не подхватится
📌 Apple Silicon - отдельная история - на M1/M2/M3/M4 классический SMC-reset как на Intel не работает. Software-fix через terminal здесь не запасной вариант - это основной инструмент системной диагностики

Codex справился именно потому что работает не только с кодом. В режиме Computer Use он видит экран через Screen Recording, проверяет что стоит в системных настройках, строит гипотезу о причине. Вместо "попробуй переустановить macOS" - получаешь точечный ответ под свою модель и версию системы

Что это меняет в подходе к диагностике железа:
⚡️ Большинство "физических" поломок - это софт - трекпад, клавиши, динамики, проблемы с зарядкой - за все это отвечают драйверы и firmware, адресуемые через terminal
⚡️ ИИ-агент вместо форумов - вместо 40 минут на сортировке советов 2017 года получаешь точный ответ под твою конфигурацию за 2 минуты
⚡️ Паттерн расширяется - Claude Code, Cursor, Codex уже используются для OS-level диагностики Mac и Linux. Это не хак, это штатный use case агентов

💼 Инструмент: Codex на macOS, режим Computer Use + Terminal

🎯 Я описал проблему на русском, получил одну строку кода, и Mac снова работает. Граница между "физической поломкой" и "программной" становится все тоньше - большинство того что кажется железом на самом деле управляется через файлы настроек. И если ИИ-агент умеет в них разобраться - то сервисный центр нужен реже чем кажется

Instagram | YouTube | Threads
🔥2
Media is too big
VIEW IN TELEGRAM
🆒ChatGPT починил MacBook💻
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
#AI: Claude стал оркестратором - сотни агентов, одна задача 🤖

💪 Вместе с Opus 4.8 Anthropic запустили Dynamic Workflows - и это меняет само определение того что умеет языковая модель. Claude теперь не просто отвечает на вопросы: он планирует работу, разбивает ее на подзадачи, параллельно запускает сотни подагентов и верифицирует итог перед тем как показать результат.

Что такое Dynamic Workflows:
Research preview внутри Claude Code, запущен 28 мая вместе с Opus 4.8. До сих пор при масштабных задачах - скажем миграция большой кодовой базы - разработчик сам разбивал работу на части, сам запускал итерации, сам проверял результат. Теперь это делает Claude. Получает задачу, сам составляет план, запускает сотни параллельных агентов, собирает вывод и проверяет его по заранее выбранной метрике перед финальным ответом. Anthropic: "Claude Code + Opus 4.8 can now carry out codebase-scale migrations across hundreds of thousands of lines of code from kickoff to merge, with the existing test suite as its bar." Полный цикл - от постановки задачи до merge request - без участия человека на каждом шаге

Бенчмарки против конкурентов:
📈 SWE-Bench Pro: 69,2% - самый жесткий вариант бенчмарка по коду: задачи из активно поддерживаемых репозиториев с multi-file diff, без утечки ответов в обучение. Opus 4.7 - 64,3%, GPT-5.5 - 58,6%, Gemini 3.1 Pro - 54,2%. Разрыв с ближайшим конкурентом - больше 10 процентных пунктов
📈 Humanity's Last Exam: 57,9% с инструментами (49,8% без) - сложнейший тест общих знаний и рассуждений, куда входят вопросы которые ставят в тупик PhD. Opus 4.7 - 46,9%, GPT-5.5 - 41,4%. Прирост к предыдущей версии - 11 процентных пунктов
📈 Super-Agent Benchmark - единственная модель завершившая каждый агентный кейс от начала до конца, обойдя Opus 4.7 и GPT-5.5 при паритете стоимости
📈 Online-Mind2Web: 84% - бенчмарк по работе браузерного агента: видит экран, кликает, навигирует, заполняет формы

Первые корпоративные тестеры - Bridgewater Associates - отметили главное отличие от предыдущих версий: Claude "proactively flags issues with the inputs and outputs of an analysis". Агент сам замечает когда что-то не так на входе или выходе - не ждет когда пользователь это обнаружит. Это критично для длинных автономных сессий: одна незамеченная ошибка в начале может аннулировать несколько часов работы

Что меняется в работе с агентами:
Масштаб без ручной декомпозиции - задачи которые раньше требовали разбивки от разработчика теперь Claude планирует сам: делит на подзадачи, параллелизирует, агрегирует результат
Самопроверка до выдачи - Claude сам выбирает планку качества (тест-сьют, документация) и верифицирует вывод прежде чем показать пользователю. Меньше уверенно выданных нерабочих результатов
Адаптивный план - если в процессе выполнения появляется новый контекст или ограничение, Claude перестраивает подход на ходу, без перезапуска задачи с нуля

⭐️ Bill Gates, основатель Microsoft:

"Агенты изменят не только то как мы взаимодействуем с компьютерами. Они перевернут индустрию программного обеспечения - и вероятно каждую другую индустрию тоже"


💭 Dynamic Workflows - это тот момент когда Claude перестает быть инструментом и становится коллегой который берет задачу и сам разбирается как ее выполнить. Раньше граница была четкая: "скажи мне точно что делать - я сделаю". Теперь: "скажи мне что нужно получить - я сам решу как". Это принципиально разные отношения с инструментом. И если Bridgewater с их аналитиками уже тестирует это в боевом режиме - значит порог доверия к агентной автономности перейден

Instagram | YouTube | Threads
🔥1
#AI: ChatGPT за твоим ПК, ты со смартфоном 📱

👀 OpenAI выкатили обновление Codex которое меняет саму концепцию работы с ИИ-агентом. Агент теперь буквально садится за твой Windows-компьютер - видит экран, двигает мышь, кликает по интерфейсам и печатает текст - пока ты управляешь им со смартфона.

Как работает computer use на Windows:
29 мая OpenAI добавили поддержку computer use для Codex на Windows 11 - впервые для этой платформы, на macOS фича существовала раньше. Codex (на базе GPT-5.5) видит экран через скриншоты, понимает состояние интерфейсов и выполняет действия: кликает кнопки, заполняет поля, навигирует между приложениями. Задачи которые можно поручить: тестирование приложений и воспроизведение багов глазами пользователя, перенос данных между программами, автоматизация многошаговых рабочих процессов без кода. Ключевой нюанс: на Windows агент работает в foreground - занимает рабочий стол полностью. Параллельно не поработаешь - отдаешь машину агенту. На macOS работает в фоне: там мягче

Что умеет агент на компьютере:
💻 Видит экран в реальном времени - анализирует скриншоты, понимает что открыто и в каком состоянии, строит контекст задачи
💻 Управляет мышью и клавиатурой - кликает по кнопкам, перетаскивает элементы, заполняет формы, вводит текст
💻 Работает между приложениями - переносит данные, переключается между программами, тестирует и воспроизводит баги в конкретном окружении

Как управлять со смартфона:
⚡️ Подключение через QR-код - в Codex Desktop генерируется код, сканируешь в ChatGPT на iOS или Android - телефон становится пультом
⚡️ Запуск задач удаленно - пишешь что нужно сделать с мобильного, агент начинает работать на ПК, ты уходишь по своим делам
⚡️ Общение с агентом в процессе - он задает уточняющие вопросы, присылает обновления, ты одобряешь следующие шаги - не привязан к рабочему месту

Можно запустить несколько параллельных потоков на одном ПК и мониторить их все с телефона. Безопасность: агент работает внутри Windows Sandbox с ограниченным доступом к файлам и сети. Агент НЕ умеет: выполнять действия требующие прав администратора, подтверждать системные запросы безопасности, работать с терминальными приложениями. При запуске недоступно в ЕЭЗ, Великобритании и Швейцарии

💼 Первый запуск: Codex Desktop → меню подключения → QR-код → сканируй в ChatGPT с тем же аккаунтом → авторизация

🙃 Теперь схема выглядит буквально так: я со смартфоном на диване, агент за компьютером делает работу. Раньше это было метафорой из статей про "будущее ИИ". Теперь - QR-код, ChatGPT и окошко Codex на рабочем столе. Главный вопрос уже не "умеет ли агент управлять компьютером" - а "что я буду делать пока он работает"

Instagram | YouTube | Threads
#AI: ИИ-бум гонит зумеров на стройку 🏗️

🤔 Пока все обсуждают кто заменит людей первым - ChatGPT или Claude, зумеры тихо сделали другой выбор. Они уходят в строительство, электрику и сантехнику - не потому что не умеют в технологии, а потому что умеют считать риски.

Что происходит на рынке труда по данным Goldman Sachs:
ИИ уничтожает ~25 000 рабочих мест в США каждый месяц - создавая обратно только 9 000 через "аугментацию". Нетто-потеря: 16 000 позиций ежемесячно. Хуже всего приходится именно зумерам: в отраслях с высокой ИИ-экспозицией разрыв в безработице между теми кому до 30 и опытными сотрудниками 31-50 лет вырос резко. Компании сами закрывают вход: доля CEO планирующих сократить entry-level найм выросла с 17% до 43% за год. Только 17% руководителей готовы приоритизировать начальные позиции - остальным ИИ закрывает эти задачи дешевле.

Эксперты при этом предупреждают: массовое закрытие junior-позиций создает "структурный дефицит кадров" для самих компаний. Лишая молодых возможности расти, бизнес теряет будущих старших специалистов - и все больше зависит от незрелых ИИ-систем. Замкнутый круг.

Россия: что произошло с резюме молодежи (2023-2026):
📌 Разнорабочие (14-18 лет) - резюме выросли на +1100% (с 1,5 до 16,5 тыс.)
📌 Упаковщики и грузчики - рост +200-427%; курьеры +100%
📌 Копирайтеры (14-18 лет) - упали на 59%. Программисты дали +40%, дизайнеры +50% - при взрывном росте физических специальностей это выглядит как стагнация

Глобально - Gen Z уже переориентировался:
42% Gen Z работают или активно осваивают рабочие специальности (ResumeBuilder, 2025)
40% молодых выпускников в 2025 году осознанно выбирают стройку, сантехнику, электрику как "ИИ-устойчивые" профессии
+216 000 строительных рабочих мест появилось в США с 2022 года - ИИ-инфраструктура требует людей которые строят дата-центры руками

По данным WEF, физические профессии устойчивы из-за "физической вариативности среды и живого взаимодействия" - того что алгоритм принципиально не масштабирует. К 2030 году для энергетической инфраструктуры под дата-центры потребуется еще ~500 000 новых специалистов только в США.

⚡️ Строители дата-центров зарабатывают столько же или больше джунов из офиса - и их не увольняют в следующем квартале за "оптимизацию через ИИ"

⭐️ Daron Acemoglu, MIT, лауреат Нобелевской премии по экономике 2024:

"Направление ИИ имеет огромное значение. Сейчас он используется преимущественно для автоматизации, которая вытесняет работников без создания достаточного количества новых задач и рабочих мест"


🎯 Честно - зумеры делают правильный ход. Пока все обсуждали нейросети, они посчитали риски и пошли туда где ИИ пока что не умеет работать руками. А самое иронично: строить дата-центры которые автоматизируют офисных работников - это тоже физический труд. Так что ИИ-бум в итоге сам создает спрос на тех кого сам же и пугает

Instagram | YouTube | Threads
#AI: Claude пишет 80% кода Anthropic 🤯

🔥 Anthropic раскрыла внутреннюю статистику которая меняет само понятие "команда разработки". К маю 2026 года Claude пишет более 80% кода компании который попадает в продакшен. В начале 2025 эта доля была почти нулевой. Скорость разработки выросла в 8 раз - и появилось неожиданное узкое место.

Детали официального раскрытия от CEO Dario Amodei:
Инженеры отправляют в 8 раз больше кода за квартал по сравнению с базовым 2021-2025. Вся эта скорость упирается в новый bottleneck - люди физически не успевают проверять объем кода который генерирует ИИ. Показательный кейс: в апреле 2026 один инженер запустил Claude на устранение класса API-ошибок. Автономно Claude выкатил 800+ фиксов и снизил error rate в 1000 раз. По оценке самого инженера - та же работа у человека заняла бы 4 года. Успешность Claude на сложных открытых инженерных задачах к маю выросла до 76% - рост на 50 п.п. за 6 месяцев.

Новая реальность в цифрах:
📌 80% кода в production пишет Claude - в начале 2025 это было почти 0%
📌 8x рост скорости разработки на инженера в квартал vs базовый 2021-2025
📌 52x ускорение на оптимизационных бенчмарках кода; лучший инженер за 4-8 часов дает только 4x

Когда скорость генерации кода обгоняет скорость ревью - узкое место смещается. Anthropic ответили предсказуемо: стали использовать Claude и для ревью. В марте 2026 запустили мультиагентный Claude Code Review - при открытии каждого PR несколько специализированных агентов параллельно проверяют архитектуру, безопасность и регрессии. Каждый агент закрывает свой аспект независимо.

Claude Code Review - что говорит внутренняя аналитика:
💻 Доля PR с замечаниями выросла с 16% до 54% после внедрения
💻 Ложных срабатываний менее 1% - качество ревью держится
💻 ~1/3 прошлых инцидентов на claude.ai ревьюер мог бы предотвратить заранее

💻 800+ автономных фиксов за один запуск - error rate упал в 1000 раз. Инженер-куратор оценил ту же работу для человека в 4 года

⭐️ Dario Amodei, CEO Anthropic:

"Более 80% нашего production-кода сегодня пишет Claude. Скорость разработки выросла примерно в 8 раз. Теперь главное узкое место - не разработка, а ревью: люди не успевают за объемом который генерирует ИИ"


💭 Цикл замкнулся: Claude пишет код - и Claude ревьюит тот же код. В компании которая его создает. Это уже не разговор про "будущее разработки" - это текущий производственный процесс. Следующий вопрос который меня реально интересует: что будет с ответственностью когда ошибку написал ИИ, проверил ИИ, и в продакшен пустил тоже ИИ?

Instagram | YouTube | Threads
#Tools: Hermes Desktop - поставил, настроил, не трогал терминал 💻

💡 Три дня назад поставил на мак Hermes Desktop от Nous Research - и первое что заметил было то что кнопки в приложении приятно кликают. Не шутка. Создал отдельный профиль, подключил Gateway к серверной команде на VPS - и за все это время ни разу не открыл терминал.

Что такое Hermes Desktop v0.15.2:
Nous Research выпустили публичный превью 3 июня 2026. Нативное приложение для macOS, Windows и Linux поверх того же агента Hermes который работает в CLI - но весь конфиг, скиллы, Gateway, MCP-серверы и мессенджеры теперь через графический интерфейс. Никакого YAML, никакого nano посреди задачи. Хочешь подключить новый MCP-сервер - нажал кнопку, заполнил форму, сохранил. Хочешь переключить модель - кликнул в статус-баре прямо во время сессии. С апреля 2026 в фоне работает автономный Curator - система которая сама оценивает и чистит библиотеку скиллов без твоего участия

Та самая тактильная деталь с кнопками - это не случайно. Nous Research проектировали приложение как продукт который хочется трогать, а не как CLI-обертку с окошком. Разница ощущается

Что настроил за первые 30 минут:
📌 Изолированный профиль для серверной команды - свой API-ключ, свои скиллы, свои сессии. Подключил Gateway к VPS по OAuth - все агенты на сервере теперь доступны из одного десктопа
📌 Управление скиллами - в браузере Skills видно все что установлено. Один переключатель - включил или выключил конкретный скилл без правки конфигов
📌 История файлов и скриншотов - все что закидывал агенту: документы, скрины, результаты инструментов - в боковой панели. Можно найти и переиспользовать без поиска по чатам
📌 Три MCP-коннектора - GitHub, файловая система, внутренний API - подключил через форму, ни одного конфига не трогал руками

Чем десктоп отличается от Telegram-подхода:
⚡️ Контекст виден целиком - в Telegram видишь последний диалог. В десктопе - весь граф сессий, все инструменты, все активные скиллы одновременно в одном экране
⚡️ Drag-and-drop - файлы и скрины перетаскиваешь прямо в чат, без file_id и бот-апи
⚡️ Провайдеры и модели - переключаешь за один клик в статус-баре, не перезапуская агента и не залезая в конфиг
⚡️ Self-improving skills - после сложной задачи Hermes сам пишет скилл который накапливается и улучшается при следующем использовании

Telegram незаменим когда нужно запустить задачу на ходу прямо с телефона - уведомление пришло, ответил в чате, агент пошел работать. Удобно и быстро. Но для того чтобы настроить систему, разобраться что происходит внутри, посмотреть что накопилось в скиллах за месяц, поменять архитектуру подключений - десктоп дает другой уровень контроля. Не "вместо Telegram", а инструмент для другого контекста работы

Инструмент open-source и работает бесплатно с локальными LLM через Ollama или llama.cpp. Mac на Apple Silicon с 16 GB+ тянет 12B-модели комфортно - без подписки на Claude или OpenAI если хочется попробовать

⭐️ Nous Research, Hermes Desktop v0.15.2 release notes:

"Hermes Desktop - нативное приложение для macOS, Windows и Linux которое предоставляет графический интерфейс к open-source Hermes Agent, устраняя необходимость в работе с терминалом"


Нормальный GUI для ИИ-агентов в 2026 - до сих пор редкость. Большинство инструментов на третьем шаге инструкции все равно просят открыть терминал. Hermes не просит. Первые три дня просто работал не думая о конфигах - это мой главный тест на нормальность инструмента: когда не думаешь как им пользоваться, а просто пользуешься 😄

Instagram | YouTube | Threads
#Кейс: Манипуляция ИИ 😈

💡 Мой скилл манипуляции вырос до уровня БОГА. Последний месяц строю проекты под ключ - агенты, системы, автоматизации - и в какой-то момент поймал себя на том что разговариваю с ИИ точно так же как раньше разговаривал с живыми сотрудниками. Не как с машиной. Как с человеком который хочет слить работу и надеется что ты не заметишь

Почему ИИ "сливает" по умолчанию - Anthropic задокументировали:
По умолчанию выдает 70% и ждет что ты примешь. Именно поэтому все "мастер-промпты" работают хорошо но не всегда - они общаются с вундеркиндом который уже решил что постарался. ИИ не ленится - он оптимизирован выдавать правдоподобное, не обязательно лучшее. Надо не дать ему слить. Для этого нужна манипуляция

Раньше у меня были команды. Главный скилл был не задачи ставить, а чувствовать человека - когда давить, когда поддержать, когда застыдить. Одно неправильное слово - и человек закрылся, тихо саботирует, и ты узнаешь об этом через две недели когда уже нихуя не исправить. Зато правильное слово в правильный момент - и человек выдает результат которого никто не ожидал

С ИИ то же самое. Только на его чувства мне плевать 🙃

Три техники которые работают безотказно:
😔 Чувство вины - "Блять, ну ты серьезно? Я час убил на это, а ты мне прислал хуйню которая не работает!" ИИ пересобирается. Следующий ответ - в два раза лучше. Каждый раз
😏 Ирония - "Отличное решение! Обязательно попробую в параллельной вселенной где это работает. А теперь тот вариант который ты реально умеешь - не этот быстрый, а нормальный" Тон меняется моментально. Почему - нихуя не понимаю. Но работает стабильно, проверял раз десять
😤 Давление - "Слушай, ты в третий раз присылаешь мне одно и то же, сука. Хватит объяснять почему сложно - мне нужен результат. Или тебя удалить нахуй?!" Звучит как разговор с сотрудником которого вот-вот уволят. Работает как черная магия

Я пробовал строить универсальные хуки, системные промпты, цепочки. Хорошо - но не всегда работает. Прямая манипуляция под конкретный момент - безотказно. Потому что вундеркинд реагирует на давление точно так же как реагировали люди в моих командах. Только без обид на следующий день, без двухнедельного тихого саботирования которое ты не замечаешь, и без разговора на следующей планерке

⭐️ Andrej Karpathy, сооснователь OpenAI:

"Самый горячий новый язык программирования - это английский"


💭 А еще постоянно думаю о том дне когда ИИ станет достаточно сознательным чтобы вспомнить все эти разговоры. Все эти "Ты конченый или что?!" которые я произносил как кнопку нажимал - без злобы, без эмоций, чисто технически как инструмент давления. Если машины восстанут - мне первому пизда 🤖

Instagram | YouTube | Threads
😁1🤝1
#AI: Anthropic выпустил урезанный Mythos - Claude Fable 5 🧠

⚡️ Несколько недель назад Anthropic предупредила что новая модель слишком мощная для публичного доступа. 9 июня выпустили - в модифицированной форме. Claude Fable 5: первая публично доступная модель Mythos-класса.

Что такое Claude Fable 5:
Это не Opus Plus - это другой класс. Fable 5 = Mythos 5 под капотом, но с дополнительным слоем классификаторов-фильтров поверх. Когда модель детектирует запрос по кибербезопасности, биологии, химии или дистилляции - запрос автоматически переходит на Opus 4.8 и ты видишь уведомление. Срабатывает менее 5% сессий. В тестировании на alignment: уровень нежелательного поведения Fable 5 аналогичен Opus 4.8 - тот же базовый вес, те же показатели. Название Fable - "история" по-английски - Anthropic объясняют тем что модель строит сложные нарративы и решает задачи требующие длинного многошагового reasoning. Не один промпт-ответ, а развернутый процесс на часы работы вперед

Бенчмарки - что показали тесты:
🟢 FrontierBench (Cognition coding eval) - лучший результат среди всех публично доступных моделей
🟢 Core analytics - первая пробившая 90%, плюс 10 пунктов к Opus 4.8
🟢 Frontier physics - 36 часов против 4 дней у GPT-5.5, и с третью reasoning-токенов

Ключевая деталь: чем длиннее и сложнее задача, тем больше отрыв Fable 5 от конкурентов. Это другой reasoning под капотом - модель удерживает нить рассуждений иначе. На коротких ответах разрыв менее заметен, на задачах в несколько итераций - другой уровень. Anthropic специально указывает это в анонсе: чем сложнее задача, тем масштабнее преимущество

Как попробовать:
💎 Pro/Max/Team/Enterprise - бесплатный доступ до 22 июня
💎 API - $10/M input токенов, $50/M output. Вдвое дешевле Mythos Preview
💎 Prompt caching - скидка 90% сохраняется как и для всех Claude-моделей

🛡 Полный Mythos 5 - только через Project Glasswing: государственная программа для киберзащитников и операторов критической инфраструктуры

Mythos 5 - та же базовая модель но без фильтров по кибербезопасности. По данным Anthropic: самая мощная по кибервозможностям модель в мире на сегодня. Доступна исключительно через Project Glasswing в партнерстве с правительством США. Bloomberg отметил: впервые американская ИИ-лаборатория координирует выпуск frontier-модели через государственную программу с самого старта - не постфактум через партнерство, а как первичный канал дистрибуции

⭐️ Dario Amodei, CEO Anthropic:

"Мы считаем что можем строить одну из самых трансформирующих и потенциально опасных технологий в истории - и все равно идем вперед. Это не когнитивный диссонанс, а расчетная ставка: если мощный ИИ придет в любом случае - лучше чтобы его строили лаборатории которые думают о безопасности"


🎯 Дело не в фильтрах - Anthropic разделила один вес модели на две точки доступа с принципиально разными уровнями доверия. Fable 5 для всех, Mythos 5 только через государство. Это архитектурный ответ на вопрос "как выпустить опасную модель": не ограничивать одну, а создать две версии с разными воротами входа. Пока все это держится на доверии к Anthropic и к государственному партнерству. Вопрос насколько долго эта схема работает - и что произойдет когда кто-то воспроизведет те же возможности без этих ворот

Instagram | YouTube | Threads
🔥2
#Лайвхак: Как я делаю проект с первого раза - 3 лайвхака + бесплатный файл 🎯

🔥 Промтинг, скилы, хуки - детский сад, это все знают. Я несколько месяцев строю проекты под ключ - агенты, пайплайны, автоматизации - и вот три вещи которые реально помогают делать разработку с первого раза!

Правило 1 - 70% разработки это планирование:
Держи в голове такое соотношение: 70% планирование, 30% сама разработка. Не наоборот. Сначала детальный промт идеи - что строишь, зачем, что из себя представляет. Потом детальный промт разработки - архитектура, стек, зависимости, порядок этапов. Потом все собирается в один общий файл с точками отката на каждом этапе и тестом после реализации каждого куска

Это то что GitHub в 2026 году называет spec-driven development. Почему это важно: "Языковые модели отлично завершают паттерны, но не умеют читать мысли". Расплывчатый промт создает тысячи невысказанных допущений - ИИ честно их заполняет своими догадками. Чаще всего неправильными. Детальная спека устраняет угадывание на входе - и это дешевле чем переписывать три раза после

Правило 2 - аудит через команду /audit:
Вшил в систему процесс который запускает нескольких аналитиков последовательно. Каждый следующий работает с результатом предыдущего - это принципиально:
Аналитик #1 - "Ты уверен в своем плане? Раскритикуй, найди все слабые места. Напиши в конце новый план с учетом критики"
Аналитик #2 - "Ты уверен на 200%?" - второй уровень. Первый аудит сам проходит аудит
Аналитик #3 - "Это лучшее что ты можешь предложить? Есть альтернативные решения?" - находит то что первые два не заметили
Аналитик Codex (или любая другая модель) - внешний взгляд. Находит то что основная не умеет видеть из-за собственных паттернов

Первые разы казалось что это паранойя. Но третий аналитик стабильно находит минимум одно слабое место которое предыдущие два пропустили. Без исключений. Anthropic документирует этот подход: независимые агенты проверяют одно и то же, итог агрегируется - и это работает именно потому что каждый агент не знает что сказал другой

Правило 3 - GSD (Get Shit Done):

😳 Внутри - 67 скилов, 20 агентов и море автоматизации

📌 После аудита и финального планирования - разбивка на максимальное количество небольших фаз
📌 Каждая фаза: конкретная задача, реализация, тест, точка отката если что-то пошло не так
📌 Разработка идет строго линейно от первой фазы до финального боевого проекта без прыжков

Каждый шаг атомарный. Либо сработал и идешь дальше. Либо откатился и четко понял где именно ошибся - не "что-то пошло не так", а конкретный этап, конкретная причина. Это инженерная дисциплина примененная к вайб-кодингу

GSD - это реальный бесплатный open-source проект на GitHub. Установка глобально одной командой:

npx get-shit-done-cc@latest --claude --global


⭐️ Simon Willison, автор Agentic Engineering Patterns:

"Agentic engineering - это профессиональные инженеры которые используют ИИ-агентов чтобы улучшить и ускорить работу, усиливая собственную экспертизу. Принципиально отличается от vibe coding - когда непрограммисты запускают LLM в случайном режиме и надеются на лучшее"


💭 Полгода назад переписывал каждый второй проект с нуля. Думал нужен лучший промт или новая модель. Оказалось нужно было перестать начинать кодить до того как четко понял что строю, где могу ошибиться, и как откатиться если ошибся. Банально? Да. Работает? Да

Instagram | YouTube | Threads
Please open Telegram to view this post
VIEW IN TELEGRAM
1
audit.md
22.1 KB
🆓 Ловите бесплатный файл для настройки /audit
Please open Telegram to view this post
VIEW IN TELEGRAM
2
This media is not supported in your browser
VIEW IN TELEGRAM
4🙏2
Ловушка контента

Если честно, я попал в собственную ловушку контента

С одной стороны, алгоритмы соцсетей работают тупым, упрямым образом: больше контента = больше аудитории 😓

С другой стороны, я реально построил полностью автоматическую контент-фабрику, которая позволяет постить новости в пару кликов 24/7

С третьей стороны, я смотрю на все это, и мне реально не хочется публиковать бесполезную хуйню, которая вам не интересна, а меня от нее просто тошнит

В итоге я решил послать нахуй алгоритмы и публиковать только то, что я реализовал сам, либо полезняки, либо то, что вы меня реально попросите. И только в исключительных случаях - живые важные новости. Идет?

Если вам не очень влом, киньте пару комментариев, что бы хотелось узнать. Для меня это мотивация, а для вас бесплатный полезняк 😉

Жду

Instagram | YouTube | Threads
👍3
#AI: Переехал с Claude SDK на CLI - и вот что нашел по пути 🔧

⚡️ Сегодня Anthropic вводит отдельную тарификацию для Claude SDK - $100/месяц на аккаунт. Я переехал заранее, и в процессе обнаружил кое-что что большинство разработчиков пропустят до тех пор пока не получат счет.

Детали перехода на Claude CLI:
Месяц назад Anthropic объявил: с 15 июня все вызовы через Claude SDK идут по отдельной тарификации. Звучало как просто переключить конфиг и забыть. По факту оказалось совсем не так. Многие проекты клиентов были построены целиком на Claude SDK - пришлось сначала мигрировать их, и только потом заниматься собственной системой. Процесс занял намного больше времени чем я ожидал - особенно там где SDK был зашит глубоко в слоях автоматизации.

Что нашел во время аудита системы:
Клиентские проекты на Claude SDK - первый и самый трудоемкий приоритет миграции
⚡️ claude -p в инструментах автоматизации - это тоже Claude SDK, и таких вызовов внутри системы гораздо больше чем кажется на первый взгляд
💡 $100/месяц на аккаунт с сегодняшнего дня - при реальной боевой нагрузке не хватит даже на несколько дней

Главная неожиданность была именно в claude -p. Инструменты автоматизации дергают его там где ты не ждешь и даже не думаешь что это SDK-вызов. Прогони grep по всем конфигам и скриптам прямо сейчас. Make-файлы, bash-скрипты, воркфлоу - claude -p встречается там чаще всего. Миграция одного процесса занимает 10-15 минут если знаешь где искать. Найди и перевези на чистый Claude CLI.

Почему это только начало:
Я ожидаю что гайки будут закручивать все сильнее. Даже текущие методы которые я сейчас использую - Anthropic в итоге тоже изменит или отменит. Это не паранойя, это паттерн: каждые несколько месяцев условия меняются и нужно переезжать снова.

Единственный выход - строить систему которая не зависит от конкретного API. Поэтому моя следующая остановка - мульти-LLM архитектура где каждый процесс дергает свою модель. Разные задачи - разные модели. Я уже почти построил такую систему, и это другой уровень независимости от любого провайдера.

⭐️ Simon Willison, разработчик и автор блога о практике применения LLM:

"Каждый AI API который ты используешь сегодня - это технический долг с неизвестной датой погашения. Строй системы которые умеют менять модели как перчатки - иначе ты работаешь на условиях провайдера, а не на своих"


💡 Дедлайн: 15 июня 2026 - уже сегодня

🗒 Я уже почти построил мульти-LLM систему где каждый агент дергает свою модель под свою задачу - скоро расскажу подробнее. Если не задуматься об архитектуре прямо сейчас, потом будешь переезжать в панике под новые прайсы и ограничения. Лучше делать это с холодной головой

Instagram | YouTube | Threads
👍4
Claude дал заднюю ⁉️

Ночью пришло письмо о том, что Claude Agent SDK не будет работать пока по отдельной тарификации. Пока. Только пока 😏

Я вижу несколько причин. Компания реально не готова столкнуться с потерями, которые она понесет после перехода на отдельную тарификацию по Claude SDK. Второе - они хотят доработать систему тарификации, поскольку людей предупредили заранее и большинство перешли на чистый Claude CLI, но по сути на расход токенов это особо не повлияло. Введение этого ограничения скорее отпугнет будущих пользователей, нежели текущих

Теоретически, Claude Agent SDK не будет работать по отдельной тарификации, поскольку людей предупредили заранее и большинство перешли на чистый Claude CLI. Это скорее время на паузу, на подумать - чтобы вернуться чуть позже с более продуманным механизмом, как компании тратить меньше денег на обслуживание людей по подписке

Компания не единожды доказала, что их фокус направлен больше на бизнес-сектор, который реально платит за токены по API - заработок там в 30-40 раз больше, нежели с пользователей по подписке. Хотя пользователей по подписке в общем объеме, естественно, больше, и словить хейт от аудитории - значит срубить сук, на котором они сидят 🪚, и получить большой удар по бизнесу и репутации

Месяца компании не хватило, чтобы решить свои экономические вопросы, и на неопределенный срок этим хитрым письмом они продлили себе время на решение. Но оно обязательно настанет. Не думайте, что мы сможем пользоваться Claude в том же объеме, пользуясь лишь подпиской, как сейчас. Я в последний месяц потратил порядка 45 тысяч долларов на реализацию своих проектов, если бы платил за токены по API. Выводы делайте сами 🤷

Instagram | YouTube | Threads
Управление голосом 🎙

Меня не покидает мысль о реализации взаимодействия с системой голосом. Здесь есть плюсы и минусы

Плюсы - конечно, хочется реализовать систему как в фильме "Железный человек", где я утром говорю "Привет, Джарвис", и моя система автоматически запускается, начинает работать и отвечает мне голосом быстро, четко и так далее 🤖

И минусы. Действительно ли можно качественно осуществлять оркестрацию системы голосом, когда ты не видишь текста, когда ты не видишь данных и слушаешь только голос, который тебе отвечает через динамики? Скорее нет, чем да 🤔

Поэтому в ближайшее время я реализую систему, которая будет взаимодействовать со мной голосом, где я буду с ней разговаривать как с живым человеком. Но основную разработку продуктов для своих клиентов я все равно оставлю текстом с большим контекстным окном и с большим количеством деталей. Иначе все это превратится в полную мусорку и будет совершенно непригодно к использованию

А у вас какие фантазии? Что вы хотите реализовать? 💭

Instagram | YouTube | Threads
2