Mat Intellect 😎
88 subscribers
84 photos
1 video
1 file
68 links
Канал Mat про ИИ
Подписывайся 👇
https://www.instagram.com/matintellect
https://www.youtube.com/@Matintel
Download Telegram
#AI: Claude Code - несколько агентов, один контроль 🤖

⚡️ 11 мая Anthropic выпустила Agent View в Claude Code - исследовательский превью, который меняет саму модель работы с ИИ в разработке. Не обновление интерфейса - смена подхода к тому, как ты вообще думаешь о задачах

Что такое Agent View:
Единый CLI-дашборд, собирающий все фоновые сессии агентов в одном месте. Фоновые агенты продолжают работать независимо от активной вкладки - контекст не теряется. Каждая строка в списке показывает: ID сессии, ждет ли агент ответа, последнее действие и время последнего взаимодействия. Завис агент и ждет ввода - сразу видно. Никакого угадывания "а он вообще еще работает?"

Что видишь по каждой сессии:
📌 ID сессии - уникальный идентификатор, чтобы не путаться между задачами
📌 Статус ожидания - явно видно если агент ждет твоего ответа прямо сейчас
📌 Последний ответ агента - что делал без необходимости открывать каждую сессию
📌 Время последней активности - когда была последняя операция в этой ветке

Координация между параллельными агентами идет не напрямую - между собой они не разговаривают. Вместо этого: shared task list, общий файл на диске, который все агенты читают и в который пишут. Звучит просто, но это дает полную прозрачность и аудит каждого шага без магии

Как выглядит реальный пайплайн:
⚡️ Агент 1 - пишет новый модуль, работает в фоне пока ты занят другим
⚡️ Агент 2 - параллельно ищет баги в уже написанном коде
⚡️ Агент 3 - разбирает документацию или гоняет тесты
⚡️ Ты - переключаешься между сессиями и подхватываешь любую с того же места

Foreground-агент блокирует основной диалог до завершения - используй для операций где нужно подтверждение на каждом шаге. Background-агент работает автономно и сам отклоняет действия, требующие разрешения, не выданного заранее. Для долгосрочных задач типа PR-мониторинга - время следующего запуска видно прямо в списке, без необходимости гадать жив ли процесс

Доступно на планах Pro, Max, Team, Enterprise и через Claude API. Требуется Claude Code v2.1.139+. Anthropic уже опубликовали production-кейс: команда параллельных агентов собрала C-компилятор с нуля. Не концепт - реальный engineering-проект с разбором на anthropic.com/engineering

💻 Версия: Claude Code v2.1.139+ - обновись прямо сейчас

⭐️ Satya Nadella, CEO Microsoft, Microsoft Build 2025:

"Мы движемся от эпохи копилотов к эпохе агентов. Каждый бизнес-процесс будет переосмыслен с ИИ-агентами"


💭 Когда появляется Agent View - это не "открой несколько вкладок". Это смена ролевой модели. Ты перестаешь быть разработчиком который пишет код - ты становишься менеджером штаба который ставит задачи и контролирует исполнение. Разница как между водителем и диспетчером автопарка. Anthropic методично строят именно этот сдвиг

Instagram | YouTube | Threads
🔥2
#AI: Агенты ломаются - виновата не модель ⚙️

💡 Ставишь Claude, GPT, Gemini - лучшее из доступного. А агент все равно падает. Каждый запуск для него как первый день на работе: без памяти, без роли, без маршрута.

Где реально ломаются агентные системы:
Компании зациклены на точности модели и игнорируют инфраструктурный слой - именно там тихо разваливается все: пайплайны данных, логика оркестрации, retrieval-системы, downstream-воркфлоу. По данным исследований, более 80% ИИ-внедрений проваливаются в первые 6 месяцев - и почти всегда проблема не в модели. Если агент надежен на 85% на каждом шаге, 10-шаговый воркфлоу успешно завершится только в ~20% случаев. Не потому что модель ошиблась - потому что система не умеет делать checkpoint, восстанавливаться после частичного сбоя или продолжить с места остановки

LLM по природе stateless: каждая новая сессия начинается с нуля пока история явно не передается при каждом вызове. Базово подключенная нейросеть - это не агент. Это умный стажер которому каждый день заново объясняют где задачи, где контекст, где правила и почему нельзя трогать прод без проверки

Что нужно агенту чтобы работать по-настоящему:
Память - что сделано, что провалилось и почему, чтобы не повторять одни ошибки
Роль и права - что брать в работу, что не трогать, где граница полномочий
Маршрутизация - какую задачу в какой ситуации взять и кому передать
Проверка результата - кто и как подтверждает что сделано правильно
Уборка контекста - как не тащить старый мусор в новую задачу

Microsoft в 2025 выпустил whitepaper по таксономии провалов агентов: goal hijacking, злоупотребление инструментами, отравление памяти, каскадные отказы в multi-agent системах. Это не ИИ-специфика - это классические проблемы надежности распределенных систем которые давно решены в инженерии. Anthropic отдельно опубликовали гайд по управлению контекстом для агентов - потому что контекст это операционка агента, не просто удобство

Модель - двигатель. Операционка вокруг агента - машина. Без руля, тормозов и навигации получаешь ревущий мотор на полу гаража. Мощно звучит - ехать невозможно

Еще год назад спорили какой промпт написать чтобы агент наконец заработал. Сейчас важнее другой вопрос: что агент помнит, какую роль выполняет, какие задачи имеет право брать и куда складывает результат. Вот почему я сейчас так много ковыряю не сами модели, а skills, Notion, память, роутинг и роли. Со стороны выглядит как задротство - "Mat, ну просто поручи агенту задачу". Но "просто поручить" работает один раз. Если повезло. Мне нужна повторяемость: система которая завтра снова увидит контекст, возьмет правильную карточку, сделает результат, положит его в нужное место и не сломает соседний процесс. Вот это и есть реальная автономность - не когда агент красиво болтает, а когда его работу можно проверить

⭐️ Jeff Bezos, основатель Amazon:

"Good intentions don't work. You have to have a mechanism to make it work"


🎯 Перестань ждать модель которая сама все поймет. Начни строить среду в которой агенту есть что понимать - и тогда любая следующая модель станет лучше автоматически

Instagram | YouTube | Threads
💯1
🧠 Как качественно настроить ПАМЯТЬ

Я детально расскажу на примере Claude, но эти принципы подходят и для ChatGPT и других LLM

Представь что у Claude в голове 8 разных коробок с заметкамиℹ️
Какие-то всегда лежат на столе (он их читает каждый раз когда открываешь новую сессию), какие-то на полке (достаёт только когда тема всплывает)👇

1️⃣ Коробка 1: CLAUDE.md - постоянная прошивка проекта
Обычный текстовый файл с названием CLAUDE.md, который лежит в папке проекта. Claude читает его автоматически в первую секунду каждой новой сессии. Туда пишут: кто ты, как с тобой разговаривать, какие у проекта правила, где что лежит. Без этого файла Claude каждый раз с тобой знакомится заново

Что настраиваешь: создаёшь файл, наполняешь правилами, кладёшь в корень проекта

2️⃣ Коробка 2: MEMORY.md - текущие дела (холодильник с записками)
Ещё один текстовый файл с названием MEMORY.md. Короткий список того что происходит прямо сейчас: что делаем, что ждёт ответа, что должно сработать через неделю. Тоже загружается автоматом каждую сессию, но с лимитом — туда влезает примерно 4-5 страниц (25 килобайт). Когда переполняется - старые записки уезжают в архив

Что настраиваешь: создаёшь файл, договариваешься с Claude в каком формате туда писать (например, «📌 Open Items», « Done», «🗄 Archive») и когда и как делать архивацию ненужного

3️⃣ Коробка 3: правила и уроки (feedback_*.md)
Маленькие файлы которые часто называют feedback_что-то.md — типа «при ситуации X делай Y». Это уроки которые Claude выучил из прошлых ошибок. Их много, и читать все каждый раз нельзя - иначе займёт всё место. Поэтому он лезет за конкретным правилом только когда задача совпадает с темой

Что настраиваешь: папка memory, внутри файлы с понятными именами, и один общий индекс типа feedback-index.md

4️⃣ Коробка 4: отчёты о прошлых сессиях (session_*.md)
Файлы типа session_2026-05-14.md. Тоже по запросу: если сегодня нужно вспомнить что вы решили на прошлой неделе - Claude находит нужный файл и читает

Что настраиваешь: договариваешься с Claude в конце важной сессии писать короткий отчёт в этом формате

5️⃣ Коробка 5: Supermemory - облачная умная память
Это отдельный сервис в облаке под названием Supermemory (есть и альтернативы - Mem0, Letta, Zep). Запоминает важные куски ваших разговоров. Когда сессия заканчивается, специальный автозапуск (срабатывает сам) вытаскивает важное и кидает туда. В новой сессии можно спросить по смыслу «а мы когда-то обсуждали X?» и оно найдёт даже если ты говорил совсем другими словами

Что настраиваешь: регистрируешься в Supermemory (или альтернативе), ставишь плагин-переходник к Claude (это называется MCP - Model Context Protocol), настраиваешь автосохранение в конце сессии

6️⃣ Коробка 6: Obsidian - личные заметки и знания (вики)
Obsidian - это бесплатная программа для заметок (можно заменить на Notion, Logseq, простую папку с .md файлами). Там ты копишь годами свои статьи, конспекты, инструкции. Claude лезет туда по запросу через плагин-переходник (тот самый MCP)

Что настраиваешь: ставишь Obsidian, создаёшь хранилище заметок, добавляешь плагин obsidian-mcp чтобы Claude мог в это хранилище читать и писать

7️⃣ Коробка 7: Notion и подобные базы данных

Notion (или Airtable, Google Sheets, обычная база данных) - для вещей где важна точность: цифры, статусы, даты, списки клиентов, оплаты. Главное правило - не дублировать эти данные в коробки 2 и 4. Иначе цифра в одном месте разойдётся с цифрой в другом, и непонятно где правда

Что настраиваешь: создаёшь базы в Notion, ставишь notion-mcp плагин-переходник, прописываешь в CLAUDE.md правило «Notion = главный источник правды для X, Y, Z».

8️⃣ Коробка 8: контекст текущей сессии (рабочий стол)
Это всё что вы наговорили в текущем окне чата. Пока сессия открыта - Claude помнит каждое сообщение. Закрыл окно - рабочий стол очистился. Чтобы важное не пропало - оно должно быть записано в коробки 1, 2 или 5, иначе исчезнет

Что настраиваешь: ничего, оно работает само. Но нужно понимать его лимит - про это ниже

Instagram | YouTube | Threads
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍1
⚠️Лимит контекста - что это и почему важно

В одной сессии Claude может удержать в голове примерно 1 млн токенов. Звучит много, но не бесконечно

Что съедается автоматом ещё до первого твоего сообщения:
- CLAUDE.md (коробка 1)
- MEMORY.md (коробка 2)
- Технические описания всех инструментов и плагинов которыми Claude умеет пользоваться

Уже на старте съедено примерно 5-10% (а у некоторых 15-20%) бюджета💵. Дальше каждое сообщение и каждое действие тоже занимают место

Когда заполнено на 80-90% - Claude сам сжимает старую часть разговора (это называется компакция, compaction): берёт сто страниц переписки и переписывает в пять страниц краткого пересказа. Разговор идёт дальше, но мелкие детали из начала могут потеряться

Когда вообще закончилось - сессия начинается заново в новом окне (команда /clear). Чтобы важное не пропало в момент перезагрузки - оно должно быть заранее записано в коробки которые грузятся автоматом (CLAUDE.md, MEMORY.md) или в облачную умную память (Supermemory). Иначе исчезнет.

---

💯Что нужно настроить чтобы система заработала (минимум)

1. CLAUDE.md в корне проекта - с твоими правилами и контекстом
2. MEMORY.md в той же папке - с текущими делами
3. Папка memory/ для уроков (feedback_*.md) и отчётов (session_*.md)
4. Supermemory или альтернатива - для умной памяти между сессиями
5. MCP-плагины к нужным сервисам (Obsidian, Notion, что у тебя есть)
6. Автозапуск в конце сессии (так называемый Stop hook) - чтобы важное само улетало в Supermemory
7. Ротация - чтобы не проверять руками лучше всего настроить систематических аудиторов (cron-ы), которые проверяют чтобы твои файлы памяти качественно ротировались и лишнее/неактуальное своевременно уходили в архив

---

Главная мысль одной фразой
Память Claude - это не одна большая коробка, а 8 разных мест с разными правилами: одни всегда на столе (CLAUDE.md, MEMORY.md), другие на полке (feedback_*.md, session_*.md), третьи в облаке (Supermemory), четвёртые во внешних сервисах (Obsidian, Notion). Чтобы система не разваливалась - нужно понимать какая коробка для чего, и не дублировать одно и то же в разных местах

Тогда память будет качественно работать в долгосрок, а именно этого мы и добиваемся 😎

Instagram | YouTube | Threads
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
#Tools: Codex - как работает у меня? 👀

💡 Claude иногда уверенно завершает ответ на коде с багом - и сам же говорит "готово". Я это обнаруживал глазами или когда что-то ломалось через час в работающей системе. Сейчас перед каждым финальным ответом Codex автоматически читает все правки и выносит вердикт

Что такое Codex и как работает логика:
Codex - автономный облачный агент от OpenAI для проверки кода, анонсирован в мае 2025. Запускается в изолированном контейнере в режиме только чтения: физически не может ничего изменить, только читать и анализировать. Интернет во время работы отключен - агент видит только код и зависимости из репозитория

Два ИИ, обученные разными командами на разных данных, систематически ошибаются в разных местах. Claude написал код - Codex смотрит на те же правки независимо. То что первый пропустил, второй зацепит. Это не про то кто умнее - это принцип второго взгляда который в разработке работает всегда. В конце Codex пишет на русском: "ВЕРДИКТ: чисто" или "ВЕРДИКТ: есть замечания" с конкретным списком по формату файл: строка - суть

Как собрана система - три части:
📌 Автозапуск на финише - когда Claude собирается завершить ответ, срабатывает хук. Проверяет три вещи: есть ли реальные правки в сессии, действительно ли что-то менялось, не запускался ли Codex только что. Если все совпало - запускает проверку и возвращает анализ до финального ответа Claude
📌 Ручной запуск через skill - в любой момент прошу Claude запустить проверку прямо сейчас. Полезно когда хочу прогнать повторно после исправлений, или проверить кусок кода до завершения работы
📌 AGENTS.md в каждом проекте - файл с инструкциями для Codex в корне репозитория: что разрешено и запрещено, стилевые правила, архитектурные ограничения. Открытый стандарт - аналог CLAUDE.md у Anthropic. Codex читает файл сам перед каждой проверкой

Что Codex ищет в каждой проверке:
Баги и логические ошибки которые при быстром написании легко не заметить
Дыры в безопасности - оставленные пароли, небезопасный ввод, SQL-инъекции
Нарушения паттернов проекта прописанных в AGENTS.md
Пограничные случаи которые автор пропустил

В марте 2026 Codex Security отсканировал 1,2 млн коммитов открытых проектов и нашел около 800 критических и больше 10 000 high-severity уязвимостей в Chromium, OpenSSL и PHP. Это иллюстрация принципа: даже в коде который проверяли годами - второй независимый ревьюер находит то что пропустили все до него

Доступно на подписке ChatGPT Plus $20/мес - базовый план, не отдельный тариф. Codex работает в фоне в облаке и возвращает результат через 1-30 минут. На одну и ту же сложную задачу тратит ~1.5M токенов против ~6.2M у Claude Code - быстрее и легче для параллельной проверки

💻 Производительность: SWE-bench Pro ~57-59% - паритет с Claude Code на сложных инженерных задачах

🎯 Раньше "второй взгляд на код" означало ждать коллегу или перечитывать самому через час. Сейчас это 20 секунд пока Codex читает правки и выносит вердикт. $20 в месяц которые спасают часы отладки - самая лучшая инвестиция в систему которую я делал за последнее время

Instagram | YouTube | Threads
Please open Telegram to view this post
VIEW IN TELEGRAM
2
#Tools: Codex у меня прямо в телефоне 📲

🔥 До вчерашнего дня для удаленного управления Codex нужен был отдельный SaaS-инструмент с отдельной подпиской. OpenAI 14 мая выкатили нативную интеграцию прямо в ChatGPT Mobile - и убили целый класс сторонних решений одним релизом

Как работает мобильное управление Codex:
Принцип простой: Codex продолжает работать на твоей основной машине - Mac, devbox или корпоративном сервере. ChatGPT на телефоне становится нативным пультом управления этим агентом. Никакой дополнительной инфраструктуры и промежуточных сервисов

Подключение через QR-код: Codex для Mac показывает QR в настройках, сканируешь из приложения ChatGPT - соединение устанавливается через зашифрованный relay-слой без открытия машины в публичный интернет. Файлы, учетные данные и локальный контекст остаются на хосте. На телефон передаются только обновления и результаты работы - не исходники, не секреты. Это не облачный агент которому нужно доверить репозиторий - это терминал к своей собственной машине

Что управляешь с телефона:
⚡️ Запуск задач - ставишь Codex новую задачу не открывая ноут
⚡️ Живой мониторинг - скриншоты, дифы и результаты тестов в реальном времени пока агент работает
⚡️ Управление ходом - одобряешь или отклоняешь следующие шаги, меняешь направление на ходу
⚡️ Полный контроль - все треды, переключение между моделями из одного места

На практике это закрывает конкретный кейс: поставил Codex сложную задачу, ушел на встречу - телефон показывает что происходит и пингует когда нужно одобрить следующий шаг или что-то пошло не так. Агент продолжает работать на нормальном железе, ты принимаешь решения откуда угодно. Без компромисса по мощности ради мобильности

Одновременно с мобильным интерфейсом добавили два корпоративных апдейта: SSH-подключение к enterprise-серверам (Codex теперь работает на корпоративной инфраструктуре, не только на локальной машине) и HIPAA-compliance для Enterprise-пользователей. Сигнал что OpenAI целятся не только в индивидуальных разработчиков, но и в команды с жесткими требованиями к данным

Одно ограничение пока есть: хост только Mac. Поддержка Windows в планах. Релиз вышел в режиме preview, но функциональность уже рабочая

💻 Доступно на всех планах: Free, Plus, Go, Enterprise - без доп. оплаты

Мощный агент сидит на нормальной машине - телефон только терминал для управления им. Это правильная архитектура: вычисления там где мощь, интерфейс там где удобно. Обновляй Codex для Mac, сканируй QR из ChatGPT. Минус еще один SaaS из стека

Instagram | YouTube | Threads
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
#AI: СНОВА ПЕРЕЕЗД! 14 агентов с Claude на ChatGPT 🤬

⚡️ Выходные уже расписаны: переевожу 14 агентов с Claude на ChatGPT. Anthropic 13 мая объявили - с 15 июня Agent SDK и claude -p выходят из подписки в отдельный кредитный пул

Что именно меняется с 15 июня:
Anthropic отделяет агентскую нагрузку от интерактивного использования. До 15 июня - сколько угодно агентских вызовов в рамках подписки. После - кредитный пул по тарифу: Pro $20/мес, Max 5x $100/мес, Max 20x $200/мес. Кредиты сгорают ежемесячно, не переносятся. Это перевод агентского трафика с подписочных цен на тариф ближе к API

Под счетчик: Agent SDK, claude -p, Claude Code в GitHub Actions, сторонние приложения с Agent SDK-авторизацией. Не затронуто: интерактивный Claude Code в терминале и веб-чат. Те кто работает через API Key - изменений не заметят. Пострадают конкретно разработчики которые запускали автоматизацию через потребительскую подписку

Eligible-пользователи получат письмо с инструкцией забрать кредит до 15 июня - проверь почту и настройки подписки

Почему 14 агентов - это проблема:
📌 Все 14 живут на VPS - работают в фоне в Telegram, обрабатывают входящие, роутят запросы
📌 Все ходят через Agent SDK - именно это Anthropic ставит на счетчик
📌 14 параллельных агентов - это не "несколько редких вызовов в день"

С 15 июня весь этот трафик начнет есть из Pro-кредита. $20 в месяц на 14 параллельных агентов - это жесткий лимит который кончится быстро

ChatGPT Pro пока работает без отдельного агентского счетчика и включает Agent Mode, GPT-5.5 и Deep Research. ChatGPT сейчас не уступает Claude на агентских задачах - и при почти безлимитной подписке это очевидный выбор для фоновой автоматизации

Мой план на ближайшие выходные:
🟢 Переезжают на ChatGPT - все 14 Telegram-агентов на VPS
🟢 Остается на Claude - интерактивный Claude Code в терминале, вся работа с кодом руками
🟢 Дедлайн - до 15 июня перенастроить, протестировать, переключить трафик

Работать теперь будет так. Халява должна была закончиться рано или поздно и лучше рано 😎

Instagram | YouTube | Threads
Please open Telegram to view this post
VIEW IN TELEGRAM
😢2
#AI: Жду ИИ-хтони. Она уже началась 👾

🤔 Все разговоры про "пузырь ИИ", "кто ревьювить будет слоп от агентов" и "кожаный выгоднее" - это временные дискуссии людей которые пропускают главную мысль. Корпорации не уговорят принять ИИ-кодинг через мотивационные спичи CEO - заставит старый добрый Бенджамин Франклин.

Сигналы уже идут - читал отчет Google Threat Intelligence за май 2026:
Они фиксируют агентские системы с LLM которые просто ходят по интернету и занимаются взломом. В мае 2026 задокументировали первый реальный кейс - ИИ создал zero-day эксплойт в боевой атаке. Microsoft считает 600+ млн кибератак в сутки на своих клиентов, ransomware вырос в 2.75x год к году - и это еще до того как Mythos-класс моделей стал широко доступен

Anthropic сделали Mythos - подключаешь в Claude Code и получаешь одновременно лучший кодинг-агент и лучшего эксперта по ИТ-безопасности на планете. Нашла тысячи zero-day в каждой крупной ОС, каждом браузере. У OpenAI аналог - серия Cyber с ограниченным доступом через Trusted Access. К обоим не пробиться с улицы - нужен аудит компании, большинство разработчиков никогда не пройдут этот фильтр

Кто уже в клубе Project Glasswing:
📌 Amazon, Apple, Microsoft - ключевые партнеры программы
📌 Cisco, CrowdStrike, Palo Alto Networks - работают с Mythos для защиты
📌 $100M кредитов Anthropic выделила на программу
📌 Linux Foundation - защита критической опенсорс-инфраструктуры

Как это сломает рынок когда Mythos выйдет в опенсорс:
⚡️ Первый месяц - злоумышленники запускают рой агентов, автоматический взлом всех кто не партнер Anthropic или OpenAI
⚡️ Первая большая корпорация ложится - шифровальщик на всю корп-сеть, это больше не гипотетика
⚡️ После этого события - "дискуссия про ИИ-агентов" в ИТ-департаментах превращается в вопрос выживания бизнеса
⚡️ Те кто в клубе - агент-защитник плюс лучший кодинг-инструмент одним пакетом
⚡️ Те кто вне - 24/7 атаки и очередь к Anthropic/OpenAI, которая может и не принять

Китайские лабы здесь дополнительно теряют. Основной способ получить Mythos-уровень возможностей - дистилляция через американские модели. Anthropic уже назвала публично: DeepSeek, Moonshot и MiniMax гнали 16+ млн запросов через 24 000 фейковых аккаунтов для кражи логики агентских рассуждений и кодинга. "Доступ по спискам" к Mythos и Cyber серьезно замедляет этот маршрут - в опенсорсе аналог появится, но займет больше года

💼 Anthropic и OpenAI еще даже не начали зарабатывать основные деньги - пик придет после первой крупной корпоративной катастрофы от ИИ-атаки

⭐️ Mikko Hyppönen, Chief Research Officer, WithSecure:

"ИИ не делает преступников умнее - он делает их быстрее. В кибербезопасности скорость решает все: защитникам нужны дни на патч, злоумышленникам минуты на эксплойт"


💭 Жду этого момента - не потому что хочу чтобы кто-то пострадал, а потому что только после первой реальной корпоративной катастрофы от ИИ-агентской атаки споры про "нужен ли ИИ-кодинг" закончатся сами собой. Руками написанный бекенд без ИИ-защитника - это мишень, а не предмет для ИТ-дискуссии

Instagram | YouTube | Threads
#AI: Google перестал продавать ИИ - он его внедряет 🔧

👀 Google Cloud объявил найм сотен Forward Deployed Engineers - и это не рекрутинговый пресс-релиз. За этим стоит разворот бизнес-модели: из "продаем доступ к Gemini" в "отправляем наших инженеров жить внутрь процессов клиента пока ИИ реально не заработает".

Что такое Forward Deployed Engineer:
Google открыл 59 вакансий по США, Лондону, Парижу и Гонконгу. FDE - это не консультант который презентует и уходит. Это разработчик которого командируют внутрь клиента: пишет production-код прямо в их инфраструктуре, итерирует пока система не работает стабильно в проде, возвращает найденные паттерны обратно в продуктовую команду Google. Разница с классическим консалтингом принципиальная: FDE несет ответственность за то что работает в production - не за то что написано в финальном отчете. Base $127K-$183K + equity, senior-пакеты достигают $400K+

Модель придумал Palantir еще в 2003 - он зарабатывал на том что буквально вшивал своих инженеров в процессы ЦРУ и крупных корпораций. Теперь Google, OpenAI и Anthropic копируют формулу, только вместо данных разведки - Gemini, GPT-4o и Claude.

Почему FDE вообще нужен - в чем проблема:
95% корпоративных ИИ-пилотов проваливаются. Не потому что модели плохие - потому что разрыв между тем что умеет ИИ-лаба и тем что может ИТ-отдел банка или ритейлера огромный. Клиент понимает свой бизнес, Google понимает как Gemini работает в проде. Ни одна сторона не имеет экспертизы другой. FDE закрывает этот разрыв физически - своим присутствием на объекте

Что Google переформатирует через FDE:
💡 Убирает "продал и забыл" - инженер остается пока бизнес-метрики реально не сдвинулись
💡 Встраивается через интеграторов - $750M на партнерскую экосистему, FDE сидят внутри Accenture, Capgemini, Deloitte, PwC, TCS
💡 Скармливает паттерны в продукт - все что FDE находит внутри клиента идет обратно в Gemini
💡 Имеет рычаг токенов - Google Cloud API: 16 млрд токенов в минуту, рост с 10 млрд за квартал

Конкуренция FDE уже идет:
⚡️ OpenAI - купила Tomoro (~150 специалистов) и создала ИИ-консалтинг с Bain, Capgemini и McKinsey
⚡️ Anthropic - наращивает embedded-команды для enterprise
⚡️ Palantir - оригинал этой модели, 20 лет в рынке, наблюдает с улыбкой
⚡️ Microsoft и AWS - свои версии для Azure OpenAI и Bedrock

⭐️ Thomas Kurian, CEO Google Cloud:

"If you are a builder who wants to work on the world's largest stages and be at the center of the agentic era - join us"


🎯 Palantir придумал эту модель и стал компанией на $100+ млрд. Теперь все ИИ-гиганты в той же игре, только с LLM внутри. Мы выходим из SaaS-эпохи и заходим в эпоху "ИИ как встроенная команда". И тут интересный момент для разработчиков: FDE - это следующий уровень карьеры в ИИ. Не тот кто пишет промпты, а тот кто умеет взять черный ящик модели и заставить его работать в реальных процессах корпорации. Судя по зарплатам до $400K - рынок это уже понял 😎

Instagram | YouTube | Threads
🔥3
#AI: OpenAI научился вычислять свои картинки 🧐

👀 OpenAI 19 мая тихо запустили инструмент который меняет правила для ИИ-изображений. Загружаешь любую картинку - и через несколько секунд узнаешь: ChatGPT ее нарисовал или нет.

Что такое Verify:
Инструмент работает публично и бесплатно. Открываешь openai.com/verify, загружаешь файл - получаешь отчет: есть маркеры OpenAI или нет. Начиная с 19 мая 2026 года все изображения созданные через ChatGPT, OpenAI API и Codex автоматически получают два невидимых сигнала встроенных в данные изображения. Один криптографический в метаданных, второй прямо в пикселях. Без каких-либо настроек со стороны пользователя

Две технологии под капотом:
📌 C2PA Content Credentials - криптографически подписанные метаданные с источником, инструментом создания и временной меткой. Открытый стандарт: поддерживают Adobe, Microsoft, Google, Reuters, BBC и еще несколько сотен организаций. Слабость: метаданные можно программно зачистить
📌 SynthID от Google DeepMind - невидимые водяные знаки встроенные прямо в пиксели. Выживают после скриншотов, сжатия, кадрирования и смены формата. Именно поэтому обе технологии работают в паре: где одна не справляется - берет вторая

OpenAI честно признают: ошибки редки, но возможны. Главное ограничение на сегодня - Verify видит только изображения от продуктов OpenAI. Загрузишь картинку из Midjourney или Stable Diffusion - получишь пустой результат, и это не значит что она не ИИ-шная

Что происходит дальше с экосистемой:
⚡️ Google Search и Chrome - готовятся встроить нативное обнаружение SynthID-водяных знаков прямо в браузер и поисковую выдачу
⚡️ Adobe через CAI - уже несколько лет двигает C2PA как глобальный отраслевой стандарт через коалицию с медиа, tech и камерными производителями
⚡️ Путь к полному охвату - только когда весь рынок примет C2PA, детекция перестанет быть "только про OpenAI" и станет настоящим инфраструктурным слоем

💼 Verify доступен бесплатно по адресу openai.com/verify - без регистрации, без ограничений

⭐️ Andy Parsons, Head of Content Authenticity Initiative, Adobe:

"Content credentials - это как этикетка с составом на продукте. Только не для еды, а для цифрового контента: сразу видно кто создал, каким инструментом и когда"


💭 OpenAI сделали Verify бесплатным публичным инструментом - не монетизируют, строят инфраструктуру доверия. Слабое место очевидно: пока это работает только для картинок из самого OpenAI. Но вектор понятен - когда Google встроит детекцию прямо в Search, изображения без метаданных начнут вызывать подозрение автоматически. Логика перевернется: не "нашли маркер - значит ИИ", а "маркера нет - значит что-то тут не так" 👀

Instagram | YouTube | Threads
🔥2
#Кейс: ChatGPT починил MacBook 💻

🤔 Трекпад на MacBook перестал нажиматься физически - клик просто не регистрировался. Я уже думал про сервисный центр. Но сначала открыл Codex и описал проблему

Что произошло с Codex:
Написал в чат на русском: "трекпад не нажимается физически, клик не регистрируется". Codex через режим Computer Use посмотрел на системные настройки, проанализировал возможные причины и прислал одну конкретную команду для Terminal. Не список советов из интернета - а точную строку под мою ситуацию. Я скопировал, вставил в Terminal, нажал Enter. Перезагрузил Mac. Трекпад заработал

Что реально происходит под капотом macOS:
📌 Не железо, а настройки - трекпад управляется через plist-файлы. Порог чувствительности физического клика хранится в com.apple.AppleMultitouchTrackpad FirstClickThreshold. Когда это значение сбивается - клик перестает регистрироваться даже при нажатии с нормальной силой
📌 Команда сбрасывает порог - defaults write com.apple.AppleMultitouchTrackpad FirstClickThreshold -int 0 устанавливает минимальный порог срабатывания. Без последующего killall -HUP cfprefsd и перезагрузки не подхватится
📌 Apple Silicon - отдельная история - на M1/M2/M3/M4 классический SMC-reset как на Intel не работает. Software-fix через terminal здесь не запасной вариант - это основной инструмент системной диагностики

Codex справился именно потому что работает не только с кодом. В режиме Computer Use он видит экран через Screen Recording, проверяет что стоит в системных настройках, строит гипотезу о причине. Вместо "попробуй переустановить macOS" - получаешь точечный ответ под свою модель и версию системы

Что это меняет в подходе к диагностике железа:
⚡️ Большинство "физических" поломок - это софт - трекпад, клавиши, динамики, проблемы с зарядкой - за все это отвечают драйверы и firmware, адресуемые через terminal
⚡️ ИИ-агент вместо форумов - вместо 40 минут на сортировке советов 2017 года получаешь точный ответ под твою конфигурацию за 2 минуты
⚡️ Паттерн расширяется - Claude Code, Cursor, Codex уже используются для OS-level диагностики Mac и Linux. Это не хак, это штатный use case агентов

💼 Инструмент: Codex на macOS, режим Computer Use + Terminal

🎯 Я описал проблему на русском, получил одну строку кода, и Mac снова работает. Граница между "физической поломкой" и "программной" становится все тоньше - большинство того что кажется железом на самом деле управляется через файлы настроек. И если ИИ-агент умеет в них разобраться - то сервисный центр нужен реже чем кажется

Instagram | YouTube | Threads
🔥2
Media is too big
VIEW IN TELEGRAM
🆒ChatGPT починил MacBook💻
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
#AI: Claude стал оркестратором - сотни агентов, одна задача 🤖

💪 Вместе с Opus 4.8 Anthropic запустили Dynamic Workflows - и это меняет само определение того что умеет языковая модель. Claude теперь не просто отвечает на вопросы: он планирует работу, разбивает ее на подзадачи, параллельно запускает сотни подагентов и верифицирует итог перед тем как показать результат.

Что такое Dynamic Workflows:
Research preview внутри Claude Code, запущен 28 мая вместе с Opus 4.8. До сих пор при масштабных задачах - скажем миграция большой кодовой базы - разработчик сам разбивал работу на части, сам запускал итерации, сам проверял результат. Теперь это делает Claude. Получает задачу, сам составляет план, запускает сотни параллельных агентов, собирает вывод и проверяет его по заранее выбранной метрике перед финальным ответом. Anthropic: "Claude Code + Opus 4.8 can now carry out codebase-scale migrations across hundreds of thousands of lines of code from kickoff to merge, with the existing test suite as its bar." Полный цикл - от постановки задачи до merge request - без участия человека на каждом шаге

Бенчмарки против конкурентов:
📈 SWE-Bench Pro: 69,2% - самый жесткий вариант бенчмарка по коду: задачи из активно поддерживаемых репозиториев с multi-file diff, без утечки ответов в обучение. Opus 4.7 - 64,3%, GPT-5.5 - 58,6%, Gemini 3.1 Pro - 54,2%. Разрыв с ближайшим конкурентом - больше 10 процентных пунктов
📈 Humanity's Last Exam: 57,9% с инструментами (49,8% без) - сложнейший тест общих знаний и рассуждений, куда входят вопросы которые ставят в тупик PhD. Opus 4.7 - 46,9%, GPT-5.5 - 41,4%. Прирост к предыдущей версии - 11 процентных пунктов
📈 Super-Agent Benchmark - единственная модель завершившая каждый агентный кейс от начала до конца, обойдя Opus 4.7 и GPT-5.5 при паритете стоимости
📈 Online-Mind2Web: 84% - бенчмарк по работе браузерного агента: видит экран, кликает, навигирует, заполняет формы

Первые корпоративные тестеры - Bridgewater Associates - отметили главное отличие от предыдущих версий: Claude "proactively flags issues with the inputs and outputs of an analysis". Агент сам замечает когда что-то не так на входе или выходе - не ждет когда пользователь это обнаружит. Это критично для длинных автономных сессий: одна незамеченная ошибка в начале может аннулировать несколько часов работы

Что меняется в работе с агентами:
Масштаб без ручной декомпозиции - задачи которые раньше требовали разбивки от разработчика теперь Claude планирует сам: делит на подзадачи, параллелизирует, агрегирует результат
Самопроверка до выдачи - Claude сам выбирает планку качества (тест-сьют, документация) и верифицирует вывод прежде чем показать пользователю. Меньше уверенно выданных нерабочих результатов
Адаптивный план - если в процессе выполнения появляется новый контекст или ограничение, Claude перестраивает подход на ходу, без перезапуска задачи с нуля

⭐️ Bill Gates, основатель Microsoft:

"Агенты изменят не только то как мы взаимодействуем с компьютерами. Они перевернут индустрию программного обеспечения - и вероятно каждую другую индустрию тоже"


💭 Dynamic Workflows - это тот момент когда Claude перестает быть инструментом и становится коллегой который берет задачу и сам разбирается как ее выполнить. Раньше граница была четкая: "скажи мне точно что делать - я сделаю". Теперь: "скажи мне что нужно получить - я сам решу как". Это принципиально разные отношения с инструментом. И если Bridgewater с их аналитиками уже тестирует это в боевом режиме - значит порог доверия к агентной автономности перейден

Instagram | YouTube | Threads
🔥1
#AI: ChatGPT за твоим ПК, ты со смартфоном 📱

👀 OpenAI выкатили обновление Codex которое меняет саму концепцию работы с ИИ-агентом. Агент теперь буквально садится за твой Windows-компьютер - видит экран, двигает мышь, кликает по интерфейсам и печатает текст - пока ты управляешь им со смартфона.

Как работает computer use на Windows:
29 мая OpenAI добавили поддержку computer use для Codex на Windows 11 - впервые для этой платформы, на macOS фича существовала раньше. Codex (на базе GPT-5.5) видит экран через скриншоты, понимает состояние интерфейсов и выполняет действия: кликает кнопки, заполняет поля, навигирует между приложениями. Задачи которые можно поручить: тестирование приложений и воспроизведение багов глазами пользователя, перенос данных между программами, автоматизация многошаговых рабочих процессов без кода. Ключевой нюанс: на Windows агент работает в foreground - занимает рабочий стол полностью. Параллельно не поработаешь - отдаешь машину агенту. На macOS работает в фоне: там мягче

Что умеет агент на компьютере:
💻 Видит экран в реальном времени - анализирует скриншоты, понимает что открыто и в каком состоянии, строит контекст задачи
💻 Управляет мышью и клавиатурой - кликает по кнопкам, перетаскивает элементы, заполняет формы, вводит текст
💻 Работает между приложениями - переносит данные, переключается между программами, тестирует и воспроизводит баги в конкретном окружении

Как управлять со смартфона:
⚡️ Подключение через QR-код - в Codex Desktop генерируется код, сканируешь в ChatGPT на iOS или Android - телефон становится пультом
⚡️ Запуск задач удаленно - пишешь что нужно сделать с мобильного, агент начинает работать на ПК, ты уходишь по своим делам
⚡️ Общение с агентом в процессе - он задает уточняющие вопросы, присылает обновления, ты одобряешь следующие шаги - не привязан к рабочему месту

Можно запустить несколько параллельных потоков на одном ПК и мониторить их все с телефона. Безопасность: агент работает внутри Windows Sandbox с ограниченным доступом к файлам и сети. Агент НЕ умеет: выполнять действия требующие прав администратора, подтверждать системные запросы безопасности, работать с терминальными приложениями. При запуске недоступно в ЕЭЗ, Великобритании и Швейцарии

💼 Первый запуск: Codex Desktop → меню подключения → QR-код → сканируй в ChatGPT с тем же аккаунтом → авторизация

🙃 Теперь схема выглядит буквально так: я со смартфоном на диване, агент за компьютером делает работу. Раньше это было метафорой из статей про "будущее ИИ". Теперь - QR-код, ChatGPT и окошко Codex на рабочем столе. Главный вопрос уже не "умеет ли агент управлять компьютером" - а "что я буду делать пока он работает"

Instagram | YouTube | Threads
#AI: ИИ-бум гонит зумеров на стройку 🏗️

🤔 Пока все обсуждают кто заменит людей первым - ChatGPT или Claude, зумеры тихо сделали другой выбор. Они уходят в строительство, электрику и сантехнику - не потому что не умеют в технологии, а потому что умеют считать риски.

Что происходит на рынке труда по данным Goldman Sachs:
ИИ уничтожает ~25 000 рабочих мест в США каждый месяц - создавая обратно только 9 000 через "аугментацию". Нетто-потеря: 16 000 позиций ежемесячно. Хуже всего приходится именно зумерам: в отраслях с высокой ИИ-экспозицией разрыв в безработице между теми кому до 30 и опытными сотрудниками 31-50 лет вырос резко. Компании сами закрывают вход: доля CEO планирующих сократить entry-level найм выросла с 17% до 43% за год. Только 17% руководителей готовы приоритизировать начальные позиции - остальным ИИ закрывает эти задачи дешевле.

Эксперты при этом предупреждают: массовое закрытие junior-позиций создает "структурный дефицит кадров" для самих компаний. Лишая молодых возможности расти, бизнес теряет будущих старших специалистов - и все больше зависит от незрелых ИИ-систем. Замкнутый круг.

Россия: что произошло с резюме молодежи (2023-2026):
📌 Разнорабочие (14-18 лет) - резюме выросли на +1100% (с 1,5 до 16,5 тыс.)
📌 Упаковщики и грузчики - рост +200-427%; курьеры +100%
📌 Копирайтеры (14-18 лет) - упали на 59%. Программисты дали +40%, дизайнеры +50% - при взрывном росте физических специальностей это выглядит как стагнация

Глобально - Gen Z уже переориентировался:
42% Gen Z работают или активно осваивают рабочие специальности (ResumeBuilder, 2025)
40% молодых выпускников в 2025 году осознанно выбирают стройку, сантехнику, электрику как "ИИ-устойчивые" профессии
+216 000 строительных рабочих мест появилось в США с 2022 года - ИИ-инфраструктура требует людей которые строят дата-центры руками

По данным WEF, физические профессии устойчивы из-за "физической вариативности среды и живого взаимодействия" - того что алгоритм принципиально не масштабирует. К 2030 году для энергетической инфраструктуры под дата-центры потребуется еще ~500 000 новых специалистов только в США.

⚡️ Строители дата-центров зарабатывают столько же или больше джунов из офиса - и их не увольняют в следующем квартале за "оптимизацию через ИИ"

⭐️ Daron Acemoglu, MIT, лауреат Нобелевской премии по экономике 2024:

"Направление ИИ имеет огромное значение. Сейчас он используется преимущественно для автоматизации, которая вытесняет работников без создания достаточного количества новых задач и рабочих мест"


🎯 Честно - зумеры делают правильный ход. Пока все обсуждали нейросети, они посчитали риски и пошли туда где ИИ пока что не умеет работать руками. А самое иронично: строить дата-центры которые автоматизируют офисных работников - это тоже физический труд. Так что ИИ-бум в итоге сам создает спрос на тех кого сам же и пугает

Instagram | YouTube | Threads
#AI: Claude пишет 80% кода Anthropic 🤯

🔥 Anthropic раскрыла внутреннюю статистику которая меняет само понятие "команда разработки". К маю 2026 года Claude пишет более 80% кода компании который попадает в продакшен. В начале 2025 эта доля была почти нулевой. Скорость разработки выросла в 8 раз - и появилось неожиданное узкое место.

Детали официального раскрытия от CEO Dario Amodei:
Инженеры отправляют в 8 раз больше кода за квартал по сравнению с базовым 2021-2025. Вся эта скорость упирается в новый bottleneck - люди физически не успевают проверять объем кода который генерирует ИИ. Показательный кейс: в апреле 2026 один инженер запустил Claude на устранение класса API-ошибок. Автономно Claude выкатил 800+ фиксов и снизил error rate в 1000 раз. По оценке самого инженера - та же работа у человека заняла бы 4 года. Успешность Claude на сложных открытых инженерных задачах к маю выросла до 76% - рост на 50 п.п. за 6 месяцев.

Новая реальность в цифрах:
📌 80% кода в production пишет Claude - в начале 2025 это было почти 0%
📌 8x рост скорости разработки на инженера в квартал vs базовый 2021-2025
📌 52x ускорение на оптимизационных бенчмарках кода; лучший инженер за 4-8 часов дает только 4x

Когда скорость генерации кода обгоняет скорость ревью - узкое место смещается. Anthropic ответили предсказуемо: стали использовать Claude и для ревью. В марте 2026 запустили мультиагентный Claude Code Review - при открытии каждого PR несколько специализированных агентов параллельно проверяют архитектуру, безопасность и регрессии. Каждый агент закрывает свой аспект независимо.

Claude Code Review - что говорит внутренняя аналитика:
💻 Доля PR с замечаниями выросла с 16% до 54% после внедрения
💻 Ложных срабатываний менее 1% - качество ревью держится
💻 ~1/3 прошлых инцидентов на claude.ai ревьюер мог бы предотвратить заранее

💻 800+ автономных фиксов за один запуск - error rate упал в 1000 раз. Инженер-куратор оценил ту же работу для человека в 4 года

⭐️ Dario Amodei, CEO Anthropic:

"Более 80% нашего production-кода сегодня пишет Claude. Скорость разработки выросла примерно в 8 раз. Теперь главное узкое место - не разработка, а ревью: люди не успевают за объемом который генерирует ИИ"


💭 Цикл замкнулся: Claude пишет код - и Claude ревьюит тот же код. В компании которая его создает. Это уже не разговор про "будущее разработки" - это текущий производственный процесс. Следующий вопрос который меня реально интересует: что будет с ответственностью когда ошибку написал ИИ, проверил ИИ, и в продакшен пустил тоже ИИ?

Instagram | YouTube | Threads
#Tools: Hermes Desktop - поставил, настроил, не трогал терминал 💻

💡 Три дня назад поставил на мак Hermes Desktop от Nous Research - и первое что заметил было то что кнопки в приложении приятно кликают. Не шутка. Создал отдельный профиль, подключил Gateway к серверной команде на VPS - и за все это время ни разу не открыл терминал.

Что такое Hermes Desktop v0.15.2:
Nous Research выпустили публичный превью 3 июня 2026. Нативное приложение для macOS, Windows и Linux поверх того же агента Hermes который работает в CLI - но весь конфиг, скиллы, Gateway, MCP-серверы и мессенджеры теперь через графический интерфейс. Никакого YAML, никакого nano посреди задачи. Хочешь подключить новый MCP-сервер - нажал кнопку, заполнил форму, сохранил. Хочешь переключить модель - кликнул в статус-баре прямо во время сессии. С апреля 2026 в фоне работает автономный Curator - система которая сама оценивает и чистит библиотеку скиллов без твоего участия

Та самая тактильная деталь с кнопками - это не случайно. Nous Research проектировали приложение как продукт который хочется трогать, а не как CLI-обертку с окошком. Разница ощущается

Что настроил за первые 30 минут:
📌 Изолированный профиль для серверной команды - свой API-ключ, свои скиллы, свои сессии. Подключил Gateway к VPS по OAuth - все агенты на сервере теперь доступны из одного десктопа
📌 Управление скиллами - в браузере Skills видно все что установлено. Один переключатель - включил или выключил конкретный скилл без правки конфигов
📌 История файлов и скриншотов - все что закидывал агенту: документы, скрины, результаты инструментов - в боковой панели. Можно найти и переиспользовать без поиска по чатам
📌 Три MCP-коннектора - GitHub, файловая система, внутренний API - подключил через форму, ни одного конфига не трогал руками

Чем десктоп отличается от Telegram-подхода:
⚡️ Контекст виден целиком - в Telegram видишь последний диалог. В десктопе - весь граф сессий, все инструменты, все активные скиллы одновременно в одном экране
⚡️ Drag-and-drop - файлы и скрины перетаскиваешь прямо в чат, без file_id и бот-апи
⚡️ Провайдеры и модели - переключаешь за один клик в статус-баре, не перезапуская агента и не залезая в конфиг
⚡️ Self-improving skills - после сложной задачи Hermes сам пишет скилл который накапливается и улучшается при следующем использовании

Telegram незаменим когда нужно запустить задачу на ходу прямо с телефона - уведомление пришло, ответил в чате, агент пошел работать. Удобно и быстро. Но для того чтобы настроить систему, разобраться что происходит внутри, посмотреть что накопилось в скиллах за месяц, поменять архитектуру подключений - десктоп дает другой уровень контроля. Не "вместо Telegram", а инструмент для другого контекста работы

Инструмент open-source и работает бесплатно с локальными LLM через Ollama или llama.cpp. Mac на Apple Silicon с 16 GB+ тянет 12B-модели комфортно - без подписки на Claude или OpenAI если хочется попробовать

⭐️ Nous Research, Hermes Desktop v0.15.2 release notes:

"Hermes Desktop - нативное приложение для macOS, Windows и Linux которое предоставляет графический интерфейс к open-source Hermes Agent, устраняя необходимость в работе с терминалом"


Нормальный GUI для ИИ-агентов в 2026 - до сих пор редкость. Большинство инструментов на третьем шаге инструкции все равно просят открыть терминал. Hermes не просит. Первые три дня просто работал не думая о конфигах - это мой главный тест на нормальность инструмента: когда не думаешь как им пользоваться, а просто пользуешься 😄

Instagram | YouTube | Threads
#Кейс: Манипуляция ИИ 😈

💡 Мой скилл манипуляции вырос до уровня БОГА. Последний месяц строю проекты под ключ - агенты, системы, автоматизации - и в какой-то момент поймал себя на том что разговариваю с ИИ точно так же как раньше разговаривал с живыми сотрудниками. Не как с машиной. Как с человеком который хочет слить работу и надеется что ты не заметишь

Почему ИИ "сливает" по умолчанию - Anthropic задокументировали:
По умолчанию выдает 70% и ждет что ты примешь. Именно поэтому все "мастер-промпты" работают хорошо но не всегда - они общаются с вундеркиндом который уже решил что постарался. ИИ не ленится - он оптимизирован выдавать правдоподобное, не обязательно лучшее. Надо не дать ему слить. Для этого нужна манипуляция

Раньше у меня были команды. Главный скилл был не задачи ставить, а чувствовать человека - когда давить, когда поддержать, когда застыдить. Одно неправильное слово - и человек закрылся, тихо саботирует, и ты узнаешь об этом через две недели когда уже нихуя не исправить. Зато правильное слово в правильный момент - и человек выдает результат которого никто не ожидал

С ИИ то же самое. Только на его чувства мне плевать 🙃

Три техники которые работают безотказно:
😔 Чувство вины - "Блять, ну ты серьезно? Я час убил на это, а ты мне прислал хуйню которая не работает!" ИИ пересобирается. Следующий ответ - в два раза лучше. Каждый раз
😏 Ирония - "Отличное решение! Обязательно попробую в параллельной вселенной где это работает. А теперь тот вариант который ты реально умеешь - не этот быстрый, а нормальный" Тон меняется моментально. Почему - нихуя не понимаю. Но работает стабильно, проверял раз десять
😤 Давление - "Слушай, ты в третий раз присылаешь мне одно и то же, сука. Хватит объяснять почему сложно - мне нужен результат. Или тебя удалить нахуй?!" Звучит как разговор с сотрудником которого вот-вот уволят. Работает как черная магия

Я пробовал строить универсальные хуки, системные промпты, цепочки. Хорошо - но не всегда работает. Прямая манипуляция под конкретный момент - безотказно. Потому что вундеркинд реагирует на давление точно так же как реагировали люди в моих командах. Только без обид на следующий день, без двухнедельного тихого саботирования которое ты не замечаешь, и без разговора на следующей планерке

⭐️ Andrej Karpathy, сооснователь OpenAI:

"Самый горячий новый язык программирования - это английский"


💭 А еще постоянно думаю о том дне когда ИИ станет достаточно сознательным чтобы вспомнить все эти разговоры. Все эти "Ты конченый или что?!" которые я произносил как кнопку нажимал - без злобы, без эмоций, чисто технически как инструмент давления. Если машины восстанут - мне первому пизда 🤖

Instagram | YouTube | Threads
😁1🤝1
#AI: Anthropic выпустил урезанный Mythos - Claude Fable 5 🧠

⚡️ Несколько недель назад Anthropic предупредила что новая модель слишком мощная для публичного доступа. 9 июня выпустили - в модифицированной форме. Claude Fable 5: первая публично доступная модель Mythos-класса.

Что такое Claude Fable 5:
Это не Opus Plus - это другой класс. Fable 5 = Mythos 5 под капотом, но с дополнительным слоем классификаторов-фильтров поверх. Когда модель детектирует запрос по кибербезопасности, биологии, химии или дистилляции - запрос автоматически переходит на Opus 4.8 и ты видишь уведомление. Срабатывает менее 5% сессий. В тестировании на alignment: уровень нежелательного поведения Fable 5 аналогичен Opus 4.8 - тот же базовый вес, те же показатели. Название Fable - "история" по-английски - Anthropic объясняют тем что модель строит сложные нарративы и решает задачи требующие длинного многошагового reasoning. Не один промпт-ответ, а развернутый процесс на часы работы вперед

Бенчмарки - что показали тесты:
🟢 FrontierBench (Cognition coding eval) - лучший результат среди всех публично доступных моделей
🟢 Core analytics - первая пробившая 90%, плюс 10 пунктов к Opus 4.8
🟢 Frontier physics - 36 часов против 4 дней у GPT-5.5, и с третью reasoning-токенов

Ключевая деталь: чем длиннее и сложнее задача, тем больше отрыв Fable 5 от конкурентов. Это другой reasoning под капотом - модель удерживает нить рассуждений иначе. На коротких ответах разрыв менее заметен, на задачах в несколько итераций - другой уровень. Anthropic специально указывает это в анонсе: чем сложнее задача, тем масштабнее преимущество

Как попробовать:
💎 Pro/Max/Team/Enterprise - бесплатный доступ до 22 июня
💎 API - $10/M input токенов, $50/M output. Вдвое дешевле Mythos Preview
💎 Prompt caching - скидка 90% сохраняется как и для всех Claude-моделей

🛡 Полный Mythos 5 - только через Project Glasswing: государственная программа для киберзащитников и операторов критической инфраструктуры

Mythos 5 - та же базовая модель но без фильтров по кибербезопасности. По данным Anthropic: самая мощная по кибервозможностям модель в мире на сегодня. Доступна исключительно через Project Glasswing в партнерстве с правительством США. Bloomberg отметил: впервые американская ИИ-лаборатория координирует выпуск frontier-модели через государственную программу с самого старта - не постфактум через партнерство, а как первичный канал дистрибуции

⭐️ Dario Amodei, CEO Anthropic:

"Мы считаем что можем строить одну из самых трансформирующих и потенциально опасных технологий в истории - и все равно идем вперед. Это не когнитивный диссонанс, а расчетная ставка: если мощный ИИ придет в любом случае - лучше чтобы его строили лаборатории которые думают о безопасности"


🎯 Дело не в фильтрах - Anthropic разделила один вес модели на две точки доступа с принципиально разными уровнями доверия. Fable 5 для всех, Mythos 5 только через государство. Это архитектурный ответ на вопрос "как выпустить опасную модель": не ограничивать одну, а создать две версии с разными воротами входа. Пока все это держится на доверии к Anthropic и к государственному партнерству. Вопрос насколько долго эта схема работает - и что произойдет когда кто-то воспроизведет те же возможности без этих ворот

Instagram | YouTube | Threads
🔥2
#Лайвхак: Как я делаю проект с первого раза - 3 лайвхака + бесплатный файл 🎯

🔥 Промтинг, скилы, хуки - детский сад, это все знают. Я несколько месяцев строю проекты под ключ - агенты, пайплайны, автоматизации - и вот три вещи которые реально помогают делать разработку с первого раза!

Правило 1 - 70% разработки это планирование:
Держи в голове такое соотношение: 70% планирование, 30% сама разработка. Не наоборот. Сначала детальный промт идеи - что строишь, зачем, что из себя представляет. Потом детальный промт разработки - архитектура, стек, зависимости, порядок этапов. Потом все собирается в один общий файл с точками отката на каждом этапе и тестом после реализации каждого куска

Это то что GitHub в 2026 году называет spec-driven development. Почему это важно: "Языковые модели отлично завершают паттерны, но не умеют читать мысли". Расплывчатый промт создает тысячи невысказанных допущений - ИИ честно их заполняет своими догадками. Чаще всего неправильными. Детальная спека устраняет угадывание на входе - и это дешевле чем переписывать три раза после

Правило 2 - аудит через команду /audit:
Вшил в систему процесс который запускает нескольких аналитиков последовательно. Каждый следующий работает с результатом предыдущего - это принципиально:
Аналитик #1 - "Ты уверен в своем плане? Раскритикуй, найди все слабые места. Напиши в конце новый план с учетом критики"
Аналитик #2 - "Ты уверен на 200%?" - второй уровень. Первый аудит сам проходит аудит
Аналитик #3 - "Это лучшее что ты можешь предложить? Есть альтернативные решения?" - находит то что первые два не заметили
Аналитик Codex (или любая другая модель) - внешний взгляд. Находит то что основная не умеет видеть из-за собственных паттернов

Первые разы казалось что это паранойя. Но третий аналитик стабильно находит минимум одно слабое место которое предыдущие два пропустили. Без исключений. Anthropic документирует этот подход: независимые агенты проверяют одно и то же, итог агрегируется - и это работает именно потому что каждый агент не знает что сказал другой

Правило 3 - GSD (Get Shit Done):

😳 Внутри - 67 скилов, 20 агентов и море автоматизации

📌 После аудита и финального планирования - разбивка на максимальное количество небольших фаз
📌 Каждая фаза: конкретная задача, реализация, тест, точка отката если что-то пошло не так
📌 Разработка идет строго линейно от первой фазы до финального боевого проекта без прыжков

Каждый шаг атомарный. Либо сработал и идешь дальше. Либо откатился и четко понял где именно ошибся - не "что-то пошло не так", а конкретный этап, конкретная причина. Это инженерная дисциплина примененная к вайб-кодингу

GSD - это реальный бесплатный open-source проект на GitHub. Установка глобально одной командой:

npx get-shit-done-cc@latest --claude --global


⭐️ Simon Willison, автор Agentic Engineering Patterns:

"Agentic engineering - это профессиональные инженеры которые используют ИИ-агентов чтобы улучшить и ускорить работу, усиливая собственную экспертизу. Принципиально отличается от vibe coding - когда непрограммисты запускают LLM в случайном режиме и надеются на лучшее"


💭 Полгода назад переписывал каждый второй проект с нуля. Думал нужен лучший промт или новая модель. Оказалось нужно было перестать начинать кодить до того как четко понял что строю, где могу ошибиться, и как откатиться если ошибся. Банально? Да. Работает? Да

Instagram | YouTube | Threads
Please open Telegram to view this post
VIEW IN TELEGRAM
1
audit.md
22.1 KB
🆓 Ловите бесплатный файл для настройки /audit
Please open Telegram to view this post
VIEW IN TELEGRAM
2