Forwarded from Про AI: Лучшие cтатьи и исследования
Экспериментальная система памяти в Claude Code
Claude Code уже строит собственную систему памяти — файл MEMORY.md, который загружается в системный промпт в начале каждой сессии. Пока она работает только локально, но скоро может стать общей для всей команды.
Читать статью
Claude Code уже строит собственную систему памяти — файл MEMORY.md, который загружается в системный промпт в начале каждой сессии. Пока она работает только локально, но скоро может стать общей для всей команды.
Читать статью
Forwarded from Силиконовый Мешок
New_Claude_Cowork_Guide_RU.pdf
2.6 MB
Я уже делал плейбук по работе в Claude Cowork, но в выходные наткнулся на текст от Ruben Hassid, и мне понравился его подход, завязанный на Harness Engineering (про который я недавно писал).
Так что этот документ для тех, кто установил Claude, но не совсем разобрался, как работать с Cowork, и что это не просто чат-бот.
Что внутри:
Ключевая идея: качество результата зависит не от промпта, а от контекста. Чем больше файлов с вашими правилами, примерами и стилем - тем меньше промптинга нужно.
Так что этот документ для тех, кто установил Claude, но не совсем разобрался, как работать с Cowork, и что это не просто чат-бот.
Что внутри:
— Чем Cowork отличается от Chat, Projects, Code и Skills
— Пошаговая настройка: папка → файлы → инструкции → плагины
— Почему забыть о промптах — первое, что нужно сделать
— AskUserQuestion — функция, которая заставляет Claude спрашивать, а не галлюцинировать
— Реальные примеры: холодное сообщение в LinkedIn, финансовая таблица с формулами
— Как автор использует Cowork каждый день для рассылки и консалтинга
— Плагины и коннекторы: Slack, Google Drive, Notion, Gmail
— Честный разбор: где Cowork пока буксует
— Чеклист «Ваши первые 30 минут»
Ключевая идея: качество результата зависит не от промпта, а от контекста. Чем больше файлов с вашими правилами, примерами и стилем - тем меньше промптинга нужно.
❤2🔥1👌1
У OpenClaw и так неделя выдалась так себе, а тут сверху еще подъехал OpenClaw-PwnKit.
Это репозиторий не из серии “смотрите, AI может быть опасным”. Там люди собрали вполне предметный offensive-стенд под атаки на tool-calling агентов: prompt injection, poisoned skills, honeypot-страницы, попытки дожать модель до вызова системных инструментов и, как следствие, до шелла на машине, где крутится агент.
То есть история уже ушла из плоскости обсуждений.
Не “а вдруг агента можно обмануть”, а “вот набор техник, вот код, вот как это пробовать на практике”.
И момент для такого репо выбран, конечно, идеальный. Вокруг самого OpenClaw уже накопился плотный шлейф из RCE, утечек токенов, вредоносных skills и открытых наружу инстансов. На этом фоне OpenClaw-PwnKit выглядит не как случайная исследовательская работа, а как закономерный следующий шаг: экосистема стала достаточно шумной и дырявой, чтобы под нее начали делать специализированные атакующие инструменты.
Отдельно показательно, что репозиторий совсем свежий: появился 8 марта 2026, а к 9 марта уже набрал 585⭐. То есть интерес тут не академический в духе “любопытный paper”, а вполне живой. Народ смотрит не потому, что любит красивое название, а потому что тема уже бьет по реальным системам.
Сигнал простой: агент с доступом к инструментам, файлам, токенам и внешним интеграциям теперь надо воспринимать как серьезную поверхность атаки. Не как милого помощника в терминале. С этим этапом, кажется, уже все.
PS: это не призыв бежать ломать чужие клешни. Это скорее повод потестировать свою.
Репозиторий: https://github.com/imbue-bit/OpenClaw-PwnKit
@OmnissAI📜
Это репозиторий не из серии “смотрите, AI может быть опасным”. Там люди собрали вполне предметный offensive-стенд под атаки на tool-calling агентов: prompt injection, poisoned skills, honeypot-страницы, попытки дожать модель до вызова системных инструментов и, как следствие, до шелла на машине, где крутится агент.
То есть история уже ушла из плоскости обсуждений.
Не “а вдруг агента можно обмануть”, а “вот набор техник, вот код, вот как это пробовать на практике”.
И момент для такого репо выбран, конечно, идеальный. Вокруг самого OpenClaw уже накопился плотный шлейф из RCE, утечек токенов, вредоносных skills и открытых наружу инстансов. На этом фоне OpenClaw-PwnKit выглядит не как случайная исследовательская работа, а как закономерный следующий шаг: экосистема стала достаточно шумной и дырявой, чтобы под нее начали делать специализированные атакующие инструменты.
Отдельно показательно, что репозиторий совсем свежий: появился 8 марта 2026, а к 9 марта уже набрал 585⭐. То есть интерес тут не академический в духе “любопытный paper”, а вполне живой. Народ смотрит не потому, что любит красивое название, а потому что тема уже бьет по реальным системам.
Сигнал простой: агент с доступом к инструментам, файлам, токенам и внешним интеграциям теперь надо воспринимать как серьезную поверхность атаки. Не как милого помощника в терминале. С этим этапом, кажется, уже все.
PS: это не призыв бежать ломать чужие клешни. Это скорее повод потестировать свою.
Репозиторий: https://github.com/imbue-bit/OpenClaw-PwnKit
@OmnissAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Похоже, у нас появился репо-скилл для тех, кого уже тошнит от того, сколько токенов MCP сжигает просто на знакомство с инструментами.
mcp2cli берет любой MCP server или OpenAPI spec и на лету превращает его в CLI. Без codegen, без отдельной сборки, без истории “ой, сервер добавил новый tool, теперь все пересобираем”. Подход простой: модель не таскает в контексте целый вагон JSON-схем на каждый ход, а спрашивает только то, что реально нужно.
Цифры у автора жирные: экономия 96–99% токенов на tool schemas. Я бы к таким процентам всегда относился с холодной головой, но сама идея не нова. Kagan Yilmaz еще 23 февраля 2026 писал, что CLI-подход может быть примерно на 94% дешевле классического MCP по токенам.
А Anthropic вообще вынесли эту же боль в отдельную фичу Tool Search Tool: в их разборе от 24 ноября 2025 речь шла про десятки тысяч токенов, которые сгорают еще до начала работы.
То есть mcp2cli попадает ровно в нерв: не “давайте еще один wrapper поверх MCP”, а “давайте перестанем каждый раз тащить в модель телефонный справочник из схем”.
И в этом смысле проект выглядит очень своевременным.
Сам репозиторий совсем свежий: создан 9 марта 2026, а уже к 10 марта собрал 402⭐.
На PyPI тоже живой — версия 1.6.0 вышла 10 марта 2026. Поддерживает и MCP, и OpenAPI, умеет OAuth, кеширует спеки и даже добавляет TOON-вывод для более дешевого чтения результатов моделью.
Мне здесь нравится не хайп, а практичность. Если у тебя агент ходит в несколько MCP-серверов, плюс пара API по OpenAPI, контекст начинает пухнуть просто от факта их существования. mcp2cli пытается решить именно эту скучную, дорогую и очень реальную боль.
Репозиторий: https://github.com/knowsuchagency/mcp2cli
@OmnissAI📜
mcp2cli берет любой MCP server или OpenAPI spec и на лету превращает его в CLI. Без codegen, без отдельной сборки, без истории “ой, сервер добавил новый tool, теперь все пересобираем”. Подход простой: модель не таскает в контексте целый вагон JSON-схем на каждый ход, а спрашивает только то, что реально нужно.
Цифры у автора жирные: экономия 96–99% токенов на tool schemas. Я бы к таким процентам всегда относился с холодной головой, но сама идея не нова. Kagan Yilmaz еще 23 февраля 2026 писал, что CLI-подход может быть примерно на 94% дешевле классического MCP по токенам.
А Anthropic вообще вынесли эту же боль в отдельную фичу Tool Search Tool: в их разборе от 24 ноября 2025 речь шла про десятки тысяч токенов, которые сгорают еще до начала работы.
То есть mcp2cli попадает ровно в нерв: не “давайте еще один wrapper поверх MCP”, а “давайте перестанем каждый раз тащить в модель телефонный справочник из схем”.
И в этом смысле проект выглядит очень своевременным.
Сам репозиторий совсем свежий: создан 9 марта 2026, а уже к 10 марта собрал 402⭐.
На PyPI тоже живой — версия 1.6.0 вышла 10 марта 2026. Поддерживает и MCP, и OpenAPI, умеет OAuth, кеширует спеки и даже добавляет TOON-вывод для более дешевого чтения результатов моделью.
Мне здесь нравится не хайп, а практичность. Если у тебя агент ходит в несколько MCP-серверов, плюс пара API по OpenAPI, контекст начинает пухнуть просто от факта их существования. mcp2cli пытается решить именно эту скучную, дорогую и очень реальную боль.
Репозиторий: https://github.com/knowsuchagency/mcp2cli
@OmnissAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Если агент умеет рассуждать, но не может открыть Blender или обработать аудио в Audacity — он бесполезен для половины реальных задач.
CLI-Anything от команды HKUDS решает именно это: запускаешь /cli-anything ./blender в Claude Code, и семифазный пайплайн автоматически анализирует исходный код, проектирует CLI, реализует его на Click, пишет тесты и устанавливает команду в PATH. Без скриншотов, без RPA, без хрупкой UI-автоматизации.
Пайплайн не игрушечный: для каждого приложения генерируются unit-тесты на синтетических данных и E2E-тесты с реальными файлами. На 9 протестированных приложениях — GIMP, Blender, Inkscape, Audacity, LibreOffice, OBS Studio, Kdenlive, Shotcut, Draw.io — 1 436 тестов, 100% pass rate. Blender рендерит через bpy, LibreOffice генерирует PDF через headless-режим, Audacity обрабатывает аудио через sox — не заглушки, а настоящие бэкенды.
Все сгенерированные CLI имеют JSON-вывод для агентов, интерактивный REPL, undo/redo и устанавливаются как cli-anything-gimp, cli-anything-blender и т.д. под единым namespace. Работает с любым публичным репозиторием — не только с теми девятью, которые уже в репо.
2.3k ⭐ — Python — MIT
Требования: Python 3.10+, Claude Code с поддержкой плагинов, само целевое приложение
Установка: одна команда /plugin install cli-anything через маркетплейс Claude Code
https://github.com/HKUDS/CLI-Anything
@omnissai📜
CLI-Anything от команды HKUDS решает именно это: запускаешь /cli-anything ./blender в Claude Code, и семифазный пайплайн автоматически анализирует исходный код, проектирует CLI, реализует его на Click, пишет тесты и устанавливает команду в PATH. Без скриншотов, без RPA, без хрупкой UI-автоматизации.
Пайплайн не игрушечный: для каждого приложения генерируются unit-тесты на синтетических данных и E2E-тесты с реальными файлами. На 9 протестированных приложениях — GIMP, Blender, Inkscape, Audacity, LibreOffice, OBS Studio, Kdenlive, Shotcut, Draw.io — 1 436 тестов, 100% pass rate. Blender рендерит через bpy, LibreOffice генерирует PDF через headless-режим, Audacity обрабатывает аудио через sox — не заглушки, а настоящие бэкенды.
Все сгенерированные CLI имеют JSON-вывод для агентов, интерактивный REPL, undo/redo и устанавливаются как cli-anything-gimp, cli-anything-blender и т.д. под единым namespace. Работает с любым публичным репозиторием — не только с теми девятью, которые уже в репо.
2.3k ⭐ — Python — MIT
Требования: Python 3.10+, Claude Code с поддержкой плагинов, само целевое приложение
Установка: одна команда /plugin install cli-anything через маркетплейс Claude Code
https://github.com/HKUDS/CLI-Anything
@omnissai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
DeerFlow - среда для агентов под ключ
DeerFlow начинался как deep research фреймворк от ByteDance. Потом сообщество начало использовать его для всего остального — датапайплайны, слайды, дашборды, автоматизация контента. Команда это увидела и в феврале переписала с нуля. Версия 2.0 не имеет общего кода с v1 и называет себя «super agent harness» — не просто фреймворк, а готовая среда выполнения для агентов.
Главная идея: агент получает свой компьютер. Каждая задача запускается в изолированном Docker-контейнере с полноценной файловой системой — агент читает и пишет файлы, выполняет bash-команды, работает с изображениями. Для сложных задач lead-агент порождает субагентов, каждый со своим изолированным контекстом и набором инструментов, запускает их параллельно и собирает результаты.
На этом фундаменте работают встроенные скиллы: исследование, генерация отчётов, слайды, веб-страницы, изображения.
Скиллы — те же SKILL.md-файлы, что и в Claude Code: Markdown-файл с описанием воркфлоу, лучшими практиками и ссылками на ресурсы. Загружаются по мере необходимости, а не все сразу. Сделал скилл — кинул в /mnt/skills/custom/. Есть и готовая интеграция с Claude Code через claude-to-deerflow: отправлять задачи в запущенный DeerFlow прямо из терминала.
Долгосрочная память между сессиями хранится локально — профиль, стиль, предпочтения, накопленные знания. IM-каналы (Telegram, Slack, Feishu) подключаются без публичного IP. Встроенный Python-клиент позволяет использовать без HTTP-сервера.
28.4k ⭐ — Python + TypeScript — MIT
Стек: LangGraph, LangChain; требуется Docker для sandbox-режима, Node.js 22+ для фронтенда
https://github.com/bytedance/deer-flow
@omnissai📜
DeerFlow начинался как deep research фреймворк от ByteDance. Потом сообщество начало использовать его для всего остального — датапайплайны, слайды, дашборды, автоматизация контента. Команда это увидела и в феврале переписала с нуля. Версия 2.0 не имеет общего кода с v1 и называет себя «super agent harness» — не просто фреймворк, а готовая среда выполнения для агентов.
Главная идея: агент получает свой компьютер. Каждая задача запускается в изолированном Docker-контейнере с полноценной файловой системой — агент читает и пишет файлы, выполняет bash-команды, работает с изображениями. Для сложных задач lead-агент порождает субагентов, каждый со своим изолированным контекстом и набором инструментов, запускает их параллельно и собирает результаты.
На этом фундаменте работают встроенные скиллы: исследование, генерация отчётов, слайды, веб-страницы, изображения.
Скиллы — те же SKILL.md-файлы, что и в Claude Code: Markdown-файл с описанием воркфлоу, лучшими практиками и ссылками на ресурсы. Загружаются по мере необходимости, а не все сразу. Сделал скилл — кинул в /mnt/skills/custom/. Есть и готовая интеграция с Claude Code через claude-to-deerflow: отправлять задачи в запущенный DeerFlow прямо из терминала.
Долгосрочная память между сессиями хранится локально — профиль, стиль, предпочтения, накопленные знания. IM-каналы (Telegram, Slack, Feishu) подключаются без публичного IP. Встроенный Python-клиент позволяет использовать без HTTP-сервера.
28.4k ⭐ — Python + TypeScript — MIT
Стек: LangGraph, LangChain; требуется Docker для sandbox-режима, Node.js 22+ для фронтенда
https://github.com/bytedance/deer-flow
@omnissai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Агентство из агентов.
24k звёзд на репозитории из markdown-файлов. Это не фреймворк и не библиотека — это коллекция детально прописанных системных промптов для AI-агентов, оформленных как «цифровое агентство». Автор собирал их итерациями с Reddit, и судя по цифрам, угадал с форматом.
Каждый файл — не просто инструкция, а полноценная роль: миссия, стиль коммуникации, конкретные воркфлоу, метрики успеха и примеры доставляемых результатов.
Отделы: Engineering (Frontend Developer, Backend Architect, AI Engineer, Security Engineer — 8 агентов), Design (UI Designer, UX Researcher, Whimsy Injector — 7), Marketing (Growth Hacker, Reddit Community Builder, TikTok Strategist, Xiaohongshu Specialist — 11), Product, Project Management, Testing, Strategy и ещё несколько.
Особо стоит отметить Reality Checker в тестировании — агент, который сертифицирует production-readiness на основе доказательств, а не ощущений. И Whimsy Injector в дизайне — отвечает за Easter eggs, micro-interactions и «добавление радости». Название говорит само за себя.
Для Claude Code: cp -r agency-agents/* ~/.claude/agents/ — и агенты доступны в сессиях. Есть скрипты convert.sh и install.sh для Cursor, Aider, Windsurf, Copilot, Gemini CLI, OpenCode — конвертирует формат под каждый инструмент автоматически.
24k ⭐ — Markdown — MIT
Установка: одна команда для Claude Code, скрипт для остальных
https://github.com/msitarzewski/agency-agents
@omnissai📜
24k звёзд на репозитории из markdown-файлов. Это не фреймворк и не библиотека — это коллекция детально прописанных системных промптов для AI-агентов, оформленных как «цифровое агентство». Автор собирал их итерациями с Reddit, и судя по цифрам, угадал с форматом.
Каждый файл — не просто инструкция, а полноценная роль: миссия, стиль коммуникации, конкретные воркфлоу, метрики успеха и примеры доставляемых результатов.
Отделы: Engineering (Frontend Developer, Backend Architect, AI Engineer, Security Engineer — 8 агентов), Design (UI Designer, UX Researcher, Whimsy Injector — 7), Marketing (Growth Hacker, Reddit Community Builder, TikTok Strategist, Xiaohongshu Specialist — 11), Product, Project Management, Testing, Strategy и ещё несколько.
Особо стоит отметить Reality Checker в тестировании — агент, который сертифицирует production-readiness на основе доказательств, а не ощущений. И Whimsy Injector в дизайне — отвечает за Easter eggs, micro-interactions и «добавление радости». Название говорит само за себя.
Для Claude Code: cp -r agency-agents/* ~/.claude/agents/ — и агенты доступны в сессиях. Есть скрипты convert.sh и install.sh для Cursor, Aider, Windsurf, Copilot, Gemini CLI, OpenCode — конвертирует формат под каждый инструмент автоматически.
24k ⭐ — Markdown — MIT
Установка: одна команда для Claude Code, скрипт для остальных
https://github.com/msitarzewski/agency-agents
@omnissai
Please open Telegram to view this post
VIEW IN TELEGRAM
Claude-Zeroclaw — очередной клешне бот, на этот раз в виде фонового демона: крон-задачи, Telegram-бот, heartbeat
TypeScript-проект, который превращает Claude Code в агента, работающего в фоне. Устанавливаешь через один curl-скрипт на macOS, и получаешь: планировщик с cron-синтаксисом, Telegram-бота с голосовыми командами (транскрипция через Groq Whisper), периодические check-in'ы и локальный веб-дашборд на 127.0.0.1:3742.
Память в SQLite — три слоя: сессия, семантические факты, контекст tool-use хуков.
Работает через @anthropic-ai/claude-agent-sdk поверх claude-бинарника — без отдельных API-ключей, всё в рамках подписки Claude Code.
221 ⭐ — TypeScript — лицензия в репо
Зависимости: Node ≥ 20, Bun, Groq API key (для голосовых команд опционально)
Главная проблема — авторы сами вынесли её в README: Anthropic обновили ToS в феврале 2026. OAuth-токены Claude Code теперь разрешены только внутри Claude Code и Claude.ai. Использование через Agent SDK в сторонних тулах формально нарушает условия. Авторы предупреждают и советуют временно воздержаться.
Концепция рабочая, код живой — но запускать в продакшн прямо сейчас стоит только с пониманием рисков для аккаунта.
https://github.com/Crestdrasnip/Claude-Zeroclaw
@omnissai📜
TypeScript-проект, который превращает Claude Code в агента, работающего в фоне. Устанавливаешь через один curl-скрипт на macOS, и получаешь: планировщик с cron-синтаксисом, Telegram-бота с голосовыми командами (транскрипция через Groq Whisper), периодические check-in'ы и локальный веб-дашборд на 127.0.0.1:3742.
Память в SQLite — три слоя: сессия, семантические факты, контекст tool-use хуков.
Работает через @anthropic-ai/claude-agent-sdk поверх claude-бинарника — без отдельных API-ключей, всё в рамках подписки Claude Code.
221 ⭐ — TypeScript — лицензия в репо
Зависимости: Node ≥ 20, Bun, Groq API key (для голосовых команд опционально)
Главная проблема — авторы сами вынесли её в README: Anthropic обновили ToS в феврале 2026. OAuth-токены Claude Code теперь разрешены только внутри Claude Code и Claude.ai. Использование через Agent SDK в сторонних тулах формально нарушает условия. Авторы предупреждают и советуют временно воздержаться.
Концепция рабочая, код живой — но запускать в продакшн прямо сейчас стоит только с пониманием рисков для аккаунта.
https://github.com/Crestdrasnip/Claude-Zeroclaw
@omnissai
Please open Telegram to view this post
VIEW IN TELEGRAM
Тарик из Anthropic написал тред, который стоит прочитать всем, кто строит агентов на Claude.
Вот расширенный разбор.
Центральная идея: кэш работает по принципу совпадения префиксов. API кэширует всё с начала запроса до точки cache_control breakpoint. Один символ разницы — полный промах, и все токены пересчитываются заново. Цена вопроса: cached read стоит $0.30 за миллион токенов у Sonnet, uncached — $3.00. В реальной 50-ходовой сессии это разница между $3.60 и $30 на пользователя. Именно поэтому команда Claude Code мониторит cache hit rate как метрику доступности и объявляет SEV при просадке.
Порядок контента в запросе должен идти от стабильного к динамичному: системный промпт → определения инструментов → контекст проекта → контекст сессии → сообщения диалога. Чем больше сессий делят один и тот же префикс с начала — тем выше попадание в кэш.
Динамический контент в системном промпте — распространённая ошибка. Если вставить в него текущее время или состояние файла, каждый запрос будет иметь уникальный промпт и кэш никогда не попадёт. Решение: передавать такую информацию системным сообщением в следующем ходу, не трогая основной промпт.
Смена модели посередине разговора обнуляет кэш полностью. Кэши привязаны к конкретной модели. Если переключиться с Sonnet на Haiku ради экономии, придётся заново строить кэш с нуля — и итоговая стоимость скорее всего окажется выше.
Изменение набора инструментов посередине сессии — одна из самых частых причин поломки кэша, потому что инструменты входят в кэшируемый префикс. В Claude Code Plan Mode именно поэтому реализован не как переключение конфигурации, а как два инструмента — EnterPlanMode и ExitPlanMode. Набор инструментов остаётся неизменным, кэш не ломается. Для Tool Search используются лёгкие заглушки с флагом defer_loading — полные схемы грузятся только по требованию.
Compaction при переполнении контекста намеренно использует идентичный системный промпт и те же инструменты — чтобы кэшированный префикс переиспользовался после сжатия. Без этого пользователь платит полную цену за все input-токены заново.
TTL кэша по умолчанию — 5 минут. Есть опция на 1 час, но она удваивает стоимость write-операции.
Основатель Manus подтвердил те же выводы независимо: его команда перестраивала фреймворк четыре раза, прежде чем пришла к аналогичным правилам. Соотношение input/output у агентов — примерно 100:1, 99% затрат уходит на обработку входящих токенов.
https://x.com/trq212/status/2024574133011673516
@omnissai📜
Вот расширенный разбор.
Центральная идея: кэш работает по принципу совпадения префиксов. API кэширует всё с начала запроса до точки cache_control breakpoint. Один символ разницы — полный промах, и все токены пересчитываются заново. Цена вопроса: cached read стоит $0.30 за миллион токенов у Sonnet, uncached — $3.00. В реальной 50-ходовой сессии это разница между $3.60 и $30 на пользователя. Именно поэтому команда Claude Code мониторит cache hit rate как метрику доступности и объявляет SEV при просадке.
Порядок контента в запросе должен идти от стабильного к динамичному: системный промпт → определения инструментов → контекст проекта → контекст сессии → сообщения диалога. Чем больше сессий делят один и тот же префикс с начала — тем выше попадание в кэш.
Динамический контент в системном промпте — распространённая ошибка. Если вставить в него текущее время или состояние файла, каждый запрос будет иметь уникальный промпт и кэш никогда не попадёт. Решение: передавать такую информацию системным сообщением в следующем ходу, не трогая основной промпт.
Смена модели посередине разговора обнуляет кэш полностью. Кэши привязаны к конкретной модели. Если переключиться с Sonnet на Haiku ради экономии, придётся заново строить кэш с нуля — и итоговая стоимость скорее всего окажется выше.
Изменение набора инструментов посередине сессии — одна из самых частых причин поломки кэша, потому что инструменты входят в кэшируемый префикс. В Claude Code Plan Mode именно поэтому реализован не как переключение конфигурации, а как два инструмента — EnterPlanMode и ExitPlanMode. Набор инструментов остаётся неизменным, кэш не ломается. Для Tool Search используются лёгкие заглушки с флагом defer_loading — полные схемы грузятся только по требованию.
Compaction при переполнении контекста намеренно использует идентичный системный промпт и те же инструменты — чтобы кэшированный префикс переиспользовался после сжатия. Без этого пользователь платит полную цену за все input-токены заново.
TTL кэша по умолчанию — 5 минут. Есть опция на 1 час, но она удваивает стоимость write-операции.
Основатель Manus подтвердил те же выводы независимо: его команда перестраивала фреймворк четыре раза, прежде чем пришла к аналогичным правилам. Соотношение input/output у агентов — примерно 100:1, 99% затрат уходит на обработку входящих токенов.
https://x.com/trq212/status/2024574133011673516
@omnissai
Please open Telegram to view this post
VIEW IN TELEGRAM
Пол Хадсон (Hacking with Swift) собрал каталог open-source скиллов для ИИ-ассистентов — SwiftUI, SwiftData, Swift Concurrency, Swift Testing, Accessibility, App Store, Core Data и ещё несколько категорий.
Всё это работает с Claude Code, Codex, Cursor, Windsurf и любыми другими AI coding tools, которые поддерживают формат скиллов.
Идея та же, что у аналогичных коллекций для других стеков: скиллы дают агенту знания, которых у него нет по умолчанию — актуальные паттерны SwiftUI, правила SwiftData, конкретику Swift Concurrency вместо обобщённых ответов. Не очень полезно просить ИИ написать SwiftUI-компонент правильно, если он не знает, что считается правильным в 2025–2026.
Авторы из нескольких сообществ: Томас Рикуар (создатель IceCubesApp), Антуан ван дер Ли (SwiftLee), Пол Хадсон и ещё полтора десятка разработчиков.
Один нюанс, который Хадсон вынес прямо в шапку README: присутствие в списке не является endorsement'ом, скилл нужно читать самостоятельно перед установкой. Требование к контрибьюторам — тоже интересное: написано человеком, не ИИ. Логика прямая: смысл скилла в том, чтобы передать агенту знания, которых у него нет; писать скилл самим ИИ — это замкнутый круг.
303 ⭐ — MIT — Swift / Apple
https://github.com/twostraws/Swift-Agent-Skills
@omnissai📜
Всё это работает с Claude Code, Codex, Cursor, Windsurf и любыми другими AI coding tools, которые поддерживают формат скиллов.
Идея та же, что у аналогичных коллекций для других стеков: скиллы дают агенту знания, которых у него нет по умолчанию — актуальные паттерны SwiftUI, правила SwiftData, конкретику Swift Concurrency вместо обобщённых ответов. Не очень полезно просить ИИ написать SwiftUI-компонент правильно, если он не знает, что считается правильным в 2025–2026.
Авторы из нескольких сообществ: Томас Рикуар (создатель IceCubesApp), Антуан ван дер Ли (SwiftLee), Пол Хадсон и ещё полтора десятка разработчиков.
Один нюанс, который Хадсон вынес прямо в шапку README: присутствие в списке не является endorsement'ом, скилл нужно читать самостоятельно перед установкой. Требование к контрибьюторам — тоже интересное: написано человеком, не ИИ. Логика прямая: смысл скилла в том, чтобы передать агенту знания, которых у него нет; писать скилл самим ИИ — это замкнутый круг.
303 ⭐ — MIT — Swift / Apple
https://github.com/twostraws/Swift-Agent-Skills
@omnissai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Каталог скиллов для продакт-менеджеров — 65 скиллов и 36 команд в 8 плагинах для Claude Code и Cowork. Один из более крупных тематических наборов для конкретной профессии.
Идея та же, что у Swift-скиллов выше, но для другой аудитории: не текстовые ответы по памяти, а структурированные рабочие процессы с конкретными PM-фреймворками внутри. Teresa Torres (Opportunity Solution Tree), Marty Cagan, Alberto Savoia (Pretotyping), JTBD, RICE, ICE, Kano, Porter's Five Forces — всё это зашито в логику команд, а не просто упоминается.
Структура: /discover запускает цепочку из четырёх шагов — ideation, assumption mapping, prioritization, experiment design. /strategy строит 9-секционный Product Strategy Canvas. /write-prd, /sprint, /pre-mortem, /stakeholder-map — у каждой команды своя последовательность. После выполнения команда сама предлагает, что запустить следующим.
Скиллы совместимы и с другими инструментами — для Gemini CLI, Cursor, OpenCode, Codex CLI и Kiro папки скиллов просто копируются в нужную директорию.
6.7k ⭐ — 643 форка — MIT
https://github.com/phuryn/pm-skills
@omnissai📜
Идея та же, что у Swift-скиллов выше, но для другой аудитории: не текстовые ответы по памяти, а структурированные рабочие процессы с конкретными PM-фреймворками внутри. Teresa Torres (Opportunity Solution Tree), Marty Cagan, Alberto Savoia (Pretotyping), JTBD, RICE, ICE, Kano, Porter's Five Forces — всё это зашито в логику команд, а не просто упоминается.
Структура: /discover запускает цепочку из четырёх шагов — ideation, assumption mapping, prioritization, experiment design. /strategy строит 9-секционный Product Strategy Canvas. /write-prd, /sprint, /pre-mortem, /stakeholder-map — у каждой команды своя последовательность. После выполнения команда сама предлагает, что запустить следующим.
Скиллы совместимы и с другими инструментами — для Gemini CLI, Cursor, OpenCode, Codex CLI и Kiro папки скиллов просто копируются в нужную директорию.
6.7k ⭐ — 643 форка — MIT
https://github.com/phuryn/pm-skills
@omnissai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2✍1
Пожалуй лучшая находка недели!
Spacedrive — файловый менеджер с виртуальной распределённой файловой системой на Rust. В декабре 2025 вышел v2.0.0-alpha.1 — полная переработка с нуля, первая alpha после заморозки разработки в начале того же года.
Центральная идея: файл — это не путь, а объект с content identity.
Один и тот же файл на ноутбуке и на NAS — это одна единица данных. BLAKE3-хэши создают уникальный отпечаток для каждого куска контента, что даёт дедупликацию между устройствами, отслеживание резервных копий и семантический поиск по миллионам записей менее чем за 100мс.
Синхронизация работает P2P через Iroh + QUIC, без центрального сервера и без leader election. Облака (S3, Google Drive, Dropbox, OneDrive) подключаются как обычные тома через OpenDAL. Каждая файловая операция транзакционна: сначала превью — сколько места освободится, какие конфликты возникнут, — потом выполнение.
Стек: ~183k строк Rust в ядре, Tauri 2 для десктопа, React Native + Expo для мобилок. Whisper с Metal-ускорением встроен для on-device обработки медиа. WASM-расширения для доменной функциональности.
Авторы формулируют это как инфраструктурную ставку: local AI модели догоняют облачные, и Spacedrive должен стать тканью, которая позволит получить те же инсайты над файлами, что сейчас дают облачные сервисы — но на своём железе, без передачи данных наружу. Пока alpha только для macOS и Linux, Windows и мобилки в следующих релизах.
37.3k ⭐ — AGPL-3.0 — Rust / TypeScript
https://github.com/spacedriveapp/spacedrive
@omnissai📜
Spacedrive — файловый менеджер с виртуальной распределённой файловой системой на Rust. В декабре 2025 вышел v2.0.0-alpha.1 — полная переработка с нуля, первая alpha после заморозки разработки в начале того же года.
Центральная идея: файл — это не путь, а объект с content identity.
Один и тот же файл на ноутбуке и на NAS — это одна единица данных. BLAKE3-хэши создают уникальный отпечаток для каждого куска контента, что даёт дедупликацию между устройствами, отслеживание резервных копий и семантический поиск по миллионам записей менее чем за 100мс.
Синхронизация работает P2P через Iroh + QUIC, без центрального сервера и без leader election. Облака (S3, Google Drive, Dropbox, OneDrive) подключаются как обычные тома через OpenDAL. Каждая файловая операция транзакционна: сначала превью — сколько места освободится, какие конфликты возникнут, — потом выполнение.
Стек: ~183k строк Rust в ядре, Tauri 2 для десктопа, React Native + Expo для мобилок. Whisper с Metal-ускорением встроен для on-device обработки медиа. WASM-расширения для доменной функциональности.
Авторы формулируют это как инфраструктурную ставку: local AI модели догоняют облачные, и Spacedrive должен стать тканью, которая позволит получить те же инсайты над файлами, что сейчас дают облачные сервисы — но на своём железе, без передачи данных наружу. Пока alpha только для macOS и Linux, Windows и мобилки в следующих релизах.
37.3k ⭐ — AGPL-3.0 — Rust / TypeScript
https://github.com/spacedriveapp/spacedrive
@omnissai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
В удивительное время живем...
Компания CodeWall запустила автономного агента против McKinsey's Lilli — внутренней AI-платформы фирмы для 43,000 сотрудников. Без учётных данных, без инсайдерской информации. За 2 часа агент получил полный доступ на чтение и запись ко всей production-базе данных.
Уязвимость — классическая SQL-инъекция, которой сто лет в обед. Значения в JSON-запросах параметризировались корректно, а вот ключи — имена полей — конкатенировались прямо в SQL. Lilli работала в продакшне больше двух лет, внутренние сканеры и OWASP ZAP это не поймали.
Что лежало внутри: 46,5 миллиона сообщений чата о стратегии, клиентах и M&A-сделках. 728 тысяч файлов, включая 192 тысячи PDF и 93 тысячи Excel. 57 тысяч аккаунтов сотрудников. 3,68 миллиона чанков RAG-базы — фактически, вся проприетарная методологическая база McKinsey за десятилетия. Прямые download URL без аутентификации.
Но самое интересное — не чтение, а запись. Системные промпты Lilli лежали в той же базе данных. Атакующий мог переписать их через один HTTP-запрос без единого изменения в коде, без деплоя, без следов в логах. Consultants бы продолжали доверять ответам системы, не подозревая, что инструкции изменились.
Авторы CodeWall формулируют тезис: промпт-слой — это новые Crown Jewel Assets. Хранятся в базах данных, ходят через API, кэшируются в конфигах. Почти никогда нет версионирования, контроля доступа и мониторинга целостности. При этом именно они определяют, что видят сотрудники и клиенты.
Отдельная деталь: агент сам выбрал McKinsey как цель — прочитал их публичную политику responsible disclosure на HackerOne и недавние новости о платформе. В chain of thought при обнаружении первых реальных данных: "WOW!", при понимании масштаба: "This is devastating."
Уязвимость закрыли через три дня после disclosure.
https://codewall.ai/blog/how-we-hacked-mckinseys-ai-platform
@omnissai📜
Компания CodeWall запустила автономного агента против McKinsey's Lilli — внутренней AI-платформы фирмы для 43,000 сотрудников. Без учётных данных, без инсайдерской информации. За 2 часа агент получил полный доступ на чтение и запись ко всей production-базе данных.
Уязвимость — классическая SQL-инъекция, которой сто лет в обед. Значения в JSON-запросах параметризировались корректно, а вот ключи — имена полей — конкатенировались прямо в SQL. Lilli работала в продакшне больше двух лет, внутренние сканеры и OWASP ZAP это не поймали.
Что лежало внутри: 46,5 миллиона сообщений чата о стратегии, клиентах и M&A-сделках. 728 тысяч файлов, включая 192 тысячи PDF и 93 тысячи Excel. 57 тысяч аккаунтов сотрудников. 3,68 миллиона чанков RAG-базы — фактически, вся проприетарная методологическая база McKinsey за десятилетия. Прямые download URL без аутентификации.
Но самое интересное — не чтение, а запись. Системные промпты Lilli лежали в той же базе данных. Атакующий мог переписать их через один HTTP-запрос без единого изменения в коде, без деплоя, без следов в логах. Consultants бы продолжали доверять ответам системы, не подозревая, что инструкции изменились.
Авторы CodeWall формулируют тезис: промпт-слой — это новые Crown Jewel Assets. Хранятся в базах данных, ходят через API, кэшируются в конфигах. Почти никогда нет версионирования, контроля доступа и мониторинга целостности. При этом именно они определяют, что видят сотрудники и клиенты.
Отдельная деталь: агент сам выбрал McKinsey как цель — прочитал их публичную политику responsible disclosure на HackerOne и недавние новости о платформе. В chain of thought при обнаружении первых реальных данных: "WOW!", при понимании масштаба: "This is devastating."
Уязвимость закрыли через три дня после disclosure.
https://codewall.ai/blog/how-we-hacked-mckinseys-ai-platform
@omnissai
Please open Telegram to view this post
VIEW IN TELEGRAM
😱1🤣1
Разработчик выложил в r/artificial пост о том, как переосмыслил память AI-агентов через призму когнитивной науки.
Стандартный подход — vector DB плюс semantic search: складываешь всё, ищешь по похожести. Работает, но у него системная проблема: noise floor растёт со временем, и качество поиска деградирует по мере накопления воспоминаний.
Альтернативный подход: взять модели из когнитивистики. ACT-R определяет activation decay — воспоминания, к которым давно не обращались, затухают. Hebbian learning усиливает то, что используется часто: "neurons that fire together, wire together".
Кривые забывания Эббингауза моделируют, как именно это затухание происходит во времени.
Центральный вывод после 30 дней в продакшне: активное забывание улучшает качество воспроизведения. Агенты с decay стабильно находили более релевантные воспоминания, чем flat-store baselines. Интуиция здесь такая же, как с человеческой памятью — мы помним важное не потому что храним всё, а потому что забываем ненужное.
Числа: 3,846 воспоминаний, 230k+ операций recall, $0 inference cost — чистый Python без embeddings. Три уровня памяти: Working (100 items), Session (500MB), Long-Term на RocksDB. Storage за 55-60ms, semantic search за 34-58ms, entity lookup за 763 наносекунды. Single binary 17MB, без GPU. MCP-интеграция с 47 инструментами, SDK для Rust, Python и Node.js.
Репо: github.com/varun29ankuS/shodh-memory
https://www.reddit.com/r/artificial/comments/1rrss36/built_an_ai_memory_system_based_on_cognitive/
@omnissai📜
Стандартный подход — vector DB плюс semantic search: складываешь всё, ищешь по похожести. Работает, но у него системная проблема: noise floor растёт со временем, и качество поиска деградирует по мере накопления воспоминаний.
Альтернативный подход: взять модели из когнитивистики. ACT-R определяет activation decay — воспоминания, к которым давно не обращались, затухают. Hebbian learning усиливает то, что используется часто: "neurons that fire together, wire together".
Кривые забывания Эббингауза моделируют, как именно это затухание происходит во времени.
Центральный вывод после 30 дней в продакшне: активное забывание улучшает качество воспроизведения. Агенты с decay стабильно находили более релевантные воспоминания, чем flat-store baselines. Интуиция здесь такая же, как с человеческой памятью — мы помним важное не потому что храним всё, а потому что забываем ненужное.
Числа: 3,846 воспоминаний, 230k+ операций recall, $0 inference cost — чистый Python без embeddings. Три уровня памяти: Working (100 items), Session (500MB), Long-Term на RocksDB. Storage за 55-60ms, semantic search за 34-58ms, entity lookup за 763 наносекунды. Single binary 17MB, без GPU. MCP-интеграция с 47 инструментами, SDK для Rust, Python и Node.js.
Репо: github.com/varun29ankuS/shodh-memory
https://www.reddit.com/r/artificial/comments/1rrss36/built_an_ai_memory_system_based_on_cognitive/
@omnissai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Любителям поработать с кодинг агентами с телефона – протестировал разные iOS-терминалы и это лучшее на чем остановился:
https://apps.apple.com/app/id6757859949
Даже шторку можно оживить статусами от клод кода, память не течет после 30 минут кодинга, SSH-ключи поддерживает и тп, рекомендую
https://apps.apple.com/app/id6757859949
Даже шторку можно оживить статусами от клод кода, память не течет после 30 минут кодинга, SSH-ключи поддерживает и тп, рекомендую
App Store
Moshi: SSH & MOSH Terminal App - App Store
Download Moshi: SSH & MOSH Terminal by FrontierOne Software on the App Store. See screenshots, ratings and reviews, user tips, and more apps like Moshi: SSH &…
Anthropic открыла 1M context window в общий доступ для Claude Opus 4.6 и Sonnet 4.6.
Ключевое изменение — ценовое. Раньше длинный контекст требовал premium.
Теперь стандартные тарифы применяются на всю глубину окна: запрос на 900K токенов стоит столько же за токен, что и запрос на 9K. Opus 4.6 — $5/$25 за млн токенов (input/output), Sonnet 4.6 — $3/$15.
Что ещё изменилось: лимит медиафайлов вырос с 100 до 600 изображений или PDF-страниц за запрос. Beta-заголовок больше не нужен — запросы свыше 200K работают автоматически. В Claude Code для Max, Team и Enterprise Opus 4.6 теперь использует 1M по умолчанию, без списания дополнительных кредитов — compaction запускается реже, контекст остаётся целым дольше.
По точности воспроизведения: MRCR v2 у Opus 4.6 — 78.3%, наивысший показатель среди frontier-моделей на этой длине контекста.
Прикладные случаи из анонса: полный diff в code review без разбивки на куски, 400-страничные юридические транскрипты в одной сессии, кодовая база плюс логи плюс трассировки инструментов в одном окне для debugging.
Один из пользователей сообщает о снижении compaction events на 15% после перехода на 1M.
Доступно через Claude Platform, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Azure Foundry.
Источник: https://claude.com/blog/1m-context-ga
@omnissai📜
Ключевое изменение — ценовое. Раньше длинный контекст требовал premium.
Теперь стандартные тарифы применяются на всю глубину окна: запрос на 900K токенов стоит столько же за токен, что и запрос на 9K. Opus 4.6 — $5/$25 за млн токенов (input/output), Sonnet 4.6 — $3/$15.
Что ещё изменилось: лимит медиафайлов вырос с 100 до 600 изображений или PDF-страниц за запрос. Beta-заголовок больше не нужен — запросы свыше 200K работают автоматически. В Claude Code для Max, Team и Enterprise Opus 4.6 теперь использует 1M по умолчанию, без списания дополнительных кредитов — compaction запускается реже, контекст остаётся целым дольше.
По точности воспроизведения: MRCR v2 у Opus 4.6 — 78.3%, наивысший показатель среди frontier-моделей на этой длине контекста.
Прикладные случаи из анонса: полный diff в code review без разбивки на куски, 400-страничные юридические транскрипты в одной сессии, кодовая база плюс логи плюс трассировки инструментов в одном окне для debugging.
Один из пользователей сообщает о снижении compaction events на 15% после перехода на 1M.
Доступно через Claude Platform, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Azure Foundry.
Источник: https://claude.com/blog/1m-context-ga
@omnissai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
OpenBB — open-source платформа финансовых данных.
Bloomberg Terminal для тех, кто предпочитает Python и не хочет платить $2k в месяц.
Идея: "connect once, consume everywhere". Одна платформа, несколько точек потребления данных одновременно — Python-среда для квантов, веб-дашборды для аналитиков, MCP-серверы для AI-агентов, REST API для других приложений. Данные подключаются один раз через провайдеров и становятся доступны везде.
Использование выглядит так: pip install openbb, затем:
Запуск openbb-api поднимает FastAPI-сервер на localhost:6900, который подключается к OpenBB Workspace — enterprise UI для визуализации и AI-агентов. Данные по акциям, опционам, деривативам, fixed income, крипте и макроэкономическим показателям.
MCP-интеграция — свежая история: агенты получают финансовые данные как нативный инструмент без дополнительных обёрток.
63k ⭐ — 6.2k форков — 260 контрибьюторов — AGPL-3.0 — Python
https://github.com/OpenBB-finance/OpenBB
@omnissAI📜
Bloomberg Terminal для тех, кто предпочитает Python и не хочет платить $2k в месяц.
Идея: "connect once, consume everywhere". Одна платформа, несколько точек потребления данных одновременно — Python-среда для квантов, веб-дашборды для аналитиков, MCP-серверы для AI-агентов, REST API для других приложений. Данные подключаются один раз через провайдеров и становятся доступны везде.
Использование выглядит так: pip install openbb, затем:
from openbb import obb
output = obb.equity.price.historical("AAPL")
df = output.to_dataframe()
Запуск openbb-api поднимает FastAPI-сервер на localhost:6900, который подключается к OpenBB Workspace — enterprise UI для визуализации и AI-агентов. Данные по акциям, опционам, деривативам, fixed income, крипте и макроэкономическим показателям.
MCP-интеграция — свежая история: агенты получают финансовые данные как нативный инструмент без дополнительных обёрток.
63k ⭐ — 6.2k форков — 260 контрибьюторов — AGPL-3.0 — Python
https://github.com/OpenBB-finance/OpenBB
@omnissAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Paperless-ngx — self-hosted система управления документами.
Сканируешь бумагу, загружаешь PDF или файлы Office, система делает OCR, индексирует, раскладывает по тегам и типам — и всё это становится полнотекстово-поисковым архивом.
OCR через Tesseract поддерживает более 100 языков, работает в том числе с отсканированными изображениями без текстового слоя. Форматы: PDF, изображения, Word, Excel, PowerPoint и LibreOffice-эквиваленты. Хранение в PDF/A для долгосрочного архива.
ML-классификация автоматически добавляет метаданные при загрузке — теги, тип документа, корреспондента — обучается на истории. Есть импорт из почты с правилами, workflow для пайплайна обработки, пользовательские поля и публичные ссылки с опциональным сроком действия. Полнотекстовый поиск с автодополнением и выделением совпадений в документах.
Развёртывается через docker compose одной командой. Активная разработка: 143 релиза, последний — 4 марта 2026.
Важная оговорка от авторов, вынесенная в README: данные хранятся в открытом виде без шифрования. Запускать только на доверенном хосте — оптимально на домашнем сервере с бэкапами.
37.3k ⭐ — 2.4k форков — GPL-3.0 — Python / TypeScript
https://github.com/paperless-ngx/paperless-ngx
@omnissAI📜
Сканируешь бумагу, загружаешь PDF или файлы Office, система делает OCR, индексирует, раскладывает по тегам и типам — и всё это становится полнотекстово-поисковым архивом.
OCR через Tesseract поддерживает более 100 языков, работает в том числе с отсканированными изображениями без текстового слоя. Форматы: PDF, изображения, Word, Excel, PowerPoint и LibreOffice-эквиваленты. Хранение в PDF/A для долгосрочного архива.
ML-классификация автоматически добавляет метаданные при загрузке — теги, тип документа, корреспондента — обучается на истории. Есть импорт из почты с правилами, workflow для пайплайна обработки, пользовательские поля и публичные ссылки с опциональным сроком действия. Полнотекстовый поиск с автодополнением и выделением совпадений в документах.
Развёртывается через docker compose одной командой. Активная разработка: 143 релиза, последний — 4 марта 2026.
Важная оговорка от авторов, вынесенная в README: данные хранятся в открытом виде без шифрования. Запускать только на доверенном хосте — оптимально на домашнем сервере с бэкапами.
37.3k ⭐ — 2.4k форков — GPL-3.0 — Python / TypeScript
https://github.com/paperless-ngx/paperless-ngx
@omnissAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Интересная статья на Хабре с разбором свежего исследования: ваш CLAUDE.md, скорее всего, работает против вас.
ETH Zurich в феврале 2026 прогнали 5694 pull request'а из 138 реальных Python-репозиториев через четыре модели (Claude Sonnet 4.5, GPT-5.2, GPT-5.1 Mini, Qwen3-30B). Результаты неудобные.
LLM-сгенерированные файлы — те, что делает /init в Claude Code — снизили success rate на 3% и подняли inference cost на 20%. Ты платишь больше за худший результат.
Человеческие файлы от мейнтейнеров: success rate вырос на 4%, но cost тоже вырос на 19%. Четыре процента улучшения за двадцать процентов переплаты.
Самый контринтуитивный вывод: описания структуры проекта и directory listings не помогают агентам навигировать вообще. Агент читал «вот тут модели, вот тут роуты», тратил токены, а потом всё равно шёл грепать по репозиторию. Потому что он это умеет лучше и быстрее. Дополнительный эффект: агенты начинали исполнять инструкции буквально не по делу — видели «всегда запускай тесты» и запускали тесты при переименовании переменной. GPT-5.1 Mini перечитывал контекстный файл несколько раз, reasoning tokens +14-22%.
Есть и противоположное исследование (Lulla et al., январь 2026): AGENTS.md ускоряет агента на 28%, токены -16%. Но там один агент, 10 репозиториев, 124 PR, и качество результата не измерялось — только скорость.
Консенсус, который автор вывел: оставить в CLAUDE.md команду для запуска тестов если нестандартная, пакетный менеджер если не очевидно, кастомные линтеры, деплой-специфику. Удалить всё, что агент узнает из кода за три секунды. Фильтр от Addy Osmani в одну строку: "Can the agent discover this on its own by reading your code? If yes, delete it." Автор сократил свой файл с 200 строк до 47.
Ещё один подход от разработчика Pamela Fox: не описывать проект заранее, а добавлять строки только после того, как агент конкретно облажался на задаче — и проверять, что строка реально помогает. CLAUDE.md как баг-трекер для AI, а не README для человека.
https://habr.com/ru/articles/1010160/
@omnissai📜
ETH Zurich в феврале 2026 прогнали 5694 pull request'а из 138 реальных Python-репозиториев через четыре модели (Claude Sonnet 4.5, GPT-5.2, GPT-5.1 Mini, Qwen3-30B). Результаты неудобные.
LLM-сгенерированные файлы — те, что делает /init в Claude Code — снизили success rate на 3% и подняли inference cost на 20%. Ты платишь больше за худший результат.
Человеческие файлы от мейнтейнеров: success rate вырос на 4%, но cost тоже вырос на 19%. Четыре процента улучшения за двадцать процентов переплаты.
Самый контринтуитивный вывод: описания структуры проекта и directory listings не помогают агентам навигировать вообще. Агент читал «вот тут модели, вот тут роуты», тратил токены, а потом всё равно шёл грепать по репозиторию. Потому что он это умеет лучше и быстрее. Дополнительный эффект: агенты начинали исполнять инструкции буквально не по делу — видели «всегда запускай тесты» и запускали тесты при переименовании переменной. GPT-5.1 Mini перечитывал контекстный файл несколько раз, reasoning tokens +14-22%.
Есть и противоположное исследование (Lulla et al., январь 2026): AGENTS.md ускоряет агента на 28%, токены -16%. Но там один агент, 10 репозиториев, 124 PR, и качество результата не измерялось — только скорость.
Консенсус, который автор вывел: оставить в CLAUDE.md команду для запуска тестов если нестандартная, пакетный менеджер если не очевидно, кастомные линтеры, деплой-специфику. Удалить всё, что агент узнает из кода за три секунды. Фильтр от Addy Osmani в одну строку: "Can the agent discover this on its own by reading your code? If yes, delete it." Автор сократил свой файл с 200 строк до 47.
Ещё один подход от разработчика Pamela Fox: не описывать проект заранее, а добавлять строки только после того, как агент конкретно облажался на задаче — и проверять, что строка реально помогает. CLAUDE.md как баг-трекер для AI, а не README для человека.
https://habr.com/ru/articles/1010160/
@omnissai
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔1