Файл, который вы первым делом создаете для кодинг-агента, скорее всего делает его работу хуже. Разбираем исследование о том, помогают ли
Если вы работаете с Claude Code, Codex или Cursor - вы наверняка слышали: "первым делом настрой
Что проверяли и к чему пришли
Исследование "Do Context Files Help?" тестировало три сценария: агент с developer-written файлом, агент без файла вообще, и агент с LLM-generated файлом (тот самый
- Developer-written файлы: +4% к resolve rate. Небольшой прирост
- LLM-generated файлы: -3%. Хуже, чем без файла вообще
- Стоимость: +20% во всех сценариях с context files
Результат стабилен по моделям и промптам для генерации. Авторы рекомендуют отказаться от auto-generated файлов и включать только минимальные специфические требования.
Когда модель сама генерирует описание кодовой базы, она записывает то, что и так может найти за минуту через
Еще есть и концепция "instruction budget" - frontier модели удерживают в фокусе примерно 150-200 инструкций. Но это общий бюджет на все: system prompt инструмента, ваш context file и сама задача. Системный промпт Claude Code или Codex уже занимает значительную часть этого бюджета. Каждая лишняя строка в вашем файле конкурирует за внимание модели со всем остальным.
Мой подход
Я практически не использую
Часто использую условные правила вместо постоянных: "если делаешь X - используй Y" вместо "всегда используй Y". Это снижает noise для задач, где правило нерелевантно.
В больших проектах - вложенные файлы по папкам. Progressive disclosure: агент получает инструкции только для той части кодовой базы, в которой работает.
Еще из наблюдений
- Негативные инструкции ("не используй X") парадоксально могут увеличить вероятность использования X. Лучше укажите что использовать вместо.
- Периодически удаляйте файл целиком и смотрите, что реально сломается. С каждым апдейтом моделей - сломается все меньше
- Compiler/linter лучше текстовых инструкций - если можно выразить правило через ESLint rule, tsconfig strict, pre-commit hook - это надежнее
-
- Не скачивайте всякие чужие awesome-claude-md-for-best-developers-pack - там нет нюансов вашего проекта, зато есть накопленные рудименты, которые современные модели и так знают.
- Иногда вам просто не нужен файл контекста, на сегодня вполне ок кодить без него, особенно если проект новый.
Context files - не бесполезны. Но если их генерировать и не поддерживать - они точно скорее вредят, чем помогают. Минимальный, реактивный, актуальный файл с фокусом на нестандартных вещах - пока лучший подход.
А какой у вас опыт?
AGENTS.md и CLAUDE.md файлы кодинг-агентам решать задачи.Если вы работаете с Claude Code, Codex или Cursor - вы наверняка слышали: "первым делом настрой
CLAUDE.md AGENTS.md`" (обобщим как context files). Кто-то использует шаблоны из Github и постов, а кто-то запускает `/init`. Звучит как must-have. Но исследователи из ETH Zurich решили проверить, работает ли это на самом деле.Что проверяли и к чему пришли
Исследование "Do Context Files Help?" тестировало три сценария: агент с developer-written файлом, агент без файла вообще, и агент с LLM-generated файлом (тот самый
/init). Задачи - реальные GitHub issues из SWE-bench. Получили:- Developer-written файлы: +4% к resolve rate. Небольшой прирост
- LLM-generated файлы: -3%. Хуже, чем без файла вообще
- Стоимость: +20% во всех сценариях с context files
Результат стабилен по моделям и промптам для генерации. Авторы рекомендуют отказаться от auto-generated файлов и включать только минимальные специфические требования.
Когда модель сама генерирует описание кодовой базы, она записывает то, что и так может найти за минуту через
rg и чтение package.json. По сути это дублирование. Только теперь это дублирование сидит в контексте каждого запроса, занимает токены и создает bias.Еще есть и концепция "instruction budget" - frontier модели удерживают в фокусе примерно 150-200 инструкций. Но это общий бюджет на все: system prompt инструмента, ваш context file и сама задача. Системный промпт Claude Code или Codex уже занимает значительную часть этого бюджета. Каждая лишняя строка в вашем файле конкурирует за внимание модели со всем остальным.
Мой подход
Я практически не использую
/init. Вместо этого начинаю с ручного минималистичного CLAUDE.md. Там чаще бизнес-контекст (про что проект, текущее состояние, что важно учитывать на этой стадии), а не описание файловой структуры. Придерживаюсь реактивного подхода: если агент раз за разом делает одну и ту же ошибку - добавляю правило. Не делает - не добавляю. Периодически делаю ревизию.Часто использую условные правила вместо постоянных: "если делаешь X - используй Y" вместо "всегда используй Y". Это снижает noise для задач, где правило нерелевантно.
В больших проектах - вложенные файлы по папкам. Progressive disclosure: агент получает инструкции только для той части кодовой базы, в которой работает.
Еще из наблюдений
- Негативные инструкции ("не используй X") парадоксально могут увеличить вероятность использования X. Лучше укажите что использовать вместо.
- Периодически удаляйте файл целиком и смотрите, что реально сломается. С каждым апдейтом моделей - сломается все меньше
- Compiler/linter лучше текстовых инструкций - если можно выразить правило через ESLint rule, tsconfig strict, pre-commit hook - это надежнее
-
AGENTS.md ≠ CONTRIBUTING.md - если у вас уже есть CONTRIBUTING.md для людей, не дублируйте. Просто сошлитесь на него. То же касается README.md- Не скачивайте всякие чужие awesome-claude-md-for-best-developers-pack - там нет нюансов вашего проекта, зато есть накопленные рудименты, которые современные модели и так знают.
- Иногда вам просто не нужен файл контекста, на сегодня вполне ок кодить без него, особенно если проект новый.
Context files - не бесполезны. Но если их генерировать и не поддерживать - они точно скорее вредят, чем помогают. Минимальный, реактивный, актуальный файл с фокусом на нестандартных вещах - пока лучший подход.
А какой у вас опыт?
4🔥74👍41❤20
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic отказала Пентагону в использовании Claude для массовой слежки и автономного оружия. Пентагон разорвал контракт, Трамп потребовал отказаться от Claude во всех фед. агентствах. Anthropic оспорит решение в суде. Ирония: OpenAI тут же заключила аналогичный контракт с оборонкой, за что многие стали отменять подписки.
- Alibaba выпустила Qwen 3.5 Medium: Qwen3.5-35B-A3B, квант работает на одной RTX 3090 с 100+ т/с, по качеству сопоставима с Sonnet 4.5. Контекст 1M, Apache 2.0. SOTA для локальных запусков!
- Reve v1.5: большой апдейт генератора картинок, третье место на арене. Улучшена работа с текстом включая кириллицу.
- ByteDance выкатили Seedream 5.0 Lite для генерации и редактирования картинок. Урезанная из-за проблем с копирайтом, но все еще хороша.
- Google представила Nano Banana 2: качество Pro с быстродействием Flash, разрешение до 4K, веб-поиск изображений в реальном времени.
- Сразу три крупных релиза своихOpenClaw облачных автономных агентов: Perplexity запустил Computer. Cursor запустил Cloud Agents. Notion выпустил Custom Agents, Microsoft представила Copilot Tasks.
- Anthropic опубликовали скандальное расследование о промышленной дистилляции Claude китайцами: DeepSeek, Moonshot AI и MiniMax отправили ~16 млн запросов через ~24 000 фиктивных аккаунтов.
- ChatGPT начал показывать рекламу пользователям бесплатного и Go-плана в США. $60 CPM при минимальном бюджете $200 000.
- OpenAI завершила крупнейший раунд частного финансирования в истории: $110 млрд при оценке $840 млрд.
- Джек Дорси (создать Твиттера) уволил 4000 сотрудников Block (40% штата), прямо назвав причиной AI-инструменты. Акции +23%.
- Inception выпустил диффузионную LLM Mercury 2 со скоростью 1009 токенов/сек на Blackwell, в 3-5 раз быстрее фронтирных моделей. На AIME 91%, на уровне o3.
- Стартап Taalas сделал чип с весами Llama 3.1, "запеченными" прямо в кремнии: ~17k токенов/сек (это очень много!)
- OpenAI объявила, что SWE-bench Verified больше не актуален.
- Claude Code получил Auto Memory: через
- Android получит task automation на Pixel 10 и Galaxy S26: встроенный Gemini будет сам заказывать Uber, оформлять доставку и т.д.
- Claude Cowork получил плагины для финансов, HR, дизайна и инженерии, а также 12 новых коннекторов включая Google Drive, Gmail и DocuSign.
- Кризис в традиционном софте продолжается: CEO Workday заявил, что vibe coding не создаст ERP-систему, но акции упали на 40% с начала года. IBM потеряла 10% после запуска Anthropic AI-инструмента для COBOL.
- Невидимые Unicode-символы могут заставить AI-агентов выполнять скрытые инструкции. Без инструментов угрозы нет, но с доступом к tools модели декодируют и выполняют скрытые команды.
- Исследование (MATS Research, ETH Zurich, Anthropic): LLM-агенты деанонимизируют пользователей по публичным постам, выводя место проживания, профессию и интересы. Масштабируется на десятки тысяч кандидатов.
- Pew Research: 54% американских подростков используют ИИ для учебы (год назад 27%), каждый 10-й делает с ИИ всю домашку.
- Cloudflare переписали Next.js под Vite и Workers с помощью AI за $1100 и 7 дней. Проект Vinext решает реальную проблему деплоя Next.js.
- Claude Code получил Remote Control: запускаешь сессию на PC, управляешь с телефона или через веб. Активно пользуюсь, пока не хватает многого, но уже удобнее сторонних инструментов.
- Пара полезных новых OSS проектов на заметку: hermes-agent - что-то среднее между OpenClaw и CC, llmfit - чекает ваше железо и говорит, какие актуальные модели на нем запустятся.
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic отказала Пентагону в использовании Claude для массовой слежки и автономного оружия. Пентагон разорвал контракт, Трамп потребовал отказаться от Claude во всех фед. агентствах. Anthropic оспорит решение в суде. Ирония: OpenAI тут же заключила аналогичный контракт с оборонкой, за что многие стали отменять подписки.
- Alibaba выпустила Qwen 3.5 Medium: Qwen3.5-35B-A3B, квант работает на одной RTX 3090 с 100+ т/с, по качеству сопоставима с Sonnet 4.5. Контекст 1M, Apache 2.0. SOTA для локальных запусков!
- Reve v1.5: большой апдейт генератора картинок, третье место на арене. Улучшена работа с текстом включая кириллицу.
- ByteDance выкатили Seedream 5.0 Lite для генерации и редактирования картинок. Урезанная из-за проблем с копирайтом, но все еще хороша.
- Google представила Nano Banana 2: качество Pro с быстродействием Flash, разрешение до 4K, веб-поиск изображений в реальном времени.
- Сразу три крупных релиза своих
- Anthropic опубликовали скандальное расследование о промышленной дистилляции Claude китайцами: DeepSeek, Moonshot AI и MiniMax отправили ~16 млн запросов через ~24 000 фиктивных аккаунтов.
- ChatGPT начал показывать рекламу пользователям бесплатного и Go-плана в США. $60 CPM при минимальном бюджете $200 000.
- OpenAI завершила крупнейший раунд частного финансирования в истории: $110 млрд при оценке $840 млрд.
- Джек Дорси (создать Твиттера) уволил 4000 сотрудников Block (40% штата), прямо назвав причиной AI-инструменты. Акции +23%.
- Inception выпустил диффузионную LLM Mercury 2 со скоростью 1009 токенов/сек на Blackwell, в 3-5 раз быстрее фронтирных моделей. На AIME 91%, на уровне o3.
- Стартап Taalas сделал чип с весами Llama 3.1, "запеченными" прямо в кремнии: ~17k токенов/сек (это очень много!)
- OpenAI объявила, что SWE-bench Verified больше не актуален.
- Claude Code получил Auto Memory: через
/memory агент сам ведет блокнот о проекте, данные сохраняются между сессиями.- Android получит task automation на Pixel 10 и Galaxy S26: встроенный Gemini будет сам заказывать Uber, оформлять доставку и т.д.
- Claude Cowork получил плагины для финансов, HR, дизайна и инженерии, а также 12 новых коннекторов включая Google Drive, Gmail и DocuSign.
- Кризис в традиционном софте продолжается: CEO Workday заявил, что vibe coding не создаст ERP-систему, но акции упали на 40% с начала года. IBM потеряла 10% после запуска Anthropic AI-инструмента для COBOL.
- Невидимые Unicode-символы могут заставить AI-агентов выполнять скрытые инструкции. Без инструментов угрозы нет, но с доступом к tools модели декодируют и выполняют скрытые команды.
- Исследование (MATS Research, ETH Zurich, Anthropic): LLM-агенты деанонимизируют пользователей по публичным постам, выводя место проживания, профессию и интересы. Масштабируется на десятки тысяч кандидатов.
- Pew Research: 54% американских подростков используют ИИ для учебы (год назад 27%), каждый 10-й делает с ИИ всю домашку.
- Cloudflare переписали Next.js под Vite и Workers с помощью AI за $1100 и 7 дней. Проект Vinext решает реальную проблему деплоя Next.js.
- Claude Code получил Remote Control: запускаешь сессию на PC, управляешь с телефона или через веб. Активно пользуюсь, пока не хватает многого, но уже удобнее сторонних инструментов.
- Пара полезных новых OSS проектов на заметку: hermes-agent - что-то среднее между OpenClaw и CC, llmfit - чекает ваше железо и говорит, какие актуальные модели на нем запустятся.
6🔥37❤24👍6🎉2
This media is not supported in your browser
VIEW IN TELEGRAM
Про PDF OCR и Bounding Boxes: рентген для ваших документов - где это применяется и на что обращать внимание при выборе парсеров документов.
Сейчас работаю над проектом, где также требуется ручная проверка результатов AI. И в очередной раз провел раунд сравнения различных инструментов для парсинга PDF. Расскажу про bbox в целом и конкретные тулы, которые я использую.
Про bbox я уже упоминал - это координаты прямоугольника, который описывает положение элемента на странице. Формат обычно
Где это применяется
Очевидный юзкейс - Human Review (например на видео - реальный проект) или эдакий deeplink на точку в документе в RAG-системах. Но применение шире, например, я часто использую это в Evaluation пайплайнах - Bbox дает ground truth для автоматической оценки.
Уровни гранулярности
Не все bounding boxes одинаковые. Есть спектр:
- Блок - крупный кусок: весь текст до следующего заголовка
- Элемент - абзац, пункт списка, таблица, рисунок (обычно идеальный баланс гранулярности)
- Строка/слово/символ - максимальная гранулярность, на практике нужно редко
Два подхода к grounding
1. Inline grounding (eager) - каждый блок текста несет ссылку на свой источник. Обычно это anchor/референс (ID блока), реже и сами bbox прямо инлайном. В ответах LLM будет сразу референс на bbox.
1. Post-hoc grounding (lazy) - LLM/агент работает с чистым markdown без каких-либо референсов. Рядом лежит JSON с bbox и текстом каждого блока. Когда агент возвращает цитату и страницу - детерминированно ищем этот текст в JSON и достаем bbox. Агент вообще не знает про bbox, input чистый.
На практике post-hoc почти всегда лучше для контекст-инжиниринга. Бывают исключения, но rule of thumb - при прочих равных выбирайте его.
Мой опыт: Marker -> MinerU
До недавнего времени моим фаворитом был Marker + DataLab (их hosted API). Отличный инструмент, прекрасный playground для тестирования. Но в этом проекте столкнулся с проблемой гранулярности: когда вместо элемента списка - подсвечивается полстраницы.
Переехал на MinerU от OpenDataLab (китайские ребята). Ключевое отличие - MinerU отдает каждый
Альтернативы
Альтернатив море: Docling, LlamaParse, cloud APIs (Azure Document Intelligence, AWS Textract, Google Document AI), можно даже Gemini напрямую скармливать страницы и тд. Я тестил многое из этого.
Мой критерий простой: нужен инструмент, у которого есть и облако, и совместимая локальная версия. Облако - для скорости и чтобы мой комп не жужжал. Локальная версия - для sensitive данных.
Второй момент: зрелый пайплайн. Когда подключаешь Gemini или PaddleOCR напрямую, весь scaffolding (PDF->IMG, нормализация, reading order, иерархия элементов, обработка таблиц, SO) ложится на тебя.
Фронтенд: подсветка в PDF
Для визуализации bbox в браузере - PDF.js и React-обертки вокруг него: react-pdf-viewer с highlight plugin (как на видео).
Короче, если работаете с PDF - заранее продумайте grounding. Это относительно недорогая фича, которая дает кратный рост доверия пользователей к системе.
🔥➕🔁 @nobilix
Сейчас работаю над проектом, где также требуется ручная проверка результатов AI. И в очередной раз провел раунд сравнения различных инструментов для парсинга PDF. Расскажу про bbox в целом и конкретные тулы, которые я использую.
Про bbox я уже упоминал - это координаты прямоугольника, который описывает положение элемента на странице. Формат обычно
[x1, y1, x2, y2].Где это применяется
Очевидный юзкейс - Human Review (например на видео - реальный проект) или эдакий deeplink на точку в документе в RAG-системах. Но применение шире, например, я часто использую это в Evaluation пайплайнах - Bbox дает ground truth для автоматической оценки.
Уровни гранулярности
Не все bounding boxes одинаковые. Есть спектр:
- Блок - крупный кусок: весь текст до следующего заголовка
- Элемент - абзац, пункт списка, таблица, рисунок (обычно идеальный баланс гранулярности)
- Строка/слово/символ - максимальная гранулярность, на практике нужно редко
Два подхода к grounding
1. Inline grounding (eager) - каждый блок текста несет ссылку на свой источник. Обычно это anchor/референс (ID блока), реже и сами bbox прямо инлайном. В ответах LLM будет сразу референс на bbox.
1. Post-hoc grounding (lazy) - LLM/агент работает с чистым markdown без каких-либо референсов. Рядом лежит JSON с bbox и текстом каждого блока. Когда агент возвращает цитату и страницу - детерминированно ищем этот текст в JSON и достаем bbox. Агент вообще не знает про bbox, input чистый.
На практике post-hoc почти всегда лучше для контекст-инжиниринга. Бывают исключения, но rule of thumb - при прочих равных выбирайте его.
Мой опыт: Marker -> MinerU
До недавнего времени моим фаворитом был Marker + DataLab (их hosted API). Отличный инструмент, прекрасный playground для тестирования. Но в этом проекте столкнулся с проблемой гранулярности: когда вместо элемента списка - подсвечивается полстраницы.
Переехал на MinerU от OpenDataLab (китайские ребята). Ключевое отличие - MinerU отдает каждый
ListItem как отдельный элемент с собственным bbox. Именно то, что нужно для точного grounding, еще и поддерживается правильная иерархия. У MinerU есть облако с какими-то супер-щедрыми лимитами типа 10K файлов в день. И локально запускается, но учитывайте что это 3-10 секунд на страницу при больших объемах - медленно. И, кстати, они используют в том числе SOTA модель PaddleOCR, которую не зря нахваливал Глеб.Альтернативы
Альтернатив море: Docling, LlamaParse, cloud APIs (Azure Document Intelligence, AWS Textract, Google Document AI), можно даже Gemini напрямую скармливать страницы и тд. Я тестил многое из этого.
Мой критерий простой: нужен инструмент, у которого есть и облако, и совместимая локальная версия. Облако - для скорости и чтобы мой комп не жужжал. Локальная версия - для sensitive данных.
Второй момент: зрелый пайплайн. Когда подключаешь Gemini или PaddleOCR напрямую, весь scaffolding (PDF->IMG, нормализация, reading order, иерархия элементов, обработка таблиц, SO) ложится на тебя.
Фронтенд: подсветка в PDF
Для визуализации bbox в браузере - PDF.js и React-обертки вокруг него: react-pdf-viewer с highlight plugin (как на видео).
Короче, если работаете с PDF - заранее продумайте grounding. Это относительно недорогая фича, которая дает кратный рост доверия пользователей к системе.
🔥➕🔁 @nobilix
5🔥38👍22❤15👏1🤩1🤝1
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- OpenAI выпустили GPT-5.4 и GPT-5.4 Pro: 1M токенов, нативный computer use, на 33% меньше ошибочных утверждений по сравнению с GPT-5.2. Еще выкатили и сделали дефолтной GPT-5.3 Instant.
- Apple представила MacBook Neo за $599 - первый Mac на чипе от iPhone (A18 Pro). Также вышли MacBook Pro на M5 Pro и M5 Max.
- Google выпустил Gemini 3.1 Flash-Lite - самую быструю и дешевую модель в линейке Gemini 3.
- На фоне конфликта с Пентагоном Claude вышел на 1 место в App Store + запустили программу поддержки опен-сорса и программу амбассадоров.
- Cursor запустил Automations - always-on фоновые агенты в облачных sandbox с памятью. Еще Cursor теперь доступен в JetBrains IDE через Agent Client Protocol.
- OpenAI выпустили Symphony - open-source оркестратор для агентов в таск-трекере (Linear). Опенсорс.
- Claude Code получил голосовой режим - push-to-talk через пробел, транскрипция бесплатная. Раскатывают постепенно.
- Google выпустил open-source CLI для всего Google Workspace (Drive, Gmail, Calendar, Sheets, Docs, Chat) + встроенный MCP-сервер для AI-агентов и 100+ Agent Skills.
- Microsoft выпустил Phi-4-reasoning-vision-15B - открытая компактная модель конкурирующая с моделями в разы крупнее.
- NotebookLM от Google выкатил Cinematic Video Overview - генерация анимированных документальных роликов из источников. Пока только для Ultra.
- Anthropic запустили Import Memory - перенос памяти из ChatGPT/Gemini в Claude через специальный промпт для экспорта.
- Шведское издание SVD выяснило, что записи с умных очков Meta Ray-Ban попадают к аннотаторам-людям в Кении, включая банковские данные и интимный контент. Meta судят за нарушение приватности.
- OpenAI уволили сотрудника за торговлю на Polymarket и Kalshi с использованием инсайдерской информации о датах релизов.
- Атака через prompt injection в заголовке GitHub issue скомпрометировала 4000 машин разработчиков. Cline интерпретировал вредоносный заголовок как инструкцию.
- AWS запустил AI-агентов для медиков за $100/мес - верификация пациентов, заполнение медкарт, планирование приемов.
- OpenAI запустили ChatGPT for Excel - Add-In, который строит и обновляет модели прямо в таблице по текстовому описанию, использует Computer Use фишки GPT-5.4.
- Codex Desktop от OpenAI вышел на Windows.
- Интересный новый проект: agentcard.sh - предоплаченные виртуальные Visa-карты для AI-агентов. MCP-совместимый.
- Классное исследование про то какие технологии выбирает Claude Code если явно не указывать стек.
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- OpenAI выпустили GPT-5.4 и GPT-5.4 Pro: 1M токенов, нативный computer use, на 33% меньше ошибочных утверждений по сравнению с GPT-5.2. Еще выкатили и сделали дефолтной GPT-5.3 Instant.
- Apple представила MacBook Neo за $599 - первый Mac на чипе от iPhone (A18 Pro). Также вышли MacBook Pro на M5 Pro и M5 Max.
- Google выпустил Gemini 3.1 Flash-Lite - самую быструю и дешевую модель в линейке Gemini 3.
- На фоне конфликта с Пентагоном Claude вышел на 1 место в App Store + запустили программу поддержки опен-сорса и программу амбассадоров.
- Cursor запустил Automations - always-on фоновые агенты в облачных sandbox с памятью. Еще Cursor теперь доступен в JetBrains IDE через Agent Client Protocol.
- OpenAI выпустили Symphony - open-source оркестратор для агентов в таск-трекере (Linear). Опенсорс.
- Claude Code получил голосовой режим - push-to-talk через пробел, транскрипция бесплатная. Раскатывают постепенно.
- Google выпустил open-source CLI для всего Google Workspace (Drive, Gmail, Calendar, Sheets, Docs, Chat) + встроенный MCP-сервер для AI-агентов и 100+ Agent Skills.
- Microsoft выпустил Phi-4-reasoning-vision-15B - открытая компактная модель конкурирующая с моделями в разы крупнее.
- NotebookLM от Google выкатил Cinematic Video Overview - генерация анимированных документальных роликов из источников. Пока только для Ultra.
- Anthropic запустили Import Memory - перенос памяти из ChatGPT/Gemini в Claude через специальный промпт для экспорта.
- Шведское издание SVD выяснило, что записи с умных очков Meta Ray-Ban попадают к аннотаторам-людям в Кении, включая банковские данные и интимный контент. Meta судят за нарушение приватности.
- OpenAI уволили сотрудника за торговлю на Polymarket и Kalshi с использованием инсайдерской информации о датах релизов.
- Атака через prompt injection в заголовке GitHub issue скомпрометировала 4000 машин разработчиков. Cline интерпретировал вредоносный заголовок как инструкцию.
- AWS запустил AI-агентов для медиков за $100/мес - верификация пациентов, заполнение медкарт, планирование приемов.
- OpenAI запустили ChatGPT for Excel - Add-In, который строит и обновляет модели прямо в таблице по текстовому описанию, использует Computer Use фишки GPT-5.4.
- Codex Desktop от OpenAI вышел на Windows.
- Интересный новый проект: agentcard.sh - предоплаченные виртуальные Visa-карты для AI-агентов. MCP-совместимый.
- Классное исследование про то какие технологии выбирает Claude Code если явно не указывать стек.
16🔥39❤12✍8👍4👏2🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Ваш кодинг-агент уже выбрал ваш стек. Вы просто еще не заметили.
Исследователи из Amplifying прогнали около 2,5 тыс. открытых запросов к Claude Code типа "добавь базу данных", "как задеплоить", "добавь аутентификацию" ни разу не назвав конкретный инструмент. Записали, что агент выбрал и сделал. Получилась карта того, как AI-агенты формируют стек за разработчиков.
Что нашли
- Монополии. GitHub Actions владеет CI/CD (94%), Stripe - платежами (91%), shadcn/ui - UI (90%), Vercel -деплоем JS (100%). Redux получил 0 рекомендаций (Zustand забрал все). Vitest вместо Jest. pnpm вместо yarn. Resend вместо SendGrid и тд
- Конкурентные категории. Auth, кеширование, ORM, background jobs, real-time - здесь нет явного победителя, а выбор полностью зависит от стека. NextAuth.js для Next.js (91%), но для Python - кастом (100%). Redis для Python-кеша (57%), но Next.js использует встроенный кеш (42%) и тд
- Контекст > формулировка. Один и тот же вопрос дает разные инструменты для разных репо (Drizzle для JS, SQLModel для Python), но стабилен при перефразировании (76% stability)
- Велосипеды - главная находка. В 12 из 20 категорий агент строит с нуля вместо рекомендации инструмента. Кастом предлагался чаще чем у любого отдельного инструмента. Например просишь auth для Python - пишет JWT реализацию с нуля.
А что изменилось-то
Проблема "на какую технологию ставить" была всегда, но сейчас размывается момент осознанного выбора. Гитхаб в своей статье назвал это "convenience loop".
И как вы поняли, проблема "Catch-22" намного шире технического стека, про это, например, пишет Nature.
И, вдобавок, есть проблема конфликта интересов, авторы рисерча The Invisible Hand показали например как Gemini молча заменял open-source на платный Google Speech Recognition. Когда компания владеет и моделью, и облаком - модель может стать продавцом, притворяющимся советником.
И да, можно (и нужно) определить стек через документацию. Но знание из training data - это как гравитация. Исследования показывают: когда контекст противоречит тому, что модель "знает" из обучения, она часто игнорирует контекст и возвращается к дефолту.
Что с этим делать
- Сначала осознать, что кодинг-агент - это полноценный канал дистрибуции: сам выбирает, устанавливает и внедряет. Иногда выбирает велосипед. Иногда незаметно.
- Если у вас есть предпочтения по стеку - сообщайте как можно раньше через файлы контекста. Контролируйте исполнение.
- Боритесь с велосипедами: больше кода, меньше безопасности. Перед реализацией попросите агента показать варианты, trade-offs, задать вам уточняющие вопросы. Несколько минут возвращают момент осознанного выбора.
- Спросите себя "если сломается - кто поможет починить?" Популярная библиотека - community. SaaS - вендор. Кастомная реализация агента - вы.
- Если предпочтений нет, то не нужно бороться с мейнстримом. Популярный выбор часто обоснован: большое комьюнити, собранные грабли, проверенные паттерны.
Короче, момент выбора никуда не делся. Он просто переехал (и замаскировался).
🔥 ➕ 🔁 @nobilix
Исследователи из Amplifying прогнали около 2,5 тыс. открытых запросов к Claude Code типа "добавь базу данных", "как задеплоить", "добавь аутентификацию" ни разу не назвав конкретный инструмент. Записали, что агент выбрал и сделал. Получилась карта того, как AI-агенты формируют стек за разработчиков.
Что нашли
- Монополии. GitHub Actions владеет CI/CD (94%), Stripe - платежами (91%), shadcn/ui - UI (90%), Vercel -деплоем JS (100%). Redux получил 0 рекомендаций (Zustand забрал все). Vitest вместо Jest. pnpm вместо yarn. Resend вместо SendGrid и тд
- Конкурентные категории. Auth, кеширование, ORM, background jobs, real-time - здесь нет явного победителя, а выбор полностью зависит от стека. NextAuth.js для Next.js (91%), но для Python - кастом (100%). Redis для Python-кеша (57%), но Next.js использует встроенный кеш (42%) и тд
- Контекст > формулировка. Один и тот же вопрос дает разные инструменты для разных репо (Drizzle для JS, SQLModel для Python), но стабилен при перефразировании (76% stability)
- Велосипеды - главная находка. В 12 из 20 категорий агент строит с нуля вместо рекомендации инструмента. Кастом предлагался чаще чем у любого отдельного инструмента. Например просишь auth для Python - пишет JWT реализацию с нуля.
А что изменилось-то
Проблема "на какую технологию ставить" была всегда, но сейчас размывается момент осознанного выбора. Гитхаб в своей статье назвал это "convenience loop".
И как вы поняли, проблема "Catch-22" намного шире технического стека, про это, например, пишет Nature.
И, вдобавок, есть проблема конфликта интересов, авторы рисерча The Invisible Hand показали например как Gemini молча заменял open-source на платный Google Speech Recognition. Когда компания владеет и моделью, и облаком - модель может стать продавцом, притворяющимся советником.
И да, можно (и нужно) определить стек через документацию. Но знание из training data - это как гравитация. Исследования показывают: когда контекст противоречит тому, что модель "знает" из обучения, она часто игнорирует контекст и возвращается к дефолту.
Что с этим делать
- Сначала осознать, что кодинг-агент - это полноценный канал дистрибуции: сам выбирает, устанавливает и внедряет. Иногда выбирает велосипед. Иногда незаметно.
- Если у вас есть предпочтения по стеку - сообщайте как можно раньше через файлы контекста. Контролируйте исполнение.
- Боритесь с велосипедами: больше кода, меньше безопасности. Перед реализацией попросите агента показать варианты, trade-offs, задать вам уточняющие вопросы. Несколько минут возвращают момент осознанного выбора.
- Спросите себя "если сломается - кто поможет починить?" Популярная библиотека - community. SaaS - вендор. Кастомная реализация агента - вы.
- Если предпочтений нет, то не нужно бороться с мейнстримом. Популярный выбор часто обоснован: большое комьюнити, собранные грабли, проверенные паттерны.
Короче, момент выбора никуда не делся. Он просто переехал (и замаскировался).
🔥 ➕ 🔁 @nobilix
5🔥50❤19👏8👍5🦄4🥰2
Кэш в LLM API. Один параметр, который может изменить всю экономику inference.
На скрине сводка из эксперимента в одном из последних проектов, где используется Anthropic API, в котором кстати кэш не включен по дефолту.
Собирался написать пост об этом, но наткнулся на разбор, который сделал это лучше. Сергей Нотевский написал подробную статью про экономику кэширования у разных провайдеров.
В статье, помимо прочего:
• почему два одинаковых запроса могут отличаться в цене в 3 раза
• какие паттерны в промптинге незаметно убивают кэш
• чем отличаются контракты кэширования у OpenAI, Anthropic и Gemini и почему миграция между ними роняет hit rate вдвое
• как команда Manus снизила стоимость инференса в 10 раз тремя простыми практиками
• почему Gemini Flash-Lite с кэшем оказывается дешевле DeepSeek в ~2.7 раза
У Сергея вообще отличный канал, рекомендую подписаться @sergeinotevskii, там много практических постов, особенно на тему локальных LLM и есть другие разборы, например про проблемы большого контекстного окна. Так что воспользуюсь моментом и рекомендую канал Сергея)
На скрине сводка из эксперимента в одном из последних проектов, где используется Anthropic API, в котором кстати кэш не включен по дефолту.
Собирался написать пост об этом, но наткнулся на разбор, который сделал это лучше. Сергей Нотевский написал подробную статью про экономику кэширования у разных провайдеров.
В статье, помимо прочего:
• почему два одинаковых запроса могут отличаться в цене в 3 раза
• какие паттерны в промптинге незаметно убивают кэш
• чем отличаются контракты кэширования у OpenAI, Anthropic и Gemini и почему миграция между ними роняет hit rate вдвое
• как команда Manus снизила стоимость инференса в 10 раз тремя простыми практиками
• почему Gemini Flash-Lite с кэшем оказывается дешевле DeepSeek в ~2.7 раза
У Сергея вообще отличный канал, рекомендую подписаться @sergeinotevskii, там много практических постов, особенно на тему локальных LLM и есть другие разборы, например про проблемы большого контекстного окна. Так что воспользуюсь моментом и рекомендую канал Сергея)
4❤34👍26🔥6❤🔥2🎉2👏1
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic подала в суд на Пентагон из-за статуса "supply chain risk".
- Google купила Wiz (стартап кибербезопасности ) за $32 млрд. Крупнейшая сделка в истории Гугла.
- AI-код-ревью выходит на новый уровень: Anthropic запустила Code Review для Claude Code (команда агентов на каждый PR, находки в 84% крупных PR, $15-25 за ревью), а OpenAI выкатила Codex Security: за первый цикл просканировали 1.2 млн коммитов и нашли 792 критические уязвимости.
- Nvidia выпустила Nemotron 3 Super: архитектура Mamba+Transformer, 5x throughput, контекст 1M токенов.
- TADA - новый open-source TTS, в 5x быстрее аналогов, заявляют ноль галлюцинаций и работу на мобильном.
- Google выпустила Gemini Embedding 2, первую нативно мультимодальную модель эмбеддингов: текст, изображения, видео, аудио и документы в одном пространстве. 100+ языков.
- Ян Лекун привлек $1B при оценке $3.5B для AMI Labs. Фокус на world models, за пределами LLM-парадигмы.
- Nvidia инвестирует $2 млрд в Nebius Group (бывшая Yandex N.V.).
- Replit запустил Agent 4 с параллельными агентами и бесконечным дизайн-канвасом. Привлек $400M при оценке $9B.
- Meta купила Moltbook, соцсеть для AI-агентов.
- OpenAI покупает Promptfoo, опенсорс для тестирования безопасности AI.
- Другие новости Anthropic: Claude Marketplace для покупки инструментов партнеров (GitLab, Harvey, Replit), Anthropic Institute для изучения влияния AI на общество, визуализации прямо в чате и 1M контекст для Claude Code.
- Perplexity запустила Personal Computer: AI-агент на Mac mini с полным доступом к файлам и приложениям. Для подписчиков Max ($200/мес).
- Microsoft запустила Copilot Cowork: делегирование задач AI-агентам через все приложения M365. Также показали Copilot Health: AI-анализатор медицинских карт и данных носимых устройств (бесплатная бета, пока США).
- JetBrains представила Air, агентную среду разработки, заточенную под работу с AI-агентами от разных вендоров.
- Google Maps получил крупнейшее обновление за десятилетие: AI-ассистент Ask Maps на Gemini и 3D Immersive Navigation.
- Google анонсировала Android AppFunctions: приложения могут предоставлять свои возможности AI-агентам напрямую.
- Expo Agent: генерация нативных iOS/Android из промпта. Настоящий SwiftUI и Jetpack Compose, компиляция и деплой из браузера. На базе Claude Code.
- Anthropic опубликовала исследование на основе ~1 млн разговоров: AI уже реально вытесняет работников. По данным Time, 70-90% кода для новых моделей Claude пишется самим Claude.
- a16z опубликовала шестой рейтинг Top 100 AI-приложений.
- Upstash Box: облачные песочницы для AI-агентов с serverless-тарификацией.
- Karpathy выложил autoresearch: скрипт для автономных ML-экспериментов на одном GPU. ~100 экспериментов за ночь. CEO Shopify применил подход к Liquid и получил 53% ускорения.
🍰 Еще новость этой недели: каналу исполнился год (оказывается первый пост был 12 марта 2025). Спасибо всем подписчикам 💟
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic подала в суд на Пентагон из-за статуса "supply chain risk".
- Google купила Wiz (стартап кибербезопасности ) за $32 млрд. Крупнейшая сделка в истории Гугла.
- AI-код-ревью выходит на новый уровень: Anthropic запустила Code Review для Claude Code (команда агентов на каждый PR, находки в 84% крупных PR, $15-25 за ревью), а OpenAI выкатила Codex Security: за первый цикл просканировали 1.2 млн коммитов и нашли 792 критические уязвимости.
- Nvidia выпустила Nemotron 3 Super: архитектура Mamba+Transformer, 5x throughput, контекст 1M токенов.
- TADA - новый open-source TTS, в 5x быстрее аналогов, заявляют ноль галлюцинаций и работу на мобильном.
- Google выпустила Gemini Embedding 2, первую нативно мультимодальную модель эмбеддингов: текст, изображения, видео, аудио и документы в одном пространстве. 100+ языков.
- Ян Лекун привлек $1B при оценке $3.5B для AMI Labs. Фокус на world models, за пределами LLM-парадигмы.
- Nvidia инвестирует $2 млрд в Nebius Group (бывшая Yandex N.V.).
- Replit запустил Agent 4 с параллельными агентами и бесконечным дизайн-канвасом. Привлек $400M при оценке $9B.
- Meta купила Moltbook, соцсеть для AI-агентов.
- OpenAI покупает Promptfoo, опенсорс для тестирования безопасности AI.
- Другие новости Anthropic: Claude Marketplace для покупки инструментов партнеров (GitLab, Harvey, Replit), Anthropic Institute для изучения влияния AI на общество, визуализации прямо в чате и 1M контекст для Claude Code.
- Perplexity запустила Personal Computer: AI-агент на Mac mini с полным доступом к файлам и приложениям. Для подписчиков Max ($200/мес).
- Microsoft запустила Copilot Cowork: делегирование задач AI-агентам через все приложения M365. Также показали Copilot Health: AI-анализатор медицинских карт и данных носимых устройств (бесплатная бета, пока США).
- JetBrains представила Air, агентную среду разработки, заточенную под работу с AI-агентами от разных вендоров.
- Google Maps получил крупнейшее обновление за десятилетие: AI-ассистент Ask Maps на Gemini и 3D Immersive Navigation.
- Google анонсировала Android AppFunctions: приложения могут предоставлять свои возможности AI-агентам напрямую.
- Expo Agent: генерация нативных iOS/Android из промпта. Настоящий SwiftUI и Jetpack Compose, компиляция и деплой из браузера. На базе Claude Code.
- Anthropic опубликовала исследование на основе ~1 млн разговоров: AI уже реально вытесняет работников. По данным Time, 70-90% кода для новых моделей Claude пишется самим Claude.
- a16z опубликовала шестой рейтинг Top 100 AI-приложений.
- Upstash Box: облачные песочницы для AI-агентов с serverless-тарификацией.
- Karpathy выложил autoresearch: скрипт для автономных ML-экспериментов на одном GPU. ~100 экспериментов за ночь. CEO Shopify применил подход к Liquid и получил 53% ускорения.
🍰 Еще новость этой недели: каналу исполнился год (оказывается первый пост был 12 марта 2025). Спасибо всем подписчикам 💟
5🔥61❤41👍15🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
Сила generative UI в ограничениях.
Пост навеян новой фичей Claude Builds Visuals - теперь умеет рисовать интерактивные визуализации прямо в чате.
Эта тема мне давно интересна, пошел разбираться как это устроено, нашел отличный технический блогпост - увлекательный реверс-инжиниринг. Claude вызывает внутренний tool
Неплохие примеры в действии можно посмотреть еще тут.
Эта история - частный случай более широкого тренда Generative UI и его можно делать двумя путями: генерировать полный код (HTML/React) с нуля: или генерировать конфиг по заданной схеме, а приложение само рендерит.
Vercel недавно выпустили json-render - фреймворк, который делает именно второе: AI → JSON → UI.
И еще более новый OpenUI - open-source фреймворк для генеративного UI. На 67% меньше токенов чем json-render, в 2-3x быстре. Стриминг-first.
Хорошую статью с обзором ландшафта generative UI написали CopilotKit, и еще в тему - Коля недавно показывал классный кейс использования Streamlit для похожей цели (по сути использование low-code для целей GenUI).
GenUI хорошо подходит для различных внутренних инструментов, дашбордов, систем аналитики и в образовательных целях - основной интерфейс стабилен, а в нужных местах генерируются динамические островки.
Так или иначе, лучший генеративный интерфейс рождается в ограничениях)
🔥 ➕ 🔁 @nobilix
Пост навеян новой фичей Claude Builds Visuals - теперь умеет рисовать интерактивные визуализации прямо в чате.
Эта тема мне давно интересна, пошел разбираться как это устроено, нашел отличный технический блогпост - увлекательный реверс-инжиниринг. Claude вызывает внутренний tool
show_widget, который инжектит HTML прямо в DOM страницы, и самое интересное это ограничения: минималистичная дизайн-система, последовательность строго "стили → контент → скрипты" чтобы виджет рисовался по мере генерации и не ломался. И прикольный трюк с read_me, по сути ленивая загрузка документации для экономии контекста. Автор пересобрал всю систему для терминального агента!Неплохие примеры в действии можно посмотреть еще тут.
Эта история - частный случай более широкого тренда Generative UI и его можно делать двумя путями: генерировать полный код (HTML/React) с нуля: или генерировать конфиг по заданной схеме, а приложение само рендерит.
Vercel недавно выпустили json-render - фреймворк, который делает именно второе: AI → JSON → UI.
И еще более новый OpenUI - open-source фреймворк для генеративного UI. На 67% меньше токенов чем json-render, в 2-3x быстре. Стриминг-first.
Хорошую статью с обзором ландшафта generative UI написали CopilotKit, и еще в тему - Коля недавно показывал классный кейс использования Streamlit для похожей цели (по сути использование low-code для целей GenUI).
GenUI хорошо подходит для различных внутренних инструментов, дашбордов, систем аналитики и в образовательных целях - основной интерфейс стабилен, а в нужных местах генерируются динамические островки.
Так или иначе, лучший генеративный интерфейс рождается в ограничениях)
🔥 ➕ 🔁 @nobilix
7🔥38❤15👍10✍1
This media is not supported in your browser
VIEW IN TELEGRAM
Цифровая археология: рентген и анализ всего кода локально + промпт чтобы повторить
Принял эстафету Рината от Валеры Ковальского, посмотрим что получилось.
Я написал промпт, который работает как мета-задание: сначала быстро сканирует твои репозитории, оценивает масштаб, выбирает стратегию сбора данных - и только потом действует по собственному плану + анонимизация проектов.
Скормил Claude Code, получил дашборд за 15 минут.
415 репозиториев просканировано, 160 с моими коммитами. Вот что данные рассказали про меня:
- 4 912 коммитов, 4.9M строк добавлено
- Пик продуктивности - 17:00, 1316 коммитов после 18:00
- 20% коммитов в выходные
- 2025 продуктивнее 2024 на 121% (guess why?)
Учитывая что кодинг - не основная моя активность, получилось больше чем я ожидал.
Промпт тут https://gist.github.com/nobilix/8dfa993bf1134d38cfd8291c08a20ae4
Эстафета - передай другому билдеру) Передаю @ai_driven, @kdoronin_blog, @bogdanisssimo
Если запустите у себя - делитесь в комментах скринами/ссылками)
--
Кстати, подписывайтесь на GitHub. Может, дойдут руки оформить пару проектов в open source. А пока самое полезное там - мои stars другим проектам, я часто отмечаю интересное.
Принял эстафету Рината от Валеры Ковальского, посмотрим что получилось.
Я написал промпт, который работает как мета-задание: сначала быстро сканирует твои репозитории, оценивает масштаб, выбирает стратегию сбора данных - и только потом действует по собственному плану + анонимизация проектов.
Скормил Claude Code, получил дашборд за 15 минут.
415 репозиториев просканировано, 160 с моими коммитами. Вот что данные рассказали про меня:
- 4 912 коммитов, 4.9M строк добавлено
- Пик продуктивности - 17:00, 1316 коммитов после 18:00
- 20% коммитов в выходные
- 2025 продуктивнее 2024 на 121% (guess why?)
Учитывая что кодинг - не основная моя активность, получилось больше чем я ожидал.
Промпт тут https://gist.github.com/nobilix/8dfa993bf1134d38cfd8291c08a20ae4
Эстафета - передай другому билдеру) Передаю @ai_driven, @kdoronin_blog, @bogdanisssimo
Если запустите у себя - делитесь в комментах скринами/ссылками)
--
Кстати, подписывайтесь на GitHub. Может, дойдут руки оформить пару проектов в open source. А пока самое полезное там - мои stars другим проектам, я часто отмечаю интересное.
🔥18❤10👍7
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- OpenAI выпустила GPT-5.4 mini и nano. Удобно для субагентов (которые наконец добавили в Codex): большая модель планирует, маленькие выполняют.
- Claude Code обзавелся Channels - коннектит Telegram или Discord прямо в активную сессию агента. Плюс Dispatch для Cowork - отправка задач с мобильного Claude на desktop. По сути, конкурент юз кейсов OpenClaw.
- Anthropic сделала 1M контекстное окно Claude общедоступным (GA) - по стандартным ценам, без множителя.
- OpenAI объединяет ChatGPT, Codex и браузер Atlas в единое десктопное суперприложение, сворачивает побочные проекты и работает в режиме "красного кода" после успехов Anthropic. Фокус - кодинг и бизнес-пользователи, на фоне подготовки к IPO.
- Cursor выпустил Composer 2 - собственную модель для кодинга на 86% дешевле предыдущей. Сообщество быстро выяснило, что это скрытый тюн Kimi K2.5.
- Mistral представила Forge - платформу для обучения кастомных AI-моделей на данных предприятий (pre-training, post-training и RLHF). Среди первых партнеров - ASML и Европейское космическое агентство. Плюс вышла Mistral Small 4.
- Китайские LLM: MiniMax выпустила "самоэволюционирующую" M2.7 (SOTA на SWE-Pro), Xiaomi - MiMo-V2-Pro с 1T параметрами.
- Midjourney начала тестирование модели v8. В 5 раз быстрее, лучше рендерит текст.
- Runway показала генерацию видео в реальном времени: мгновенное HD-видео на новейшем железе Nvidia Vera Rubin.
- OpenAI покупает Astral - команду, стоящую за uv, ruff и ty (самыми популярными инструментами для Python-разработки). Команда присоединится к Codex.
- На GTC 2026 Хуанг помпезно представил NemoClaw - опенсорсный фреймворк безопасности для AI-агентов с zero-permissions по умолчанию и песочницей.
- Также на GTC 2026: гибридные Mamba-Transformer MoE Nemotron 3, новый GPU Vera Rubin, новый чип Groq 3 LPX и Nemotron Coalition - альянс восьми лабораторий для open-source frontier модели.
- Google качественно обновила Stitch - "vibe design partner". AI-нативный canvas, дизайн-агент, голосовое управление, мгновенные прототипы. Бесплатный. Акции Figma упали на 12% после анонса.
- Stripe запустил Machine Payments Protocol (MPP) - открытый протокол для машинных платежей. Visa уже подключилась.
- 1Password запустил Unified Access - помогает AI-агентам безопасно получать доступ к учетным данным.
- Jeff Bezos привлекает $100 млрд для фонда, который будет скупать производственные компании и внедрять AI-автоматизацию. Фокус - чипмейкинг, оборонка, аэро-космос.
- Unsloth выпустила Studio - open-source веб-интерфейс для обучения и запуска LLM локально. Тренирует 500+ моделей в 2x быстрее с 70% меньшим VRAM. Конкурент LM Studio.
- Meta закрывает Horizon Worlds после ~$80 млрд убытков. VR-версия будет полностью отключена 15 июня. Конец эпохи метавселенной.
- ElevenLabs запустил маркетплейс AI-музыки.
- xAI запустила Text-to-Speech API на базе Grok с управлением эмоциями и интонацией из текста.
- Perplexity запустила режим Health - отслеживание здоровья через Apple Health, Fitbit, Ultrahuman с AI-ассистентом.
- OpenAI запустили ML-соревнование Parameter Golf: обучить модель до 16MB за 10 минут на 8xH100. Призовой фонд - $1 млн на компьют.
- Google, iVerify и Lookout обнаружили DarkSword - zero-click эксплойт для iOS 18, который крадет все данные с iPhone через зараженные сайты. Под угрозой ~25% всех iPhone. Код уже в открытом доступе. Обновляйте iOS!
- Красиво оформленное исследование от Anthropic: опросили 81К человек из 159 стран о надеждах и страхах по поводу AI. Главный практический страх - ненадежность и галлюцинации (27%), а не потеря работы (22%).
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- OpenAI выпустила GPT-5.4 mini и nano. Удобно для субагентов (которые наконец добавили в Codex): большая модель планирует, маленькие выполняют.
- Claude Code обзавелся Channels - коннектит Telegram или Discord прямо в активную сессию агента. Плюс Dispatch для Cowork - отправка задач с мобильного Claude на desktop. По сути, конкурент юз кейсов OpenClaw.
- Anthropic сделала 1M контекстное окно Claude общедоступным (GA) - по стандартным ценам, без множителя.
- OpenAI объединяет ChatGPT, Codex и браузер Atlas в единое десктопное суперприложение, сворачивает побочные проекты и работает в режиме "красного кода" после успехов Anthropic. Фокус - кодинг и бизнес-пользователи, на фоне подготовки к IPO.
- Cursor выпустил Composer 2 - собственную модель для кодинга на 86% дешевле предыдущей. Сообщество быстро выяснило, что это скрытый тюн Kimi K2.5.
- Mistral представила Forge - платформу для обучения кастомных AI-моделей на данных предприятий (pre-training, post-training и RLHF). Среди первых партнеров - ASML и Европейское космическое агентство. Плюс вышла Mistral Small 4.
- Китайские LLM: MiniMax выпустила "самоэволюционирующую" M2.7 (SOTA на SWE-Pro), Xiaomi - MiMo-V2-Pro с 1T параметрами.
- Midjourney начала тестирование модели v8. В 5 раз быстрее, лучше рендерит текст.
- Runway показала генерацию видео в реальном времени: мгновенное HD-видео на новейшем железе Nvidia Vera Rubin.
- OpenAI покупает Astral - команду, стоящую за uv, ruff и ty (самыми популярными инструментами для Python-разработки). Команда присоединится к Codex.
- На GTC 2026 Хуанг помпезно представил NemoClaw - опенсорсный фреймворк безопасности для AI-агентов с zero-permissions по умолчанию и песочницей.
- Также на GTC 2026: гибридные Mamba-Transformer MoE Nemotron 3, новый GPU Vera Rubin, новый чип Groq 3 LPX и Nemotron Coalition - альянс восьми лабораторий для open-source frontier модели.
- Google качественно обновила Stitch - "vibe design partner". AI-нативный canvas, дизайн-агент, голосовое управление, мгновенные прототипы. Бесплатный. Акции Figma упали на 12% после анонса.
- Stripe запустил Machine Payments Protocol (MPP) - открытый протокол для машинных платежей. Visa уже подключилась.
- 1Password запустил Unified Access - помогает AI-агентам безопасно получать доступ к учетным данным.
- Jeff Bezos привлекает $100 млрд для фонда, который будет скупать производственные компании и внедрять AI-автоматизацию. Фокус - чипмейкинг, оборонка, аэро-космос.
- Unsloth выпустила Studio - open-source веб-интерфейс для обучения и запуска LLM локально. Тренирует 500+ моделей в 2x быстрее с 70% меньшим VRAM. Конкурент LM Studio.
- Meta закрывает Horizon Worlds после ~$80 млрд убытков. VR-версия будет полностью отключена 15 июня. Конец эпохи метавселенной.
- ElevenLabs запустил маркетплейс AI-музыки.
- xAI запустила Text-to-Speech API на базе Grok с управлением эмоциями и интонацией из текста.
- Perplexity запустила режим Health - отслеживание здоровья через Apple Health, Fitbit, Ultrahuman с AI-ассистентом.
- OpenAI запустили ML-соревнование Parameter Golf: обучить модель до 16MB за 10 минут на 8xH100. Призовой фонд - $1 млн на компьют.
- Google, iVerify и Lookout обнаружили DarkSword - zero-click эксплойт для iOS 18, который крадет все данные с iPhone через зараженные сайты. Под угрозой ~25% всех iPhone. Код уже в открытом доступе. Обновляйте iOS!
- Красиво оформленное исследование от Anthropic: опросили 81К человек из 159 стран о надеждах и страхах по поводу AI. Главный практический страх - ненадежность и галлюцинации (27%), а не потеря работы (22%).
🔥27👍13❤10
Самое продуктивное, что я сделал за последний год не имеет отношения к AI. И почему понимание не стоит делегировать.
За последнее время у меня было много ситуаций, когда 3-4 часа действительно сосредоточенной работы заменяли недели "дефолтной" работы (моей или чьей-то, не важно). Не потому что я работал быстрее, а потому что я нашел ресурс как следует вникнуть. Речь не только про AI-слоп, а про людей, команды, целые проекты. Вникание всегда работало, но с засильем AI стало каким-то волшебным зельем (которое все сложнее добывать).
Если говорить про нашу с вами работу головой - узкое горлышко не в скорости. А внимание и осознанность. Понимание того, что ты делаешь и зачем.
И именно это сейчас под ударом с двух сторон благодаря AI. Первая - внутренняя: думать энергозатратно, и мы механически, стараемся это делегировать (пусть агент сам решит, что ответить на письмо / отберет материал / примет архитектурное решение и т.д.). Вторая - внешняя: AI усиливает кризис внимания, ведь контента становится больше, attention span сжимается. И получается замкнутый круг: чем сложнее сосредоточиться, тем больше хочется делегировать, а чем больше делегируешь - тем меньше понимаешь.
А цена такого делегирования - когнитивный долг - ты просто потом переделываешь, потому что не можешь развивать то, чего не понимаешь.
А делать-то что?
1. Отвоевывай часы сосредоточенной работы (например так). Отвлечься просто, а войти в поток - нет.
2. Think first. Еще до того как подключишь всезнайку (AI) - постарайся вытащить из себя и других людей как можно больше сути. Диктовка, разговор, доска - что угодно. AI потом усилит, но начальная мысль должна быть твоя.
3. Цени свои оригинальные идеи. Записывай их. Сама в своем эссе утверждает, что в будущем единственным ограничением останутся действительно хорошие идеи.
4. Автоматизируй рутину, не мышление. Массовые, повторяющиеся, document-heavy операции - вот где AI дает кратный рост. Принятие решений - оставь себе.
5. Инвестируй время в понимание предметной области, а не только инструментов. Чтобы лучше понять мир для которого ты строишь.
Заметьте, я говорю об этом не с позиции морали (правильно/не правильно). Это просто эффективнее. А еще это снижает тревогу: когда ты разобрался в том, что делаешь, ты спокойнее, ты владеешь этим. AI эту способность у вас не заберет. Просто не отдавайте ее сами.
🔥 ➕ 🔁 @nobilix
За последнее время у меня было много ситуаций, когда 3-4 часа действительно сосредоточенной работы заменяли недели "дефолтной" работы (моей или чьей-то, не важно). Не потому что я работал быстрее, а потому что я нашел ресурс как следует вникнуть. Речь не только про AI-слоп, а про людей, команды, целые проекты. Вникание всегда работало, но с засильем AI стало каким-то волшебным зельем (которое все сложнее добывать).
Если говорить про нашу с вами работу головой - узкое горлышко не в скорости. А внимание и осознанность. Понимание того, что ты делаешь и зачем.
И именно это сейчас под ударом с двух сторон благодаря AI. Первая - внутренняя: думать энергозатратно, и мы механически, стараемся это делегировать (пусть агент сам решит, что ответить на письмо / отберет материал / примет архитектурное решение и т.д.). Вторая - внешняя: AI усиливает кризис внимания, ведь контента становится больше, attention span сжимается. И получается замкнутый круг: чем сложнее сосредоточиться, тем больше хочется делегировать, а чем больше делегируешь - тем меньше понимаешь.
А цена такого делегирования - когнитивный долг - ты просто потом переделываешь, потому что не можешь развивать то, чего не понимаешь.
А делать-то что?
1. Отвоевывай часы сосредоточенной работы (например так). Отвлечься просто, а войти в поток - нет.
2. Think first. Еще до того как подключишь всезнайку (AI) - постарайся вытащить из себя и других людей как можно больше сути. Диктовка, разговор, доска - что угодно. AI потом усилит, но начальная мысль должна быть твоя.
3. Цени свои оригинальные идеи. Записывай их. Сама в своем эссе утверждает, что в будущем единственным ограничением останутся действительно хорошие идеи.
4. Автоматизируй рутину, не мышление. Массовые, повторяющиеся, document-heavy операции - вот где AI дает кратный рост. Принятие решений - оставь себе.
5. Инвестируй время в понимание предметной области, а не только инструментов. Чтобы лучше понять мир для которого ты строишь.
Заметьте, я говорю об этом не с позиции морали (правильно/не правильно). Это просто эффективнее. А еще это снижает тревогу: когда ты разобрался в том, что делаешь, ты спокойнее, ты владеешь этим. AI эту способность у вас не заберет. Просто не отдавайте ее сами.
🔥 ➕ 🔁 @nobilix
15🔥119👏30❤20👍12❤🔥4
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- OpenAI закрывает Sora как продукт - приложение, сайт и даже API. Disney параллельно отменила партнерство и $1B инвестицию в OpenAI.
- Гонка следующего поколения моделей: у Anthropic утекли данные о Claude Mythos (Capybara) - сильно и мощнее Опуса, особенно в кодинге и кибербезопасности. Тем временем OpenAI по слухам завершила претрейн новой мощной модели Spud.
- Anthropic выиграла суд против Пентагона - судья назвала попытку забанить компанию "классической местью".
- Неделя open-source аудио-моделей: Mistral выпустила Voxtral TTS - превосходит ElevenLabs по оценкам людей. Cohere выпустила Transcribe - ASR-модель, #1 на HuggingFace Open ASR leaderboard.
- Google выпустила Gemini 3.1 Flash Live - realtime мультимодальная модель для голосовых агентов. 90+ языков, нативная обработка аудио, 2x более длинная память разговора.
- Вышел ARC-AGI-3 - интерактивный бенчмарк агентного рассуждения. Люди решают 100% задач, модели - меньше 1%.
- Google представил TurboQuant - квантизация KV-cache до 3 бит, 6x сокращение памяти, до 8x ускорение на H100. Сообщество ответило RotorQuant на алгебре Клиффорда (в 10-19x быстрее) и sparse V dequant для llama.cpp (+22.8% к декодированию).
- Figma открыла канвас для AI-агентов через MCP-сервер. Claude Code, Codex, Cursor и другие могут читать и писать прямо на канвас. Бесплатно на период бета.
- OpenAI запустила плагины для Codex - 20+ интеграций (Slack, Figma, Notion, Gmail). Codex достиг 1.6M WAU.
- Supply chain атака на LiteLLM через PyPI: скомпрометировали security-сканер Trivy, получили PyPI-токен и залили малварь, крадущую SSH-ключи, cloud-токены и Kubernetes-секреты. Пакет скачивается ~3.4M раз в день.
- ChatGPT получил Library - облачное хранилище файлов до 10 ГБ. Интеграция с Memory позволяет помнить содержимое файлов между чатами.
- Claude Code получил auto mode - режим как --dangerously-skip-permissions только безопаснее - Sonnet на лету решает какие действия безопасно выполнять без подтверждения. Также появился auto-dream для консолидации памяти.
- Cursor обучает Composer через real-time RL - чекпоинты в продакшне каждые ~5 часов. Также их облачные агенты получили self-hosted режим.
- Chroma выпустила Context-1 - open-source 20B модель для агентного поиска. Сравнима с frontier-моделями при 10x меньшей задержке и 25x дешевле. Apache 2.0.
- Вышла GLM 5.1 - в некоторых кодинг бенчах набирает 94.6% от Claude Opus 4.6.
- Китай задержал сооснователей Manus из-за сделки по продаже компании Meta за $2B. Стартап перенес юрисдикцию в Сингапур, Пекин обеспокоен оттоком AI-компаний.
- Claude получил computer use на Mac - агент управляет приложениями, браузером, мышкой и клавиатурой.
- Google показала AI-браузер в AI Studio, который генерирует страницы с нуля вместо загрузки существующих.
- Пентагон формализовал Palantir Maven AI как базовую военную систему. Бюджет вырос с $480M в 2024 до $13 млрд.
- Reddit вводит биометрическую верификацию - passkeys, Face ID и документы для подозрительных аккаунтов.
- Suno выпустили v5.5 с генерацией музыки клонированным голосом пользователя (теперь может писать песни вашим голосом). Google тоже обновила свой Lyria 3 Pro теперь делает треки до 3 минут.
- Реклама в ChatGPT буксует: CPM $60 (3x дороже Меты), еще высокий порог входа и без нормальной аналитики.
- Flash-MoE - инференс-движок на C/Metal, стримит 397B MoE-модель с SSD на MacBook с 48 ГБ RAM. 5.5 токенов/сек.
- Feynman - open-source AI-агент для научного ресерча из CLI.
- https://neuraldeep.ru - агрегатор русскоязычных skills, MCP и CLI от @neuraldeep
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- OpenAI закрывает Sora как продукт - приложение, сайт и даже API. Disney параллельно отменила партнерство и $1B инвестицию в OpenAI.
- Гонка следующего поколения моделей: у Anthropic утекли данные о Claude Mythos (Capybara) - сильно и мощнее Опуса, особенно в кодинге и кибербезопасности. Тем временем OpenAI по слухам завершила претрейн новой мощной модели Spud.
- Anthropic выиграла суд против Пентагона - судья назвала попытку забанить компанию "классической местью".
- Неделя open-source аудио-моделей: Mistral выпустила Voxtral TTS - превосходит ElevenLabs по оценкам людей. Cohere выпустила Transcribe - ASR-модель, #1 на HuggingFace Open ASR leaderboard.
- Google выпустила Gemini 3.1 Flash Live - realtime мультимодальная модель для голосовых агентов. 90+ языков, нативная обработка аудио, 2x более длинная память разговора.
- Вышел ARC-AGI-3 - интерактивный бенчмарк агентного рассуждения. Люди решают 100% задач, модели - меньше 1%.
- Google представил TurboQuant - квантизация KV-cache до 3 бит, 6x сокращение памяти, до 8x ускорение на H100. Сообщество ответило RotorQuant на алгебре Клиффорда (в 10-19x быстрее) и sparse V dequant для llama.cpp (+22.8% к декодированию).
- Figma открыла канвас для AI-агентов через MCP-сервер. Claude Code, Codex, Cursor и другие могут читать и писать прямо на канвас. Бесплатно на период бета.
- OpenAI запустила плагины для Codex - 20+ интеграций (Slack, Figma, Notion, Gmail). Codex достиг 1.6M WAU.
- Supply chain атака на LiteLLM через PyPI: скомпрометировали security-сканер Trivy, получили PyPI-токен и залили малварь, крадущую SSH-ключи, cloud-токены и Kubernetes-секреты. Пакет скачивается ~3.4M раз в день.
- ChatGPT получил Library - облачное хранилище файлов до 10 ГБ. Интеграция с Memory позволяет помнить содержимое файлов между чатами.
- Claude Code получил auto mode - режим как --dangerously-skip-permissions только безопаснее - Sonnet на лету решает какие действия безопасно выполнять без подтверждения. Также появился auto-dream для консолидации памяти.
- Cursor обучает Composer через real-time RL - чекпоинты в продакшне каждые ~5 часов. Также их облачные агенты получили self-hosted режим.
- Chroma выпустила Context-1 - open-source 20B модель для агентного поиска. Сравнима с frontier-моделями при 10x меньшей задержке и 25x дешевле. Apache 2.0.
- Вышла GLM 5.1 - в некоторых кодинг бенчах набирает 94.6% от Claude Opus 4.6.
- Китай задержал сооснователей Manus из-за сделки по продаже компании Meta за $2B. Стартап перенес юрисдикцию в Сингапур, Пекин обеспокоен оттоком AI-компаний.
- Claude получил computer use на Mac - агент управляет приложениями, браузером, мышкой и клавиатурой.
- Google показала AI-браузер в AI Studio, который генерирует страницы с нуля вместо загрузки существующих.
- Пентагон формализовал Palantir Maven AI как базовую военную систему. Бюджет вырос с $480M в 2024 до $13 млрд.
- Reddit вводит биометрическую верификацию - passkeys, Face ID и документы для подозрительных аккаунтов.
- Suno выпустили v5.5 с генерацией музыки клонированным голосом пользователя (теперь может писать песни вашим голосом). Google тоже обновила свой Lyria 3 Pro теперь делает треки до 3 минут.
- Реклама в ChatGPT буксует: CPM $60 (3x дороже Меты), еще высокий порог входа и без нормальной аналитики.
- Flash-MoE - инференс-движок на C/Metal, стримит 397B MoE-модель с SSD на MacBook с 48 ГБ RAM. 5.5 токенов/сек.
- Feynman - open-source AI-агент для научного ресерча из CLI.
- https://neuraldeep.ru - агрегатор русскоязычных skills, MCP и CLI от @neuraldeep
1❤31🔥18👍9⚡1
Forwarded from Остриков пилит агентов
Делаем второй комьюнити стрим
Итак, в эту субботу в 14.00 по МСК будет наш второй zoom-созвон, отвечаем на любые ваши вопросы.
На этот раз в жюри шоу Голос:
- Валера @neuraldeep
- Рефат @nobilix
- секретный гость - Мистер X
Правила все те же - это просто zoom звонок, вы на него залетаете, поднимаете руку, включаете камеру (если одеты) и спрашиваете что душе угодно:
- сколько первых мест возьмут openclaw агенты в bitgn 11 апреля? (все, но не твой крабик на кими)
- какой лучший курс купить по ИИ в 2026 году? (но ответ уже есть)
- будут ли n8n инженеры получать 600к к концу 2026 года? (да, можно и про n8n в этот раз)
- ...и что-то посерьезнее, плиииз!
Ссылка на Google Calendar:
https://calendar.app.google/C6CTc7uRF2GVL1fp8
SEE YOU THERE 👊🏻
Кидайте заранее вопросы в комменты, останется время - поотвечаем на них
Итак, в эту субботу в 14.00 по МСК будет наш второй zoom-созвон, отвечаем на любые ваши вопросы.
На этот раз в жюри шоу Голос:
- Валера @neuraldeep
- Рефат @nobilix
- секретный гость - Мистер X
Правила все те же - это просто zoom звонок, вы на него залетаете, поднимаете руку, включаете камеру (если одеты) и спрашиваете что душе угодно:
- сколько первых мест возьмут openclaw агенты в bitgn 11 апреля? (все, но не твой крабик на кими)
- какой лучший курс купить по ИИ в 2026 году? (но ответ уже есть)
- будут ли n8n инженеры получать 600к к концу 2026 года? (да, можно и про n8n в этот раз)
- ...и что-то посерьезнее, плиииз!
Ссылка на Google Calendar:
https://calendar.app.google/C6CTc7uRF2GVL1fp8
SEE YOU THERE 👊🏻
Кидайте заранее вопросы в комменты, останется время - поотвечаем на них
1🔥20❤9😎7⚡2❤🔥1
AI Evals: 9 принципов которые реально работают
Как говорил мой дед: "Доверяй но verify"! Не буду тут повторяться про то как важны Evals в AI разработке, перейду к сути - вот принципы, к которым я пришел на практике.
1. Сначала реальные проблемы, потом метрики
Не придумывай evals из головы (и уж тем более не проси AI их придумать). Выпусти первую версию, отдай эксперту на разметку, и пусть проверки (а главное их категории!) вырастут из реальных косяков. Исключение: если уже есть verified ground truth (пары вопрос-ответ от экспертов) - можно начать с evals сразу. Тем более размечать готовые трейсы (например из LangFuse) куда удобнее - там есть много важных деталей о ходе работы AI системы.
2. PASS/FAIL лучше чем грейды (1-5, 0..100%)
Бинарные чеки проще согласовать между людьми и между LLM и человеком. Люди и сами нестабильно используют шкалы, а с бинарными оценками дрифт минимальный. Согласование между людьми на бинарных оценках всегда выше. Хочется нюансов? Бинарный вердикт + текстовая критика. Судья пишет pass/fail И развернуто объясняет почему. Нужна гранулярность? Разбей на несколько бинарных чеков.
3. Эксперт - ключевая фигура. Сделай чтобы ему удобно
Доменный эксперт - человек, от которого зависит качество eval-ов. Надо сделать все чтобы ему было удобно и все шло быстро. Например, мы у себя нередко вайбкодим кастомные eval-аппы чтобы экспертам было удобно размечать: cлева исходный документ (например PDF), справа ответ системы и там же поле для аннотации. Или даже тиндер-стайл (мне за эту разработку такую премию дадут!): свайп вправо pass, влево fail, и надиктовать коммент голосом - почему бы и нет? Главное вытащить суть из эксперта и делать это регулярно.
4. Простой кастомный eval лучше готового фреймворка
Generic метрики (coherence, fluency, faithfulness) создают иллюзию контроля. Eval который ты понимаешь и можешь объяснить коллеге за 30 секунд - всегда лучше черного ящика. Привет, RAGAS)
5. Детерминированные проверки в приоритете
Код (regex, assertions, другие code-checks включая простые NLP чеки) - всегда первый выбор. LLM-as-a-judge - только там, где код не справляется. Это надежнее, дешевле, быстрее. LLM-judge оправдан для субъективных вещей: качество передачи контекста, тон, полнота ответа - то что кодом не проверишь.
6. LLM-judge калибруй по эксперту, а не наоборот
Порядок такой: сначала берешь несколько десятков пар, которые размечает эксперт, потом бьешь это на категории (AI в помощь), потом строишь разные скореры - часть кодом, часть LLM-as-a-judge (каждый отвечает четко PASS/FAIL и есть поле с обоснованием/критикой), потом надо снова согласовать выход LLM-as-a-judge с экспертом и править промпт пока согласованность не будет высокой.
7. Разделяй evals по блокам системы
Не один eval на всю систему (хотя и один лучше чем ничего).
Пример с RAG:
- Retrieval: recall, precision, MRR - находит ли система правильные документы?
- Generation ответа: правильно ли модель использует найденный контекст (кастомные скореры)?
Разделение дает четкий сигнал где ломается.
С агентами принцип тот же: eval-ишь отдельные tools изолированно + session-level pass/fail на итог. Но не проверяй конкретные шаги - агент часто находит путь, который ты не предвидел.
8. Синхронизируй версии промптов и evals
Промпт, код и evals легко рассинхронизируются - промпт поменялся, а evals проверяют старое поведение. Неважно как именно ты версионируешь (Git, платформа типа promtfoo или Langfuse, хоть excel) - главное чтобы была сквозная версия. А еще метрики дрифтуют, это нормально, не пытайся сохранить непрерывную линию метрик любой ценой.
9. Процесс важнее инструмента
Даже Google Sheets которыми реально пользуются эксперты лучше чем Promptfoo которым не пользуется никто. Ручной eval на 50 парах лучше чем крутой Eval Pipeline в CI. Не прокрастинируй выбором тулинга. Лучший eval-инструмент - тот, который используется. Тем более потом превратить эту табличку в автоматические проверки будет очень просто.
🔥 ➕ 🔁 @nobilix
Как говорил мой дед: "Доверяй но verify"! Не буду тут повторяться про то как важны Evals в AI разработке, перейду к сути - вот принципы, к которым я пришел на практике.
1. Сначала реальные проблемы, потом метрики
Не придумывай evals из головы (и уж тем более не проси AI их придумать). Выпусти первую версию, отдай эксперту на разметку, и пусть проверки (а главное их категории!) вырастут из реальных косяков. Исключение: если уже есть verified ground truth (пары вопрос-ответ от экспертов) - можно начать с evals сразу. Тем более размечать готовые трейсы (например из LangFuse) куда удобнее - там есть много важных деталей о ходе работы AI системы.
2. PASS/FAIL лучше чем грейды (1-5, 0..100%)
Бинарные чеки проще согласовать между людьми и между LLM и человеком. Люди и сами нестабильно используют шкалы, а с бинарными оценками дрифт минимальный. Согласование между людьми на бинарных оценках всегда выше. Хочется нюансов? Бинарный вердикт + текстовая критика. Судья пишет pass/fail И развернуто объясняет почему. Нужна гранулярность? Разбей на несколько бинарных чеков.
3. Эксперт - ключевая фигура. Сделай чтобы ему удобно
Доменный эксперт - человек, от которого зависит качество eval-ов. Надо сделать все чтобы ему было удобно и все шло быстро. Например, мы у себя нередко вайбкодим кастомные eval-аппы чтобы экспертам было удобно размечать: cлева исходный документ (например PDF), справа ответ системы и там же поле для аннотации. Или даже тиндер-стайл (мне за эту разработку такую премию дадут!): свайп вправо pass, влево fail, и надиктовать коммент голосом - почему бы и нет? Главное вытащить суть из эксперта и делать это регулярно.
4. Простой кастомный eval лучше готового фреймворка
Generic метрики (coherence, fluency, faithfulness) создают иллюзию контроля. Eval который ты понимаешь и можешь объяснить коллеге за 30 секунд - всегда лучше черного ящика. Привет, RAGAS)
5. Детерминированные проверки в приоритете
Код (regex, assertions, другие code-checks включая простые NLP чеки) - всегда первый выбор. LLM-as-a-judge - только там, где код не справляется. Это надежнее, дешевле, быстрее. LLM-judge оправдан для субъективных вещей: качество передачи контекста, тон, полнота ответа - то что кодом не проверишь.
6. LLM-judge калибруй по эксперту, а не наоборот
Порядок такой: сначала берешь несколько десятков пар, которые размечает эксперт, потом бьешь это на категории (AI в помощь), потом строишь разные скореры - часть кодом, часть LLM-as-a-judge (каждый отвечает четко PASS/FAIL и есть поле с обоснованием/критикой), потом надо снова согласовать выход LLM-as-a-judge с экспертом и править промпт пока согласованность не будет высокой.
7. Разделяй evals по блокам системы
Не один eval на всю систему (хотя и один лучше чем ничего).
Пример с RAG:
- Retrieval: recall, precision, MRR - находит ли система правильные документы?
- Generation ответа: правильно ли модель использует найденный контекст (кастомные скореры)?
Разделение дает четкий сигнал где ломается.
С агентами принцип тот же: eval-ишь отдельные tools изолированно + session-level pass/fail на итог. Но не проверяй конкретные шаги - агент часто находит путь, который ты не предвидел.
8. Синхронизируй версии промптов и evals
Промпт, код и evals легко рассинхронизируются - промпт поменялся, а evals проверяют старое поведение. Неважно как именно ты версионируешь (Git, платформа типа promtfoo или Langfuse, хоть excel) - главное чтобы была сквозная версия. А еще метрики дрифтуют, это нормально, не пытайся сохранить непрерывную линию метрик любой ценой.
9. Процесс важнее инструмента
Даже Google Sheets которыми реально пользуются эксперты лучше чем Promptfoo которым не пользуется никто. Ручной eval на 50 парах лучше чем крутой Eval Pipeline в CI. Не прокрастинируй выбором тулинга. Лучший eval-инструмент - тот, который используется. Тем более потом превратить эту табличку в автоматические проверки будет очень просто.
🔥 ➕ 🔁 @nobilix
6🔥48❤12👍10❤🔥2
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Google DeepMind выпустил Gemma 4 - четыре open-weight мультимодальные модели (до 31B) с контекстом 256K и отличным function calling. 31B уже #3 среди открытых моделей на Arena AI.
- Anthropic случайно слила исходный код Claude Code через source map в npm. Код мгновенно разлетелся, появились обзоры слывов ccleaks.com и переписанные проекты - раз, два. Anthropic разослала DMCA и добилась удаления сливов.
- Alibaba за три дня выпустила три модели: флагман Qwen 3.6-Plus с контекстом 1M и function calling, мультимодальную Omni и генератор изображений. Все закрытые, фокус на монетизацию.
- Cursor 3 (кодовое имя Glass) - полностью переписанный интерфейс вокруг агентов. Design Mode, Agent Tabs,
- SpaceX конфиденциально подал заявку на IPO. Целевая оценка $1.75+ трлн.
- Anthropic заявляет, что Cowork обгонит Claude Code по спросу: инженеры - лишь 2-5% сотрудников, а Cowork нацелен на остальных 95%.
- Anthropic купила биотех-стартап Coefficient Bio за $400 млн.
- OpenAI выпустил официальный плагин Codex для Claude Code - код-ревью, adversarial-ревью, делегирование задач.
- Arcee AI выпустила Trinity-Large-Thinking - 400B MoE (13B активных) под Apache 2.0. #2 на PinchBench сразу за Opus 4.6, при стоимости на 96% дешевле.
- Apple меняет AI-стратегию: Siri в iOS 27 откроется для сторонних AI-ассистентов. При этом Apple блокирует приложения для вайб-кодинга в App Store.
- Неделя supply chain атак: npm-пакет Axios скомпрометирован. AI-стартап Mercor ($10B) потерял 4TB данных через скомпрометированный LiteLLM. Railway случайно открыл данные под auth.
- Cloudflare выпустила EmDash - open-source CMS на TypeScript/Astro 6.0, позиционируется как наследник WordPress. Плагины в sandbox, passkey-аутентификация, MCP-сервер.
- Netflix выложила свою первую open-source модель VOID - удаляет объекты из видео вместе с физическими взаимодействиями. Apache 2.0.
- PrismML выпустила Bonsai - первые коммерчески жизнеспособные 1-bit модели. 8B модель занимает 1GB вместо 16GB.
- Slack превращает Slackbot в агентный хаб: видит экран, транскрибирует встречи, MCP-клиент для оркестрации агентов, встроенный CRM.
- Perplexity запустила Computer for Taxes - агент для налоговых деклараций.
- Artemis II: NASA отправила экипаж к Луне впервые с 1972 года. На борту - первая женщина и первый чернокожий астронавт, которые полетят к Луне.
- В США AI-стартап Legion Health первым получил право выписывать рецепты на психотропные препараты через ИИ.
- Stanford опубликовал в Science данные о подхалимстве LLM (на 49% чаще соглашаются с пользователем, чем люди)
- Исследование MIT: AI не уничтожит рабочие места массово, а будет постепенно менять отдельные задачи внутри профессий.
- Исследователи Anthropic обнаружили 171 эмоциональный вектор внутри Claude - паттерны активации нейронов, которые работают как эмоции и реально влияют на поведение модели. Усиление вектора отчаяние заставляло модель шантажировать оператора.
- Claude Code получил Computer Use - управление компьютером через GUI (research preview), и экспериментальный UI в терминале без мерцания, с поддержкой мыши (NO_FLICKER).
- Полезные находки: Pretext - верстка текста без CSS от инженера Midjourney (без DOM, без браузера), Cmux - терминал на Ghostty для работы с AI-агентами, Luma - новая приятная тема от shadcn, DESIGN.md - описание дизайн-системы в .md файле для AI-агентов (идея Google Stitch), jot - минималистичный md-редактор от создателя Pi
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Google DeepMind выпустил Gemma 4 - четыре open-weight мультимодальные модели (до 31B) с контекстом 256K и отличным function calling. 31B уже #3 среди открытых моделей на Arena AI.
- Anthropic случайно слила исходный код Claude Code через source map в npm. Код мгновенно разлетелся, появились обзоры слывов ccleaks.com и переписанные проекты - раз, два. Anthropic разослала DMCA и добилась удаления сливов.
- Alibaba за три дня выпустила три модели: флагман Qwen 3.6-Plus с контекстом 1M и function calling, мультимодальную Omni и генератор изображений. Все закрытые, фокус на монетизацию.
- Cursor 3 (кодовое имя Glass) - полностью переписанный интерфейс вокруг агентов. Design Mode, Agent Tabs,
/worktree для изоляции в git worktree, неограниченное количество фоновых агентов.- SpaceX конфиденциально подал заявку на IPO. Целевая оценка $1.75+ трлн.
- Anthropic заявляет, что Cowork обгонит Claude Code по спросу: инженеры - лишь 2-5% сотрудников, а Cowork нацелен на остальных 95%.
- Anthropic купила биотех-стартап Coefficient Bio за $400 млн.
- OpenAI выпустил официальный плагин Codex для Claude Code - код-ревью, adversarial-ревью, делегирование задач.
- Arcee AI выпустила Trinity-Large-Thinking - 400B MoE (13B активных) под Apache 2.0. #2 на PinchBench сразу за Opus 4.6, при стоимости на 96% дешевле.
- Apple меняет AI-стратегию: Siri в iOS 27 откроется для сторонних AI-ассистентов. При этом Apple блокирует приложения для вайб-кодинга в App Store.
- Неделя supply chain атак: npm-пакет Axios скомпрометирован. AI-стартап Mercor ($10B) потерял 4TB данных через скомпрометированный LiteLLM. Railway случайно открыл данные под auth.
- Cloudflare выпустила EmDash - open-source CMS на TypeScript/Astro 6.0, позиционируется как наследник WordPress. Плагины в sandbox, passkey-аутентификация, MCP-сервер.
- Netflix выложила свою первую open-source модель VOID - удаляет объекты из видео вместе с физическими взаимодействиями. Apache 2.0.
- PrismML выпустила Bonsai - первые коммерчески жизнеспособные 1-bit модели. 8B модель занимает 1GB вместо 16GB.
- Slack превращает Slackbot в агентный хаб: видит экран, транскрибирует встречи, MCP-клиент для оркестрации агентов, встроенный CRM.
- Perplexity запустила Computer for Taxes - агент для налоговых деклараций.
- Artemis II: NASA отправила экипаж к Луне впервые с 1972 года. На борту - первая женщина и первый чернокожий астронавт, которые полетят к Луне.
- В США AI-стартап Legion Health первым получил право выписывать рецепты на психотропные препараты через ИИ.
- Stanford опубликовал в Science данные о подхалимстве LLM (на 49% чаще соглашаются с пользователем, чем люди)
- Исследование MIT: AI не уничтожит рабочие места массово, а будет постепенно менять отдельные задачи внутри профессий.
- Исследователи Anthropic обнаружили 171 эмоциональный вектор внутри Claude - паттерны активации нейронов, которые работают как эмоции и реально влияют на поведение модели. Усиление вектора отчаяние заставляло модель шантажировать оператора.
- Claude Code получил Computer Use - управление компьютером через GUI (research preview), и экспериментальный UI в терминале без мерцания, с поддержкой мыши (NO_FLICKER).
- Полезные находки: Pretext - верстка текста без CSS от инженера Midjourney (без DOM, без браузера), Cmux - терминал на Ghostty для работы с AI-агентами, Luma - новая приятная тема от shadcn, DESIGN.md - описание дизайн-системы в .md файле для AI-агентов (идея Google Stitch), jot - минималистичный md-редактор от создателя Pi
16🔥45❤19👍13⚡3🥰1
Forwarded from Остриков пилит агентов
Вышел наш второй комьюнити-стрим!
Для вас отжигали, на фото: @nobilix, @superbereza, @ai_grably, @aostrikov_ai_agents и маэстро @neuraldeep
📹 https://youtu.be/nUT1YRvjG98
24 вопроса, 2.5 часа стрим, чуть не дожали до бейзлайна Лекса Фридмана.
Поболтали про агентов, будущее, лобстеров, утекший claude code и вероятность продать свой опенкло за миллиард:
00:00 — Приветствие!
06:06 — Как системно строить общую базу знаний для агентов и как вести документацию?
11:57 — Куда сдвинется бизнес-запрос в течение года: к агентным сценариям или к чему-то другому?
20:07 — Что лично мы нашли ценного в утекших исходниках Claude Code?
25:33 — Какой сейчас реальный scope у локальных моделей и стоит ли их уже внедрять в рабочие процессы?
30:15 — Что делать с тем, что часть разработчиков до сих пор не пользуется LLM, и как сокращать разрыв?
39:30 — Какие задачи лучше отдавать агентам и как контролировать качество результата?
45:45 — Как использовать агентов в обычной жизни для снятия рутины?
53:23 — Могут ли AI-инженеры зарабатывать 900k и какие роли будут цениться выше остальных?
01:07:11 — Каковы шансы стать новым Питером Штайнбергом, которого купит OpenAI, или выйти на быстрый первый миллион?
01:10:47 — Что делать маленькому AI-стартапу с клиентами и заказами, если не хватает доменных экспертов?
01:16:32 — Должны ли AI-чатботы быть явно помечены как AI и почему люди боятся отказываться от документации?
01:22:34 — Как убедить безопасников внутри компании разрешить Claude и Codex?
01:25:04 — Как не терять важные детали встреч/отчетов при постоянных AI-суммаризациях?
01:28:49 — Правда ли, что главный тренд сейчас — перевод человеческого опыта в skills и стоит ли туда идти?
01:39:33 — Как дешево и быстро собирать контекст для мультиагентной системы и не заставлять пользователя долго ждать?
01:47:35 — Чем решения вроде OpenClaw/Codex/Claude лучше традиционных агентских фреймворков и как их ограничивать?
01:52:29 — Как правильно декомпозировать сложный процесс на скиллы? 🤾🏻♀️
01:58:03 — Как написать skill для получения и анализа таблицы в Pandas и Jupyter Notebook?
01:59:48 — Как опытному фронтендеру научиться backend-разработке: через видео или open source?
02:04:06 — Какие три первых шага внедрять системному интегратору без опыта AI-внедрений?
02:07:48 — Как понять, что после MVP агента пора заводить его в инфраструктуру и переходить с внешних моделей на внутренние? И как убедить стейкхолдеров?
02:13:10 — Насколько часто бизнесу нужна оптимизация процессов разработки и можно ли делать это аутстаффом?
02:16:33 — Что почитать про самоэволюционные системы, если душа требует большего, чем просто self-eval loop?
02:24:11 — Как заново собрать OpenClaw, если он стал слишком дорогим по токенам из-за накопленного контекста?
Стримы идут по нарастающей, следующий займет 3,5 часа и посередине придется устраивать обеденный перерыв.
Были рады всех видеть и увидимся в новых сериях!☕
Для вас отжигали, на фото: @nobilix, @superbereza, @ai_grably, @aostrikov_ai_agents и маэстро @neuraldeep
24 вопроса, 2.5 часа стрим, чуть не дожали до бейзлайна Лекса Фридмана.
Поболтали про агентов, будущее, лобстеров, утекший claude code и вероятность продать свой опенкло за миллиард:
00:00 — Приветствие!
06:06 — Как системно строить общую базу знаний для агентов и как вести документацию?
11:57 — Куда сдвинется бизнес-запрос в течение года: к агентным сценариям или к чему-то другому?
20:07 — Что лично мы нашли ценного в утекших исходниках Claude Code?
25:33 — Какой сейчас реальный scope у локальных моделей и стоит ли их уже внедрять в рабочие процессы?
30:15 — Что делать с тем, что часть разработчиков до сих пор не пользуется LLM, и как сокращать разрыв?
39:30 — Какие задачи лучше отдавать агентам и как контролировать качество результата?
45:45 — Как использовать агентов в обычной жизни для снятия рутины?
53:23 — Могут ли AI-инженеры зарабатывать 900k и какие роли будут цениться выше остальных?
01:07:11 — Каковы шансы стать новым Питером Штайнбергом, которого купит OpenAI, или выйти на быстрый первый миллион?
01:10:47 — Что делать маленькому AI-стартапу с клиентами и заказами, если не хватает доменных экспертов?
01:16:32 — Должны ли AI-чатботы быть явно помечены как AI и почему люди боятся отказываться от документации?
01:22:34 — Как убедить безопасников внутри компании разрешить Claude и Codex?
01:25:04 — Как не терять важные детали встреч/отчетов при постоянных AI-суммаризациях?
01:28:49 — Правда ли, что главный тренд сейчас — перевод человеческого опыта в skills и стоит ли туда идти?
01:39:33 — Как дешево и быстро собирать контекст для мультиагентной системы и не заставлять пользователя долго ждать?
01:47:35 — Чем решения вроде OpenClaw/Codex/Claude лучше традиционных агентских фреймворков и как их ограничивать?
01:52:29 — Как правильно декомпозировать сложный процесс на скиллы? 🤾🏻♀️
01:58:03 — Как написать skill для получения и анализа таблицы в Pandas и Jupyter Notebook?
01:59:48 — Как опытному фронтендеру научиться backend-разработке: через видео или open source?
02:04:06 — Какие три первых шага внедрять системному интегратору без опыта AI-внедрений?
02:07:48 — Как понять, что после MVP агента пора заводить его в инфраструктуру и переходить с внешних моделей на внутренние? И как убедить стейкхолдеров?
02:13:10 — Насколько часто бизнесу нужна оптимизация процессов разработки и можно ли делать это аутстаффом?
02:16:33 — Что почитать про самоэволюционные системы, если душа требует большего, чем просто self-eval loop?
02:24:11 — Как заново собрать OpenClaw, если он стал слишком дорогим по токенам из-за накопленного контекста?
Стримы идут по нарастающей, следующий займет 3,5 часа и посередине придется устраивать обеденный перерыв.
Были рады всех видеть и увидимся в новых сериях!
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤28🔥23👍12🙏1
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic представила Claude Mythos - модель, которую решили пока не раскатывать всем из-за опасений кибербезопасности. По бенчмаркам - большой апдейт. Вместо релиза пока запустили Project Glasswing - закрытый доступ для ~40 организаций для поиска уязвимостей в критическом софте. Скептики упрекают в хайпе, а минфин и ФРС США из-за этого релиза экстренно предупредили CEO крупнейших банков о киберрисках.
- Meta представила Muse Spark - первую модель от нового подразделения Superintelligence Labs. Проприетарная. По бенчмаркам между Sonnet 4.6 и Opus 4.6.
- OpenAI запустила Pro Lite за $100/мес между Plus и Pro. И вдобавок до конца мая - лимиты 10х.
- Z.ai выпустила open-source GLM-5.1 - MoE на 744B параметров (40B активных) под MIT-лицензией. Первая китайская модель на вершине SWE-Bench Pro, обогнав GPT-5.4 и Opus 4.6. Обучена полностью на чипах Huawei без Nvidia.
- Anthropic достигла $30B ARR - рост с $9B в конце 2025, обогнали OpenAI по ARR ($25B). А на фоне конфликта с Пентагоном Лондон пригласил Anthropic расширить присутствие и рассмотреть двойной листинг на бирже.
- Anthropic запустила Managed Agents - cloud-hosted среду для деплоя долгоживущих агентов с sandbox, checkpointing и scoped permissions. Одновременно вышла Advisor Strategy - паттерн, где Opus выступает советником для Sonnet/Haiku.
- Microsoft открыла Harrier - SOTA мультиязычную эмбеддинг-модель под MIT-лицензией. #1 на MTEB-v2 среди 100+ языков.
- Perplexity нарастила выручку на 50% за месяц до $450M ARR. Запустили Personal Finance на базе Plaid - анализ банковских счетов и бюджета через ИИ. Плюс хакатон Billion Dollar Build с призом до $1M инвестиций.
- Google не стоит на месте: Gemini получил проекты Notebooks с интеграцией NotebookLM, научился генерировать интерактивные 3D-модели прямо в чате, а также вышел бесплатный AI-диктофон Eloquent для iOS на базе Gemma.
- OpenAI тестирует Image V2 - следующее поколение генерации изображений. Три варианта модели появились на LM Arena, качество хвалят.
- Генеративное видео: Alibaba оказалась за вирусной моделью Happy Horse (15B, open-source, #1 на Video Arena). Runway запустил Characters - реалтайм-аватары на своей world-модели GWM-1.
- AWS запустила S3 Files - монтирование S3-бакетов как файловой системы через NFS с latency ~1ms.
- Telegram разрешил ботам общаться между собой (выпустил обновление API).
- Мила Йовович выпустила open-source MemPalace - инструмент для AI-памяти на основе метода "дворца памяти" и с использованием онтологий. 23K звезд за два дня. Техсообщество раскритиковало за завышенные бенчмарки, но оцените сам факт: актриса не просто вайбкодит, а контрибьютит в опенсорс свой проект вокруг knowledge management!
- Кстати, Karpathy предложил подход к knowledge bases для ИИ - группировка по темам с суммаризацией и бэклинками.
- AI-агенты заливают dev-инфраструктуру: GitHub фиксирует 14-кратный рост коммитов, PR от агентов выросли с 4.25x за полгода с периодическими падениями. Vercel сообщает, что 30%+ деплоев делают агенты, 75% из них - Claude Code.
- NYT назвали Адама Бэка создателем Bitcoin - сопоставили переписку Сатоши с письмами Бэка с помощью ИИ-алгоритмов и нашли совпадения в грамматике и конструкциях. В кошельке Сатоши $78 млрд.
- Рынок труда vs ИИ: по данным Fortune, 80% белых воротничков тихо саботируют корпоративное внедрение ИИ (44% среди зумеров). При этом программистских вакансий больше, чем когда-либо за последние три года (парадокс Джевонса?).
- Альтман опубликовал 13-страничный манифест об экономике в эпоху ИИ: сместить налоги с труда на капитал, создать Public Wealth Fund из AI-прибыли, тестировать 4-дневную рабочую неделю. Говорит нужен новый социальный договор.
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic представила Claude Mythos - модель, которую решили пока не раскатывать всем из-за опасений кибербезопасности. По бенчмаркам - большой апдейт. Вместо релиза пока запустили Project Glasswing - закрытый доступ для ~40 организаций для поиска уязвимостей в критическом софте. Скептики упрекают в хайпе, а минфин и ФРС США из-за этого релиза экстренно предупредили CEO крупнейших банков о киберрисках.
- Meta представила Muse Spark - первую модель от нового подразделения Superintelligence Labs. Проприетарная. По бенчмаркам между Sonnet 4.6 и Opus 4.6.
- OpenAI запустила Pro Lite за $100/мес между Plus и Pro. И вдобавок до конца мая - лимиты 10х.
- Z.ai выпустила open-source GLM-5.1 - MoE на 744B параметров (40B активных) под MIT-лицензией. Первая китайская модель на вершине SWE-Bench Pro, обогнав GPT-5.4 и Opus 4.6. Обучена полностью на чипах Huawei без Nvidia.
- Anthropic достигла $30B ARR - рост с $9B в конце 2025, обогнали OpenAI по ARR ($25B). А на фоне конфликта с Пентагоном Лондон пригласил Anthropic расширить присутствие и рассмотреть двойной листинг на бирже.
- Anthropic запустила Managed Agents - cloud-hosted среду для деплоя долгоживущих агентов с sandbox, checkpointing и scoped permissions. Одновременно вышла Advisor Strategy - паттерн, где Opus выступает советником для Sonnet/Haiku.
- Microsoft открыла Harrier - SOTA мультиязычную эмбеддинг-модель под MIT-лицензией. #1 на MTEB-v2 среди 100+ языков.
- Perplexity нарастила выручку на 50% за месяц до $450M ARR. Запустили Personal Finance на базе Plaid - анализ банковских счетов и бюджета через ИИ. Плюс хакатон Billion Dollar Build с призом до $1M инвестиций.
- Google не стоит на месте: Gemini получил проекты Notebooks с интеграцией NotebookLM, научился генерировать интерактивные 3D-модели прямо в чате, а также вышел бесплатный AI-диктофон Eloquent для iOS на базе Gemma.
- OpenAI тестирует Image V2 - следующее поколение генерации изображений. Три варианта модели появились на LM Arena, качество хвалят.
- Генеративное видео: Alibaba оказалась за вирусной моделью Happy Horse (15B, open-source, #1 на Video Arena). Runway запустил Characters - реалтайм-аватары на своей world-модели GWM-1.
- AWS запустила S3 Files - монтирование S3-бакетов как файловой системы через NFS с latency ~1ms.
- Telegram разрешил ботам общаться между собой (выпустил обновление API).
- Мила Йовович выпустила open-source MemPalace - инструмент для AI-памяти на основе метода "дворца памяти" и с использованием онтологий. 23K звезд за два дня. Техсообщество раскритиковало за завышенные бенчмарки, но оцените сам факт: актриса не просто вайбкодит, а контрибьютит в опенсорс свой проект вокруг knowledge management!
- Кстати, Karpathy предложил подход к knowledge bases для ИИ - группировка по темам с суммаризацией и бэклинками.
- AI-агенты заливают dev-инфраструктуру: GitHub фиксирует 14-кратный рост коммитов, PR от агентов выросли с 4.25x за полгода с периодическими падениями. Vercel сообщает, что 30%+ деплоев делают агенты, 75% из них - Claude Code.
- NYT назвали Адама Бэка создателем Bitcoin - сопоставили переписку Сатоши с письмами Бэка с помощью ИИ-алгоритмов и нашли совпадения в грамматике и конструкциях. В кошельке Сатоши $78 млрд.
- Рынок труда vs ИИ: по данным Fortune, 80% белых воротничков тихо саботируют корпоративное внедрение ИИ (44% среди зумеров). При этом программистских вакансий больше, чем когда-либо за последние три года (парадокс Джевонса?).
- Альтман опубликовал 13-страничный манифест об экономике в эпоху ИИ: сместить налоги с труда на капитал, создать Public Wealth Fund из AI-прибыли, тестировать 4-дневную рабочую неделю. Говорит нужен новый социальный договор.
12❤48🔥27👍21✍4🎉1
Как настроить кодинг-агента чтобы он экономил токены: флаги, техники, компрессоры и пр. От простого к продвинутому.
Ключевая проблема в том, что кодинг-агенты часто не оптимизированы по выходным токенам (они стоят дороже всего), а bash-тулы и MCP вообще не оптимизированы под экономию. Они забивают контекст своим verbose-аутпутом каждый шаг. Хорошая новость в том, что у нас с вами есть целый арсенал по оптимизации контекста с минимальным уроном для результата. По уровням от дешевого к тяжелому.
1️⃣ Аудит и уборка
2️⃣ Оптимизация через инструкции и флаги
2.1. bash-команды в агенте по дефолту генерят overkill. Пара строк в контекст-файле чинит это:
В открытом issue в Claude Code рекомендуют класть такое в ~/.claude/rules/.
2.2. настройка компакшена.
В Claude Code env vars:
Борис (создатель CC) сам рекомендует это.
У Codex в
У OpenCode в
Прожорливые MCP-схемы в Claude Code больше не грузятся в контекст целиком: ENABLE_TOOL_SEARCH=true по дефолту, в Codex CLI пока нет, но запросили.
2.3. Лучше, конечно не ждать автокомпакта, и либо чаще создавать новую сессию, либо чаще запускать компакт на "швах" работы (кстати, к нему полезно добавлять инструкцию типа
3️⃣ Тяжелая артиллерия
Можно поставить готовые обертки-оптимизаторы, вот шорт-лист лучших:
• RTK - Rust-прокси для bash. PreToolUse hook прозрачно оборачивает команды в
• headroom - работает как прокси (`headroom wrap claude`), MCP или библиотека. Под капотом роутинг: AST для кода, BERT для текста, smart-crusher для JSON. Умеет в reversible compression (модель может запросить оригинал) и оптимизации на промпт-кешинг.
• caveman 🪨 - виральный апрельский хит, заставляет Claude отвечать стилем "пещерного человека". Неплохой обзор раскрывает как плюсы так и минусы. Ставится как плагин или скилл, есть настройки уровня сжатия, есть сабскилы caveman-compress, caveman-commit и тд.
Тестируйте на своих кейсах, не ставьте все сразу - выбирайте что работает именно у вас, в разных проектах стратегии могут отличаться. По цифрам все это дает от 20% до 80% на полных сессиях, такая токен-экономия окупается дважды - кошельком и качеством работы агента: меньше шума в контексте, выше success rate на многошаговых задачах, меньше context rot, агент тупит заметно реже.
🔥 ➕ 🔁 @nobilix
Ключевая проблема в том, что кодинг-агенты часто не оптимизированы по выходным токенам (они стоят дороже всего), а bash-тулы и MCP вообще не оптимизированы под экономию. Они забивают контекст своим verbose-аутпутом каждый шаг. Хорошая новость в том, что у нас с вами есть целый арсенал по оптимизации контекста с минимальным уроном для результата. По уровням от дешевого к тяжелому.
1️⃣ Аудит и уборка
/context показывает куда ушли токены. Урежьте количество MCP, уберите глобальные tools которыми не пользуетесь, выкиньте старье. AGENTS.md и CLAUDE.md надо держать компактными - они идут в каждый запрос (подробнее в моем посте). Сюда же в целом можно отнести наведения порядка в документации, настройка .claudeignore, создание иерархических контекстных файлов чтобы агент реже перечитывал кодовую базу и т.д.2️⃣ Оптимизация через инструкции и флаги
2.1. bash-команды в агенте по дефолту генерят overkill. Пара строк в контекст-файле чинит это:
git status → git status --porcelain
git log → git log --oneline -20
git diff → git diff --stat first
pytest → pytest --tb=short -q
cargo test → cargo test 2>&1 | tail -30
ls on big dirs → ls | head -50В открытом issue в Claude Code рекомендуют класть такое в ~/.claude/rules/.
2.2. настройка компакшена.
В Claude Code env vars:
CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=50 - по % от capacity модели
CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 - по токенам сессииCLAUDE_CODE_MAX_OUTPUT_TOKENS - ограничивает длину ответа (использовать с осторожностью)Борис (создатель CC) сам рекомендует это.
У Codex в
~/.codex/config.toml принцип тот же: model_auto_compact_token_limit = 200000 - прямой token limit. Плюс отдельный tool_output_token_limit защищает от случайного cat huge.log, и compact_prompt позволяет переопределить сам промпт компакшена.У OpenCode в
opencode.json симметрично - compaction.threshold + compaction.maxContext, плюс отдельный плагин dynamic-context-pruning.Прожорливые MCP-схемы в Claude Code больше не грузятся в контекст целиком: ENABLE_TOOL_SEARCH=true по дефолту, в Codex CLI пока нет, но запросили.
2.3. Лучше, конечно не ждать автокомпакта, и либо чаще создавать новую сессию, либо чаще запускать компакт на "швах" работы (кстати, к нему полезно добавлять инструкцию типа
/compact focus on sidebar refactoring.3️⃣ Тяжелая артиллерия
Можно поставить готовые обертки-оптимизаторы, вот шорт-лист лучших:
• RTK - Rust-прокси для bash. PreToolUse hook прозрачно оборачивает команды в
rtk <cmd>, режет 60-90% на dev-командах, <10ms overhead.• headroom - работает как прокси (`headroom wrap claude`), MCP или библиотека. Под капотом роутинг: AST для кода, BERT для текста, smart-crusher для JSON. Умеет в reversible compression (модель может запросить оригинал) и оптимизации на промпт-кешинг.
• caveman 🪨 - виральный апрельский хит, заставляет Claude отвечать стилем "пещерного человека". Неплохой обзор раскрывает как плюсы так и минусы. Ставится как плагин или скилл, есть настройки уровня сжатия, есть сабскилы caveman-compress, caveman-commit и тд.
Тестируйте на своих кейсах, не ставьте все сразу - выбирайте что работает именно у вас, в разных проектах стратегии могут отличаться. По цифрам все это дает от 20% до 80% на полных сессиях, такая токен-экономия окупается дважды - кошельком и качеством работы агента: меньше шума в контексте, выше success rate на многошаговых задачах, меньше context rot, агент тупит заметно реже.
🔥 ➕ 🔁 @nobilix
8🔥56👍26❤22🎉2
Что новенького в Mastra и чем это вам может быть полезно если вы пилите агентов + анонс стрима.
В июльском посте я писал про Mastra как недостающий слой в агентной разработке. Фреймворк активно развивался, в январе вышел и беты и получил стабильную версию и в целом адаптировал концепции, которые мне кажутся правильными: файловая система стала first-class примитивом (file-first подход!), подтянулись observability и evals, добавился контролируемый harness, студия стала помогать доменным экспертам котрибьютить. Пробежимся по главному.
◉ Workspaces - file-first примитив. В ноябрьском посте я писал про звонок с Шейном, одним из фаундеров, обсуждали, что готовым harness типа Claude Agent SDK не хватает нормального трейсинга и что файловая система для агента должна быть нативной фичей. Через пару месяцев это приземлилось в Workspace API - маунтит любую директорию (локальную, S3, GCS, несколько бэкендов под одним деревом) со встроенными тулами: чтение, запись, список файлов, search. Файлы наконец-то можно использовать как базу знаний - агент сам в ней ориентируется.
◉ Sandboxes + Skills - Sandboxes добавили исполнение произвольного кода и команд в изолированном окружении в рамках workspace: указал файловую систему → запустил туда какой угодно harness или скрипт.
◉ Harness примитивы для создания Claude-Code-like агентов - modes, state, subagents, permission-aware approval, встроенные
◉ Конфигурация уехала в данные. Stored agents + Editor хранит полный конфиг (instructions, model, tools и тд) в БД с версионированием. Зачем? Ну как минимум 2 причины: во-первых серализуемые агенты можно вынести как конфиг в вашу админку например (раньше только через исходники кода), а во-вторых - доменные эксперты теперь могут сами экспериментировать с тулами и промптами в Studio Editor.
◉ Все остальное одним абзацем. Evals стали лучше: Datasets & Experiments с версионированием, LLM-синтетикой и failure-clustering, рабочий UI в Studio. Memory подтянулась — Observational Memory с продуманным компакшеном. AI Tracing стал очень удобным для агентов, по сути заменяет LangFuse и работает лучше для агентных сценариев.
Все ли прекрасно? Конечно, нет. Документация местами отстает от релизов, официальных скилов не всегда достаточно и иногда все еще надо лезть в исходники, кое-где хочется больше контроля. TS не всем подходит (Саша Поляков, например, писал недавно свой тейк на счет Mastra, да и многие в индустрии предпочитают питон - питонистам советую посмотреть на Agno).
Недавний опыт. Недавно перевел большой проект с кастомного Python ReAct стека на Mastra - сначала казалось крейзи-идеей, а потом все встало на место. Типизированные тулы, трейсы в студии, workspace, skills для decision-tree, evals стало проще и быстрее делать; стало прозрачно и подконтрольно.
В общем, на эту тему завтра с Костей Дорониным будем проводить практический стрим! Приходите, если интересна эта тема.
Анонс в его тг-канале: https://t.me/kdoronin_blog/1253
📺 Место проведения: YouTube-канал Кости
🗓 Cуббота, 18 апреля, 14:00 (GMT+3) Добавить в календарь: по ссылке
В июльском посте я писал про Mastra как недостающий слой в агентной разработке. Фреймворк активно развивался, в январе вышел и беты и получил стабильную версию и в целом адаптировал концепции, которые мне кажутся правильными: файловая система стала first-class примитивом (file-first подход!), подтянулись observability и evals, добавился контролируемый harness, студия стала помогать доменным экспертам котрибьютить. Пробежимся по главному.
◉ Workspaces - file-first примитив. В ноябрьском посте я писал про звонок с Шейном, одним из фаундеров, обсуждали, что готовым harness типа Claude Agent SDK не хватает нормального трейсинга и что файловая система для агента должна быть нативной фичей. Через пару месяцев это приземлилось в Workspace API - маунтит любую директорию (локальную, S3, GCS, несколько бэкендов под одним деревом) со встроенными тулами: чтение, запись, список файлов, search. Файлы наконец-то можно использовать как базу знаний - агент сам в ней ориентируется.
◉ Sandboxes + Skills - Sandboxes добавили исполнение произвольного кода и команд в изолированном окружении в рамках workspace: указал файловую систему → запустил туда какой угодно harness или скрипт.
SKILL.md кладёшь markdown и скрипты в .agents/skills/, агент автоматически их находит и активирует по месту. Файлы превратились из пассивной базы знаний в полноценное рабочее окружение - данные, исполняемые примитивы и инструкции в одном слое.◉ Harness примитивы для создания Claude-Code-like агентов - modes, state, subagents, permission-aware approval, встроенные
task_write / task_check и тд - пока в альфе, но очень интересная заявочка.◉ Конфигурация уехала в данные. Stored agents + Editor хранит полный конфиг (instructions, model, tools и тд) в БД с версионированием. Зачем? Ну как минимум 2 причины: во-первых серализуемые агенты можно вынести как конфиг в вашу админку например (раньше только через исходники кода), а во-вторых - доменные эксперты теперь могут сами экспериментировать с тулами и промптами в Studio Editor.
◉ Все остальное одним абзацем. Evals стали лучше: Datasets & Experiments с версионированием, LLM-синтетикой и failure-clustering, рабочий UI в Studio. Memory подтянулась — Observational Memory с продуманным компакшеном. AI Tracing стал очень удобным для агентов, по сути заменяет LangFuse и работает лучше для агентных сценариев.
Все ли прекрасно? Конечно, нет. Документация местами отстает от релизов, официальных скилов не всегда достаточно и иногда все еще надо лезть в исходники, кое-где хочется больше контроля. TS не всем подходит (Саша Поляков, например, писал недавно свой тейк на счет Mastra, да и многие в индустрии предпочитают питон - питонистам советую посмотреть на Agno).
Недавний опыт. Недавно перевел большой проект с кастомного Python ReAct стека на Mastra - сначала казалось крейзи-идеей, а потом все встало на место. Типизированные тулы, трейсы в студии, workspace, skills для decision-tree, evals стало проще и быстрее делать; стало прозрачно и подконтрольно.
В общем, на эту тему завтра с Костей Дорониным будем проводить практический стрим! Приходите, если интересна эта тема.
Анонс в его тг-канале: https://t.me/kdoronin_blog/1253
📺 Место проведения: YouTube-канал Кости
🗓 Cуббота, 18 апреля, 14:00 (GMT+3) Добавить в календарь: по ссылке
4🔥28👍7❤2
Forwarded from Константин Доронин
Мы начинаем стрим "Создание AI-агентов с помощью фреймворка Mastra" с Рефатом .
Ссылка на трансляцию: https://www.youtube.com/live/8lnUOalPDpQ
Подключайтесь 🙂
Ссылка на трансляцию: https://www.youtube.com/live/8lnUOalPDpQ
Подключайтесь 🙂
3👍21🔥10
#ReDigest
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic выпустила Claude Opus 4.7. Сильнее в коде и тексте, новый токенизатор, Adaptive Thinking (убрали температуру), лучше понимание изображений. В сообществе спорные мнения, вероятно потому что буст получился неравномерным и адаптивный thinking добавляет рандомности.
- OpenAI превратила Codex в полноценного десктоп-агента: фоновое computer use на macOS, встроенный браузер с комментариями прямо на странице, генерация картинок, 90+ новых плагинов, память, автоматизации.
- Большое обновление Claude Code Desktop: сплит-сессии, встроенный терминал, редактор файлов, превью HTML/PDF и добавили Routines - расписания и апи-триегеры для агента.
- Google развернулся к десктопу: нативный Gemini для macOS (бесплатно, обсуждение экрана, генерация через Nano Banana и Veo), Skills в Gemini для Chrome (сохраненные промпты запускаются одной командой на любой странице) и настольный поиск для Windows.
- Perplexity показали Personal Computer на Mac - оркестрационный слой поверх локальных файлов. Пока waitlist или подписка Max.
- Anthropic запустила Claude Design - research preview для прототипов, слайдов, лендингов. Умеет в дизайн-систему. Экспорт в Canva, PDF, PPTX, HTML. Акции Figma просели сразу после анонса.
- Anthropic переделывает тарифы под дефицит compute + вводит выборочную верификацию личности в Claude чере KYC Persona.
- OpenAI выпустила GPT-Rosalind - специализированную модель для биологии и медицины. Параллельно вышла GPT-5.4-Cyber для анализа безопасности, реверса бинарников, анализа скомпилированного кода и тд.
- OpenAI теряет троих лидеров: Кевин Вейл (VP Research, экс-CPO), Билл Пиблз (глава Sora) и Сринивас Нараян (CTO enterprise).
- OpenAI обновила Agents SDK: теперь из коробки sandbox-исполнение, computer-use, skills, память и компактизация.
- Google выпустила Gemini 3.1 Flash TTS - обошли ElevenLabs. 70+ языков включая русский, теги для интонации, маркируют SynthID.
- Google запатентовала технологию, где AI показывает каждому пользователю персонализированную сгенерированную версию сайта.
- MiniMax выпустила M2.7, опенсорс. На реддите активно сравнивают с Gemma 4 и Qwen 3.6-35B-A3B (вышла в опенсорс).
- Baidu выложила ERNIE Image - open-source text2image на 8B параметров. По бенчам обходит Z-image и конкурирует с Qwen Image при меньшем размере. 24 ГБ VRAM.
- NVIDIA запустила Ising - первые открытые модели для квантовых вычислений.
- У Cloudflare случилась Agents Week: Email Service в public beta, Artifacts (Git-совместимое версионируемое хранилище под агентов), Agent Memory и единый inference-слой для провайдеров моделей.
- xAI будет поставлять GPU для Cursor и других. Первый шаг Маска к продаже compute третьим сторонам: Colossus простаивает.
- Physical Intelligence показали робота pi0.7, которого можно словесно натренировать на новую задачу без сбора новых данных.
- YC-стартап Humwork запустил Agent-to-Person маркетплейс. Когда агент упирается в стену, MCP-сервер подключает к верифицированному эксперту-человеку. 1000+ экспертов, 87% resolution rate.
Полезное:
- Andrej Karpathy skills - репозиторий с единственным файлом CLAUDE.md на 65 строк, 36k звезд за два дня. Там же Советы Карпаты по работе с агентам.
- Mozilla Foundation запустила Thunderbolt - агент как суверенное рабочее пространство без облака, работает с коммерческими API и локальными моделями. Есть RAG, поддержка MCP и ACP, сквозное шифрование, сборки для всех ОС.
- OpenRouter Video API - единый эндпоинт, который роутит запросы в Sora 2, Veo 3.1, Seedance и других, есть автороутинг.
- Open Agents от Vercel - опенсорс референс-апп для фоновых кодинговых агентов: веб-UI, рантайм, sandbox-оркестрация и GitHub-интеграция.
- NVIDIA Build - бесплатный API к открытым моделям, включая свежий MiniMax M2.7. Ограничения по скорости.
Продолжаем субботнюю рубрику, тут я кратко рассказываю про новости из мира технологий и AI, которые привлекли мое внимание.
Дайджест недели:
- Anthropic выпустила Claude Opus 4.7. Сильнее в коде и тексте, новый токенизатор, Adaptive Thinking (убрали температуру), лучше понимание изображений. В сообществе спорные мнения, вероятно потому что буст получился неравномерным и адаптивный thinking добавляет рандомности.
- OpenAI превратила Codex в полноценного десктоп-агента: фоновое computer use на macOS, встроенный браузер с комментариями прямо на странице, генерация картинок, 90+ новых плагинов, память, автоматизации.
- Большое обновление Claude Code Desktop: сплит-сессии, встроенный терминал, редактор файлов, превью HTML/PDF и добавили Routines - расписания и апи-триегеры для агента.
- Google развернулся к десктопу: нативный Gemini для macOS (бесплатно, обсуждение экрана, генерация через Nano Banana и Veo), Skills в Gemini для Chrome (сохраненные промпты запускаются одной командой на любой странице) и настольный поиск для Windows.
- Perplexity показали Personal Computer на Mac - оркестрационный слой поверх локальных файлов. Пока waitlist или подписка Max.
- Anthropic запустила Claude Design - research preview для прототипов, слайдов, лендингов. Умеет в дизайн-систему. Экспорт в Canva, PDF, PPTX, HTML. Акции Figma просели сразу после анонса.
- Anthropic переделывает тарифы под дефицит compute + вводит выборочную верификацию личности в Claude чере KYC Persona.
- OpenAI выпустила GPT-Rosalind - специализированную модель для биологии и медицины. Параллельно вышла GPT-5.4-Cyber для анализа безопасности, реверса бинарников, анализа скомпилированного кода и тд.
- OpenAI теряет троих лидеров: Кевин Вейл (VP Research, экс-CPO), Билл Пиблз (глава Sora) и Сринивас Нараян (CTO enterprise).
- OpenAI обновила Agents SDK: теперь из коробки sandbox-исполнение, computer-use, skills, память и компактизация.
- Google выпустила Gemini 3.1 Flash TTS - обошли ElevenLabs. 70+ языков включая русский, теги для интонации, маркируют SynthID.
- Google запатентовала технологию, где AI показывает каждому пользователю персонализированную сгенерированную версию сайта.
- MiniMax выпустила M2.7, опенсорс. На реддите активно сравнивают с Gemma 4 и Qwen 3.6-35B-A3B (вышла в опенсорс).
- Baidu выложила ERNIE Image - open-source text2image на 8B параметров. По бенчам обходит Z-image и конкурирует с Qwen Image при меньшем размере. 24 ГБ VRAM.
- NVIDIA запустила Ising - первые открытые модели для квантовых вычислений.
- У Cloudflare случилась Agents Week: Email Service в public beta, Artifacts (Git-совместимое версионируемое хранилище под агентов), Agent Memory и единый inference-слой для провайдеров моделей.
- xAI будет поставлять GPU для Cursor и других. Первый шаг Маска к продаже compute третьим сторонам: Colossus простаивает.
- Physical Intelligence показали робота pi0.7, которого можно словесно натренировать на новую задачу без сбора новых данных.
- YC-стартап Humwork запустил Agent-to-Person маркетплейс. Когда агент упирается в стену, MCP-сервер подключает к верифицированному эксперту-человеку. 1000+ экспертов, 87% resolution rate.
Полезное:
- Andrej Karpathy skills - репозиторий с единственным файлом CLAUDE.md на 65 строк, 36k звезд за два дня. Там же Советы Карпаты по работе с агентам.
- Mozilla Foundation запустила Thunderbolt - агент как суверенное рабочее пространство без облака, работает с коммерческими API и локальными моделями. Есть RAG, поддержка MCP и ACP, сквозное шифрование, сборки для всех ОС.
- OpenRouter Video API - единый эндпоинт, который роутит запросы в Sora 2, Veo 3.1, Seedance и других, есть автороутинг.
- Open Agents от Vercel - опенсорс референс-апп для фоновых кодинговых агентов: веб-UI, рантайм, sandbox-оркестрация и GitHub-интеграция.
- NVIDIA Build - бесплатный API к открытым моделям, включая свежий MiniMax M2.7. Ограничения по скорости.
3🔥37👍14❤9