Уже не так часто слышу тейк "мои задачи слишком сложные для ИИ". Количество скептиков ИИ с сентября по январь уменьшилось, по ощущениям, на процентов 95.
Для оставшихся решателей "слишком сложных задач" есть возможность заработать - люди готовы платить за проекты в имплементации которых современные агенты косячат
Завтра вечером будет пост не связанный с ИИ !!! Я почти дописал... Будет обсуждение уже рабочей нишевой гениальной технологии
Для оставшихся решателей "слишком сложных задач" есть возможность заработать - люди готовы платить за проекты в имплементации которых современные агенты косячат
Завтра вечером будет пост не связанный с ИИ !!! Я почти дописал... Будет обсуждение уже рабочей нишевой гениальной технологии
> читаем постик в данном тгк о важности минимизации контекста
> заходим в пустой клодкод
> занят уже 21килотокен контекста
???
Предлагаю пообщаться про этот налог - что за такой текст отправляется ещё до нашего первого промпта?
1. System prompt — должностная инструкция, объясняет кем ллмка является и глобально что вообще происходит. https://github.com/asgeirtj/system_prompts_leaks/blob/main/Anthropic%2Fclaude-code.md)
2. System tools: 17.4kt (8.7%) — самый жирный кусок. Описания ~18 инструментов: bash, grep, read, write, edit, web search и др. По каждому название, параметры, ограничения, примеры использования. 17 килотокенов чтобы модель знала чем она умеет пользоваться. И это только встроенные)) Объяснения как использовать ваши МСР сервера загрузятся в эту часть (как ИМЕННО и как подробно зависит от агента. уже есть оптимизации которые помогают не вставлять полную спецификацию сюда)
3. Memory — правила, соглашения, стек проекта. (CLAUDE.md, AGENTS.md ... *.md) Плюс MEMORY.md — что модель "выучила" в прошлых сессиях. Плюс git state. При старте сессии Claude Code загружает шесть слоёв, вообщем целая инфраструктура для того чтобы вести ллм в контекст конкретного проекта.
4. Skills. Тут при нулевом количестве налог не большой.
5. Autocompact buffer: 33k (16.5%). Зарезервировано под сжатие контекста когда окно начнёт заполняться. То есть платим за какую-то будущую операцию которая вообще скорее всего и не произойдёт. Терпим.
Вместе это называется harness — обвязка вокруг модели. И вот что забавно: эта обвязка влияет на результат больше чем сама модель)
Claude Opus 4.5 набирает 42% на CORE-Bench с одной обвязкой и 78% с другой. Sonnet 4: 33% vs 47%. Поменяли только обвязку своего агента — плюс 13.7 пунктов на бенчмарке!
У разработчиков этих обвязок тоже есть тренды. Паттерн один: все выкидывают лишнее из контекста)
Vercel убрал 80% инструментов у своего агента. Шаги: 100 → 19. Латенси: 724 → 141 сек. И агент начал выполнять задачи которые раньше проваливал. Не быстрее — вообще начал.
Cursor столкнулся с тем что MCP серверы тащат десятки тулов с длинными описаниями, большинство не используются. Решение: агент видит только названия, полные описания подтягиваются когда нужны. Минус 47% токенов.
Manus переписывал фреймворк пять раз. Каждый раз — выкидывал. Их цитата: "самые большие улучшения приходили от удаления, не добавления".
Но опять же есть контринтуитивный пример — TodoWrite у Claude Code. Инструмент-пустышка, no-op, ВООБЩЕ ничего не делает. Но заставляет агента записать план — и на длинных задачах это якорь от context rot. Казалась бы, пытаемся сохранить каждый токен и сделать каждый инструмент максимально многофункциональным... но вот бывают ситуации когда абсолютно фейковый инструмент оказался полезнее настоящих)
Всё не просто, коллеги, как же всё не просто.
Ссылка на статью "Agent harness is the real product" https://x.com/i/status/2028116431876116660"
И вот интересная статья
"CLI is all you need" https://x.com/i/status/2021364017147818434
о том, что заполнение контекста MCP серверами становится проблемой — проще написать CLI и дать ллм им пользоваться. Она от 11 февраля и уже не совсем актуальна, но описанная тенденция сохраняется. Лаконичное оформление задачи и забота о контексте это важно и не тривиально
> заходим в пустой клодкод
> занят уже 21килотокен контекста
???
Предлагаю пообщаться про этот налог - что за такой текст отправляется ещё до нашего первого промпта?
1. System prompt — должностная инструкция, объясняет кем ллмка является и глобально что вообще происходит. https://github.com/asgeirtj/system_prompts_leaks/blob/main/Anthropic%2Fclaude-code.md)
2. System tools: 17.4kt (8.7%) — самый жирный кусок. Описания ~18 инструментов: bash, grep, read, write, edit, web search и др. По каждому название, параметры, ограничения, примеры использования. 17 килотокенов чтобы модель знала чем она умеет пользоваться. И это только встроенные)) Объяснения как использовать ваши МСР сервера загрузятся в эту часть (как ИМЕННО и как подробно зависит от агента. уже есть оптимизации которые помогают не вставлять полную спецификацию сюда)
3. Memory — правила, соглашения, стек проекта. (CLAUDE.md, AGENTS.md ... *.md) Плюс MEMORY.md — что модель "выучила" в прошлых сессиях. Плюс git state. При старте сессии Claude Code загружает шесть слоёв, вообщем целая инфраструктура для того чтобы вести ллм в контекст конкретного проекта.
4. Skills. Тут при нулевом количестве налог не большой.
5. Autocompact buffer: 33k (16.5%). Зарезервировано под сжатие контекста когда окно начнёт заполняться. То есть платим за какую-то будущую операцию которая вообще скорее всего и не произойдёт. Терпим.
Вместе это называется harness — обвязка вокруг модели. И вот что забавно: эта обвязка влияет на результат больше чем сама модель)
Claude Opus 4.5 набирает 42% на CORE-Bench с одной обвязкой и 78% с другой. Sonnet 4: 33% vs 47%. Поменяли только обвязку своего агента — плюс 13.7 пунктов на бенчмарке!
У разработчиков этих обвязок тоже есть тренды. Паттерн один: все выкидывают лишнее из контекста)
Vercel убрал 80% инструментов у своего агента. Шаги: 100 → 19. Латенси: 724 → 141 сек. И агент начал выполнять задачи которые раньше проваливал. Не быстрее — вообще начал.
Cursor столкнулся с тем что MCP серверы тащат десятки тулов с длинными описаниями, большинство не используются. Решение: агент видит только названия, полные описания подтягиваются когда нужны. Минус 47% токенов.
Manus переписывал фреймворк пять раз. Каждый раз — выкидывал. Их цитата: "самые большие улучшения приходили от удаления, не добавления".
Но опять же есть контринтуитивный пример — TodoWrite у Claude Code. Инструмент-пустышка, no-op, ВООБЩЕ ничего не делает. Но заставляет агента записать план — и на длинных задачах это якорь от context rot. Казалась бы, пытаемся сохранить каждый токен и сделать каждый инструмент максимально многофункциональным... но вот бывают ситуации когда абсолютно фейковый инструмент оказался полезнее настоящих)
Всё не просто, коллеги, как же всё не просто.
Ссылка на статью "Agent harness is the real product" https://x.com/i/status/2028116431876116660"
И вот интересная статья
"CLI is all you need" https://x.com/i/status/2021364017147818434
о том, что заполнение контекста MCP серверами становится проблемой — проще написать CLI и дать ллм им пользоваться. Она от 11 февраля и уже не совсем актуальна, но описанная тенденция сохраняется. Лаконичное оформление задачи и забота о контексте это важно и не тривиально
🔥1🥰1
Дон Кнут — автор "The Art of Computer Programming" (TAoCP), создатель TeX, лауреат Тьюринга — опубликовал заметку “Claude’s Cycles”.
Летом 2025 он вместе с Filip Stappers работал над старой открытой задачей по ориентированным графам для нового тома TAoCP.
У этой линии задач история как минимум с 1982 года, то есть уже больше 40 лет.
Проблема на тот момент была такая: для нескольких частных значений параметров и отдельных классов графов решения уже существовали. То есть “локально” задача продвигалась, но универсальной конструкции, которая закрывает общий случай, всё ещё не было.
На этом этапе они подключили Claude и дали конкретную цель: найти конструкцию, которую можно довести до общего результата для нечётного случая.
Дальше пошли серии попыток. Это был не один промпт “solve please make no mistakes”, а обычная исследовательская работа:
- разные стратегии на нескольких прогонах
- сужение пространства решений
- фиксация инвариантов и промежуточных результатов
По опубликованным материалам, удалось получить общий результат для нечётных случаев (чётные остались открыты). И Кнут отдельно отметил, что его поразил прогресс автоматического дедуктивного и творческого решения задач.
Мораль тут такая: инженеры из Claude Code/Codex для своих задач тщательно работают над окружением, контекстом и итеративным процессом агента.
Так же и мы, простолюдины, можем улучшить качество решения задач, работая над созданием итеративного процесса, сохранением прогресса и вот этого всего для решения сложных задачек!
Летом 2025 он вместе с Filip Stappers работал над старой открытой задачей по ориентированным графам для нового тома TAoCP.
У этой линии задач история как минимум с 1982 года, то есть уже больше 40 лет.
Проблема на тот момент была такая: для нескольких частных значений параметров и отдельных классов графов решения уже существовали. То есть “локально” задача продвигалась, но универсальной конструкции, которая закрывает общий случай, всё ещё не было.
На этом этапе они подключили Claude и дали конкретную цель: найти конструкцию, которую можно довести до общего результата для нечётного случая.
Дальше пошли серии попыток. Это был не один промпт “solve please make no mistakes”, а обычная исследовательская работа:
- разные стратегии на нескольких прогонах
- сужение пространства решений
- фиксация инвариантов и промежуточных результатов
По опубликованным материалам, удалось получить общий результат для нечётных случаев (чётные остались открыты). И Кнут отдельно отметил, что его поразил прогресс автоматического дедуктивного и творческого решения задач.
Мораль тут такая: инженеры из Claude Code/Codex для своих задач тщательно работают над окружением, контекстом и итеративным процессом агента.
Так же и мы, простолюдины, можем улучшить качество решения задач, работая над созданием итеративного процесса, сохранением прогресса и вот этого всего для решения сложных задачек!
1🔥2
Коллеги а если все разрабы перейдут на разработку с помощью агентов то что мешает РАБотодателям ставить какой-то софт внутрь агентов (за которых они платят) для подробного просмотра чем именно сотрудник занимается целый день?)) как-то агрегировать логи активности, промпты итд☺️
Клод сделай пожалуйста на основе данных за последний месяц дэшборд оценки ЭФФЕКТИВНОСТИ сотрудников и помоги "оптимизировать косты во благо сохранения средств компании"☺️
Клод сделай пожалуйста на основе данных за последний месяц дэшборд оценки ЭФФЕКТИВНОСТИ сотрудников и помоги "оптимизировать косты во благо сохранения средств компании"☺️
Уважаемые коллеги. Долгожданный (вероятно только мною) пост про HTMX.
https://vladtrc.github.io/contextrot/2026/03/htmx-no-frontend/
https://vladtrc.github.io/contextrot/2026/03/htmx-no-frontend/
1🔥2👀2
Совсем небольшой протип: вам не нужны MCP сервера для задач которые требуют обычный CLI. Точно так же как агент умеет работать с git/ls/... он справится и с любым другим CLI. В частности вы можете просить клод написать план и зафорвардить его в codex. И наоборот просить codex запустить клод для каких-то задачек ревью или хз чем вы там занимаетесь
Насчёт постов у меня идей ещё много но чтобы не сгореть я решил их публиковать только 3 раза в неделю - пн, ср, пт
Со следующей недели! На этой чиллим. Всем самого лучшего продуктивного дня коллеги☺️🫡
Насчёт постов у меня идей ещё много но чтобы не сгореть я решил их публиковать только 3 раза в неделю - пн, ср, пт
Со следующей недели! На этой чиллим. Всем самого лучшего продуктивного дня коллеги☺️🫡
🔥3