контекст rot
171 subscribers
269 photos
15 videos
43 links
пропаганда htmx + daisyui
Download Telegram
context rot

модель начинает "плыть" в середине длинного разговора, путает детали, теряет нить — хотя всё нужное чисто технически есть в чате. это context rot. "полезность" ответов деградирует на каждом шаге увеличения контекста — не только вблизи лимита. модель с окном в 1M токенов страдает уже на 50k.

это ещё и дорого!!
Gemini берёт $1.25/M токенов при коротком контексте и уже $2.50/M при длинном. Больше токенов = дороже и ХУЖЕ одновременно. Скам!

что это означает для нас вайбкодеров:

> изменились условия — редактируем сообщение выше, не дописываем новое
> тема сменилась — начинаем новый чат
> смотрим на процент оставшегося контекста в cc/codex
> хотим выполнить какую-то параллельную задачку - пишем в другого агента, не засоряем контекст текущего (кстати в СС появилась интересная фича - теперь прямо в середине общения с соннетом можно попросить запустить его опус)
> SKILLs MCPs и проч не бесплатные

*в следующих постах: RAG, RLM, subagent architectures — как с этим борются (или пытаются бороться)*
2🕊1
Пишешь на C и знаешь железо — гигачед. Делаешь REST API — КРУДошлёп. Пишешь на JS — красишь кнопочку.
Embedded ближе к физике, это факт. Здравый смысл подсказывает что такие задачки и сложнее и серьёзнее. А что если сложность — это не только свойство задач, но и следствие того, сколько людей работало над тем, чтобы эти задачи стали проще?

Открываем любую биржу фриланса. Считаем заказы "сделать сайт / приложение / бота" и заказы "написать драйвер / прошивку ". Соотношение будет не 10:1, а, скорее, 1000:1. Делаем лэндинг "НАПИСАНИЕ ДРАЙВЕРОВ ПОД КЛЮЧ!" и инвестируем к рекламу, пытаемся "закрыть" хоть одного клиента...
Я не к тому что прошивки никому не нужны — а к тому что бизнес, которому нужен сайт, — это кофейня, стоматология, инфобизнесмен, стартап на пре-сиде и еще десятки если не сотни других кейсов. По сути любой человек с идеей и картой.
А бизнес, которому нужна прошивка/драйвера/etc — это компания которая шлёпает железяки с сертификацией и контрактным производством. То есть они очень нужны но мало кому.

Маленький рынок → мало инвестиций → мало людей → плохой тулинг → сложная разработка.
Большой рынок → сотни тысяч разработчиков → из них сотни пишут тулинг → десятки доводят до ума → единицы делают продукт мировой известности.
В 2005 году деплой — ручная настройка Apache, SSH, iptables. Сейчас vercel deploy.

Задача не стала проще. Порог стал ниже!

Vercel, React, Next.js не появились потому что веб — простая область. Они появились потому что за веб *платят*.

Если бы индустрии нужно было столько же embedded-разработчиков, на YouTube было бы не "топ 10 хуков React", а "топ 10 обработчиков аппаратных прерываний". Embedded-форумы на полтора землекопа были бы похожи на Stack Overflow. 800 страничные PDF даташиты превратились в интерактивные гайды со смешными обзорами на ютюбe.

Пока писал этот постик нашел в сообществе embedded интересные примеры такого же снобизма)
Статья "Beware of learning embedded systems with Arduino"
>"настоящий embedded" — это когда сидишь с даташитом и девбордой
> Ардуино учит платформу, не контроллер
> начинать с неё — "big NO-NO"
Но на конференции Embedded Systems Conference 2015: "Arduino for Rapid Prototyping; It's Not Just a Toy".
То есть само существование такой сессии доказывает, что восприятие Arduino как игрушки достаточно распространено, чтобы с ним приходилось бороться. И это было 10 лет назад) Такая же история с Raspberry Pi, кому интересно погуглите или поверьте на слово.

Когда кто-то говорит, что [ОБЛАСТЬ ЗАДАЧ] — не настоящая разработка, он редко учитывает, что сами люди из [ОБЛАСТЬ ЗАДАЧ] сделали себе жизнь проще. Экономика формирует порог. Культура конвертирует порог в престиж — "настоящая работа" всегда воспринимается ближе к физическому миру, а любое снижение порога входа воспринимается как "несерьезные игрушечки".
🥰1
Пока обсуждают изъезженный на западе вдоль и поперек блэкпил, продают курсы для луксмакса за 100 долларов, находятся смелые люди которые видят в сложившейся ситуации целевую аудиторию и ВОЗМОЖНОСТИ - тот самый голубой океан! Одинокие платежеспособные ребятки жаждут женского внимания и на помощь им пришли платные подписки на ИИ))

Candy AI запустились в конце 2023, к концу 2025 вышли на $25M ARR. И это не самый большой игрок. Chai AI имеет $30M ARR на 12 человек, $2.5M на сотрудника. Это в 12 раз эффективнее среднего SaaS. И это из тех компаний которые всё таки решили "легализоваться".

Кабанчики арендуют ГПУ на время из датацентров. Запускают abliterated модели. Обходят комиссию Google/Apple находясь в вебе. И приносят прибыль!

Abliteration — техника, которая убирает механизм отказа из любой open-source модели без дообучения. На Hugging Face уже тысячи таких моделей. Есть инструмент Heretic, который делает это полностью автоматически - запускаешь одну команду и получаешь расцензуренную модель, которая сохраняет интеллект оригинала.
Вообщем, порог входа для среднего айтишника: пару вечеров с клодом и десятки долларов.

Легально ли это? Как с этим бороться? Будут ли вообще с этим бороться? Столько вопросов... А пока мы их задаём регуляторам и ждём ответа - смелые и смышлённые набирают себе квартиры на Петроградке.

P.S. Канал не призывает к действиям и не поощряет заработок в серых зонах законодательства.
🐳1
Был на конференции в прошлом году. Чел рассказывал: у нас вот LOW CODE платформа для тестирования гипотез. Соединяешь два прямоугольника в веб-интерфейсе — вуаля, процесс передачи данных. Из Кафки в постгрес, из монги в Кафку! До меня микрофон не дошёл, но первое что хотел спросить — а чем это отличается от Apache NiFi?

Моё мнение: текст — лучшее хранилище для алгоритмов, в зависимости от задач нужны различные синтаксисы. Никакие визуальные решения меня не убеждали. Хотя бы один вопрос: а чо с version control? Текст версионируется, диффается, ревьюится. Визуальные блоки — нет. Окей окей обходы есть))) тот же NiFi умеет подключаться к гиту. Но возникает вопрос: зачем редактировать блоки визуально, чтобы потом сгенерировать код? Может наоборот — писать код и смотреть визуализацию?))

Визуальный drag-and-drop no-code в упадке. Вендоры отказываются. Платформы которые вчера продавали "соедини два блока", сегодня прикручивают AI-генерацию и переименовываются.

Что интереснее — no-code умер, а его мечта сбылась. Идея "не технический человек создаёт софт" никуда не делась, но вместо появления очень интеллектуальных соединений прямоугольников в вебе — промпты пишут на естественном языке. Текст победил дважды: и как способ хранить алгоритмы, и как способ их создавать!
Каждую неделю — новая модель которая "побеждает Claude/GPT по бенчмаркам".

А что за бенчмарки? Два самых значимых сейчас — SWE-bench Verified и Humanity's Last Exam. Первый проверяет может ли модель починить реальный баг в реальном репозитории на гитхабе. Второй — 3000 сложных вопросов от экспертов из десятков дисциплин. Результаты которые показывают авторы моделей, впечатляют. Проблема в том, что числам всё сложнее доверять.

Модели обучаются на данных из интернета (бенчмарки тоже в интернете!!). Производительность моделей на задачах Codeforces резко падает после даты окончания обучения — до этой даты они просто помнят ответы. Сами авторы моделей выбирают на каких бенчмарках хвастаться))) Не прошёл GPQA? Покажем MMLU. Не прошёл MMLU? Зато на arena hard мы в топ 3! Это всё лаконично называют benchmaxxx

А теперь о тех вещах, которые вообще не бенчмаркают:
> Скорость инференса.
> Time to first token.
> Может ли модель грамотно использовать инструменты — вызывать функции, ходить в файловую систему, работать с браузером?
> Какие инструменты ей вообще доступны в среде?
> Насколько стабильны результаты от запуска к запуску?

Если выйдет модель которая получит 100% на SWEbv но она:
> Заставляет ждать первого токена по минуте
> Выдаёт меньше 20tps
> Ошибается при вызове команд (привет Gemini)

Практически будет не полезна! Очень много вещей одновременно делают опыт взаимодействия с агентом продуктивным.

Claude Code, Cursor, Codex — не просто модели. Это оркестрация десятков вызовов, контекст-менеджмент, интеграция с IDE, гит, файловой системой итд

В intelligence передовые open-source модели отстают от SOTA может на пару месяцев. В usefulness — на годы. По той простой причине что usefulness это сложная экосистема которая окружает модель и позволяет ей выполнять полезную работу.
🕊1
This media is not supported in your browser
VIEW IN TELEGRAM
всем самого лучшего продуктивного дня!
🥰2
Пишут, мол, AI разработка очень нагружает голову. Нужно больше спать, отдыхать и не убиваться в создание параллельно пяти проектов чтобы не поехать кукухой.

Читаем между строк - хотят поменьше конкуренции)) А мы с Пути не сойдём. Продолжаем работу. Быть добру!
Уже не так часто слышу тейк "мои задачи слишком сложные для ИИ". Количество скептиков ИИ с сентября по январь уменьшилось, по ощущениям, на процентов 95.
Для оставшихся решателей "слишком сложных задач" есть возможность заработать - люди готовы платить за проекты в имплементации которых современные агенты косячат


Завтра вечером будет пост не связанный с ИИ !!! Я почти дописал... Будет обсуждение уже рабочей нишевой гениальной технологии
> читаем постик в данном тгк о важности минимизации контекста
> заходим в пустой клодкод
> занят уже 21килотокен контекста
???

Предлагаю пообщаться про этот налог - что за такой текст отправляется ещё до нашего первого промпта?

1. System prompt — должностная инструкция, объясняет кем ллмка является и глобально что вообще происходит. https://github.com/asgeirtj/system_prompts_leaks/blob/main/Anthropic%2Fclaude-code.md)

2. System tools: 17.4kt (8.7%) — самый жирный кусок. Описания ~18 инструментов: bash, grep, read, write, edit, web search и др. По каждому название, параметры, ограничения, примеры использования. 17 килотокенов чтобы модель знала чем она умеет пользоваться. И это только встроенные)) Объяснения как использовать ваши МСР сервера загрузятся в эту часть (как ИМЕННО и как подробно зависит от агента. уже есть оптимизации которые помогают не вставлять полную спецификацию сюда)

3. Memory — правила, соглашения, стек проекта. (CLAUDE.md, AGENTS.md ... *.md) Плюс MEMORY.md — что модель "выучила" в прошлых сессиях. Плюс git state. При старте сессии Claude Code загружает шесть слоёв, вообщем целая инфраструктура для того чтобы вести ллм в контекст конкретного проекта.

4. Skills. Тут при нулевом количестве налог не большой.

5. Autocompact buffer: 33k (16.5%). Зарезервировано под сжатие контекста когда окно начнёт заполняться. То есть платим за какую-то будущую операцию которая вообще скорее всего и не произойдёт. Терпим.

Вместе это называется harness — обвязка вокруг модели. И вот что забавно: эта обвязка влияет на результат больше чем сама модель)
Claude Opus 4.5 набирает 42% на CORE-Bench с одной обвязкой и 78% с другой. Sonnet 4: 33% vs 47%. Поменяли только обвязку своего агента — плюс 13.7 пунктов на бенчмарке!

У разработчиков этих обвязок тоже есть тренды. Паттерн один: все выкидывают лишнее из контекста)
Vercel убрал 80% инструментов у своего агента. Шаги: 100 → 19. Латенси: 724 → 141 сек. И агент начал выполнять задачи которые раньше проваливал. Не быстрее — вообще начал.
Cursor столкнулся с тем что MCP серверы тащат десятки тулов с длинными описаниями, большинство не используются. Решение: агент видит только названия, полные описания подтягиваются когда нужны. Минус 47% токенов.
Manus переписывал фреймворк пять раз. Каждый раз — выкидывал. Их цитата: "самые большие улучшения приходили от удаления, не добавления".

Но опять же есть контринтуитивный пример — TodoWrite у Claude Code. Инструмент-пустышка, no-op, ВООБЩЕ ничего не делает. Но заставляет агента записать план — и на длинных задачах это якорь от context rot. Казалась бы, пытаемся сохранить каждый токен и сделать каждый инструмент максимально многофункциональным... но вот бывают ситуации когда абсолютно фейковый инструмент оказался полезнее настоящих)
Всё не просто, коллеги, как же всё не просто.

Ссылка на статью "Agent harness is the real product" https://x.com/i/status/2028116431876116660"


И вот интересная статья
"CLI is all you need" https://x.com/i/status/2021364017147818434
о том, что заполнение контекста MCP серверами становится проблемой — проще написать CLI и дать ллм им пользоваться. Она от 11 февраля и уже не совсем актуальна, но описанная тенденция сохраняется. Лаконичное оформление задачи и забота о контексте это важно и не тривиально
🔥1🥰1
Anthropic дают бесплатный доступ к Claude для разработчиков опенсорсных проектов🫡

Интересно а разрабы DeepSeek/Moonshot/Qwen/.. могут на это претендовать или нет)
Дон Кнут — автор "The Art of Computer Programming" (TAoCP), создатель TeX, лауреат Тьюринга — опубликовал заметку “Claude’s Cycles”.

Летом 2025 он вместе с Filip Stappers работал над старой открытой задачей по ориентированным графам для нового тома TAoCP.
У этой линии задач история как минимум с 1982 года, то есть уже больше 40 лет.

Проблема на тот момент была такая: для нескольких частных значений параметров и отдельных классов графов решения уже существовали. То есть “локально” задача продвигалась, но универсальной конструкции, которая закрывает общий случай, всё ещё не было.

На этом этапе они подключили Claude и дали конкретную цель: найти конструкцию, которую можно довести до общего результата для нечётного случая.

Дальше пошли серии попыток. Это был не один промпт “solve please make no mistakes”, а обычная исследовательская работа:

- разные стратегии на нескольких прогонах
- сужение пространства решений
- фиксация инвариантов и промежуточных результатов

По опубликованным материалам, удалось получить общий результат для нечётных случаев (чётные остались открыты). И Кнут отдельно отметил, что его поразил прогресс автоматического дедуктивного и творческого решения задач.

Мораль тут такая: инженеры из Claude Code/Codex для своих задач тщательно работают над окружением, контекстом и итеративным процессом агента.
Так же и мы, простолюдины, можем улучшить качество решения задач, работая над созданием итеративного процесса, сохранением прогресса и вот этого всего для решения сложных задачек!
1🔥2