Pavel Zloi

Методы сжатия контекста агентов

Сегодня хочу затронуть тему разных хитростей которые я применяю при разработке агентов, данные приёмы позволяют экономить токены за счёт уменьшения количества токенов в контекстном окне, это имеет несколько побочных эффектов: модель работает быстрее (меньше токенов -> выше скорость генерации), модель работает точнее (максимальный контекст обычно в два раза больше чем эффективный).

Английский язык

Один из самых простых способов оптимизации контекста подразумевает режим работы при котором в истории чата будут храниться сообщения на английском языке, так как большинство моделей и токенизаторов оптимизированы прежде всего на работу с текстами на английском языке и как следствие модели требуется меньше токенов для хранения сопоставимого объёма информации.

Хотя на самом деле язык может быть не только английский, может быть китайский (если говорим про Qwen, DeepSeek и т.д.) или русский (GigaChat, Vikhr, ruAdapt и так далее), в общем следует использовать в модели тот язык который доминировал в корпусе на котором производилось обучение токенизатора.

При использовании такого подхода придётся писать промты на оптимальном языке или подключать механизмы автоматического перевода, будь то апишки или какие-нибудь локальные модели.

Фильтрация тулов

Самый простой метод оптимизации контекста это фильтрация тулов доступных function call модели в момент получения запроса пользователя, принцип работы этого метода очень простой, у нас есть некая функция или метод который принимает на вход список доступных тулов и их описания, а так же пользовательский запрос.

Внутри при помощи регулярных выражений, алгоритма bm25/tfidf или эмбеддинговых моделей (или всего и сразу, плюс скажем реранкер) мы определяем какие тулы наиболее релевантны запросу пользователя, после чего возвращаем только их и уже этот список отправляется на вход модели.

Данный метод полезен когда тулов очень много, например 100+ или скажем много тулов которые выполняют похожие задачи, но немного отличаются друг от друга.

Долгосрочная память

Пожалуй моя самая любимая тема, решать вопросы с долгосрочной памятью можно по разному, например через специализированный сабагент памяти или при помощи тестов, ещё можно просить агента скидывать полезные сведения на диск в виде Markdown файлов и так далее.

Предполагается, что данные из долгосрочной памяти читаются только тогда когда нужно и что после попадания в память информация будет удаляться из контекста (при условии, что она более ненужна).

Данный метод очень полезен в агентах как общего назначения (условная чат-болталка с тулами) так и специализированного назначения (навроде кодинговых или финансовых и так далее агентов).

Суммаризация

Предполагает выполнение сжатия контекста при достижении определённых пороговых значений по токенам, подобный механизм реализован в Cursor, когда контекстное окно у модели уже вот-вот закончится происходит небольшая пауза, модель суммаризирует данные, заменяет старый контекст новым саммари и продолжает далее уже с учётом оного.

Работает это следующим образом: некий метод или функция принимает messages, считает токены, далее определяет, что количество токенов преодолело некие пороговые значения, если да то после этого она берёт несколько сообщений с конца, допустим все до N-5 от последнего сообщения юзера, сохраняет их, а все остальные отправляет в модель с просьбой выполнить суммаризацию (в промте могут быть разные уточнения как её делать и на что обратить внимание, но суть остаётся прежней). В результате получаем некий ответ с подробным саммари, который мы кладём в начало нового массива messages с ролью assistant, а далее те N-5 сообщений которые мы сохранили. Полученный массив уходит далее.

Полезно при разработке кодинговых и файловых агентов, так как описания алгоритмов и последовательностей действий хорошо поддаются сжатию без значительной потери качества.

Послесловие

Вот такая вот подборочка получилась, все перечисленные приёмы я использовал и надеюсь какие-то из указанных методов пригодятся и вам.

А какие методы сжатия контекста используете вы?

2🔥25👍14❤3

2.1K viewsedited 10:42