gonzo-обзоры ML статей

🔥4👍3

2.65K views10:13

Агенты переписывают свой харнесс. Анализ полных логов лучше выхолощенного реворда.

Meta-Harness: End-to-End Optimization of Model Harnesses
Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn
Статья: https://arxiv.org/abs/2603.28052
Код: https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact
Страница проекта: https://yoonholee.com/meta-harness/
Ревью: https://arxiviq.substack.com/p/meta-harness-end-to-end-optimization

# TL;DR

ЧТО сделали: Авторы представили Meta-Harness — агентную outer-loop систему, которая автономно ищет и переписывает исполняемую инфраструктуру (обвязку или «harness») вокруг языковой модели. Предоставляя агенту-кодеру неограниченный доступ к файловой системе с сырыми логами предыдущих попыток, система итеративно программирует кастомную логику поиска, управления памятью и сборки промптов.

ПОЧЕМУ это важно: Ручное создание программных обвязок вокруг фундаментальных моделей стало главным бутылочным горлышком. Meta-Harness доказывает, что если дать агенту возможность искать причинно-следственные связи и дебажить свою же несжатую историю выполнения, получаются сложные stateful-стратегии. Они значительно превосходят лучшие (SOTA) написанные человеком оркестрации в задачах классификации, сложного кодинга и математических задачах на рассуждение уровня IMO.

Для практиков: Для тех, кто собирает compound AI системы, эта статья знаменует стратегический сдвиг: от оптимизации промптов к автоматизированному проектированию архитектуры. Вместо того чтобы полагаться на текстовые саммари с потерей информации или обновление весов модели, Meta-Harness показывает: прямой доступ к сырым логам позволяет передовым агентам-кодерам автономно писать, дебажить и оптимизировать сложные Python-обвязки. Сгенерированные таким образом инфраструктуры дают огромный прирост производительности. Будущее системной инженерии — за мета-оптимизацией.

Эволюционировать свою обвязку здесь: https://t.me/gonzo_ML_podcasts/3061

arXiv.org

Meta-Harness: End-to-End Optimization of Model Harnesses

The performance of large language model (LLM) systems depends not only on model weights, but also on their harness: the code that determines what information to store, retrieve, and present to the...

👍13🤯11😁2🔥1🤔1🥱1

3.58K views17:17