Технозаметки Малышева

Forwarded from RoboFuture

Вчера выступал на DataFest с докладом «Что такое harness и Ralph Loop» - за 23 минуты рассказал, что это за новый тип агентов, как они устроены и какие с ними можно делать прикольные вещи. Запись уже на YouTube

Важный дисклеймер про сам термин

Слово harness🐴 пока не устоялось. Формально им можно назвать любого AI-агента, само слово переводится как "упряжка" для LLM (то есть любая обвязка вокруг модели, которая помогает ей выполнять работу)

Но по факту в индустрии последние полгода харнесом всё чаще называют именно консольных универсальных агентов (и продукты на их основе), которые работают с файлами и bash - Claude Code, Codex CLI, Cursor, OpenClaw, Hermes и десятки других. У таких агентов всегда есть четыре базовых тула (read/search/edit/bash), а вводные инструкции даются через AGENTS.md

В докладе

Рассказываю о том, что такое harness, какие виды харнесов бывают, как мы выбирали opensource для Сбера и почему в процессе выбора нам пришлось создать свой OSS бенчмарк для их быстрой оценки. В процессе создания мы пришли к тому, что запустили процесс эволюционного улучшения агента по мотивам AutoResearch Карпатого. Во второй части доклада рассказываю о том, что такое Ralph Loop - харнес внутри бесконечного цикла. Какие задачи этот агент может решать, как долго может работать, пока не схлопнется, и как можно решать эту проблему с помощью моих экспериментов с Anima

- 1:32 - эволюция агентов: чистые LLM -> ReAct -> цепочки -> scaffolding -> harness -> каким будет следующий шаг?
- 5:45 - анатомия современного harness'а: 4 базовых тула, runtime loop, управление контекстом, режимы human-in-the-loop vs human-on-the-loop
- 11:07 - как мы в Сбере выбирали harness под GigaChat и почему остановились на DeepAgent от LangChain
- 15:29 - свой open-source бенчмарк для harness'ов + автоулучшение через autoagents "по Карпатому" - оставил эволюцию на выходные и получил +22,5 процентных пункта качества
- 18:52 - Ralph Loop: засовываем harness в bash-цикл, чтобы он мог работать днями над одной задачей
- 21:04 - backpressure и Meta-Loop как защита от схлапывания
- 22:11 - Anima SDK как средство борьбы со схлапыванием - что получилось, когда я запустил агента в Meta-Loop'е с задачей "стань разумным существом" и оставил на 5 дней (писал недавно в канале)

Основные проекты из доклада:
- презентация в PDF
- deepagents
- deepagents-gigachat
- наш бенчмарк для харнесов
- Anima SDK - набор скриптов для запуска харнесов в режиме meta-loop

YouTube

Harness и Ralph Loop: тип AI-агентов, который вытесняет всё остальное

Harness — новый класс AI-агентов, который работает с файлами, кодом и bash. Claude Code, Codex CLI, OpenClaw, DeepAgents — это всё harness. В этом докладе разбираем, как они устроены изнутри, чем отличаются от ReAct и scaffolding, и почему именно они сегодня…

1🔥21👍9✍4❤4⚡2

1.74K views15:55