LLM под капотом
17.9K subscribers
262 photos
5 videos
10 files
499 links
Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.
Download Telegram
SGR Benchmark моделей - OpenAI OSS модели хороши

Раньше я этот бенчмарк называл LLM Reasoning бенчмарк. Но по факту, тут у всех моделей работает Schema Guided Reasoning (SGR). В каждой задаче есть своя схема рассуждений, которая проводит модель по ключевым точкам и подводит к ответу. Если у модели есть Structured Outputs (SO), то следование схеме размышлений гарантировано, а если нет, то модель может и слететь с "рельсов". Когда такое происходит, ответ вылетает с ошибкой (см колонку Err).

Чем мощнее модель, тем лучше она может справиться с задачей следования схеме без constrained decoding.

На данный момент, именно так и обстоит ситуация с новыми моделями от OpenAI - GPT OSS 120B и 20B. Пока ни один из провайдеров (даже Fireworks) не поддерживает constrained decoding из-за новой архитектуры.

20B заняла 18е место, что стало лучшим результатом для модели такого размера. А вот 120B при использовании SGR попала сразу на 3 место, что просто невероятно 🥳

Говорят, что локальную модель 120B можно запускать со скоростью 1000 tokens/second на H100/B200 и 10-50 tokens/sec на Mac M4. А 5090 вывозит 20B со скоростью 250 tokens/second.

Спасибо OpenAI за классный подарок!

Ваш, @llm_under_hood 🤗
🔥6122👍14🤔5
Бенчмарк GPT-5 моделей - первое место, и интересное про OSS модели

Базовая GPT-5 модель от OpenAI сразу попала на первое место. По сравнению с предыдушими моделями, у нее улучшились когнитивные способности и работа со сложным BI кодом. Просто работа с инженерными задачами и так уже 100% на моем бенчмарке. Опять надо усложнять.

gpt-5-mini работает примерно на уровне gpt-oss-120b, причем показатели сильно совпадают. Она заняла четвертое место.

gpt-5-nano заняла 15 место. Она на ~5% пунктов лучше, чем gpt-oss-20b.

Update: запустил gpt-oss-20b в режиме SO и цифры красиво совпали и тут.

У меня есть теория (из-за схожести показателей), что mini и nano - это какие-то свои reasoning режимы работы 120B и 20B. Но проверить это нельзя, т.к. OpenAI API долго думает свой ответ на задачи, а потом возвращает схему с пустыми слотами на размышления (это не reasoning traces, а именно типизированные поля в SGR схеме) Похоже, что не хотят светить свой CoT. У вас так же?

Если теория верна, то можно сделать такой вывод - для GPT-5-120B обычного Schema-Guided Reasoning достаточно, чтобы поднять его на уровень gpt-5-mini, но для модели послабее (20B) потребуется более развитая схема. Жалко, что пока не подсмотреть, как это делают в OpenAI.

Здорово, что вышли новые модели, которые обновили топы. И здорово, что OpenAI открыто поделились такими мощными моделями в Open Source. Осталось только научиться использовать 20B на полную катушку.

Ваш, @llm_under_hood 🤗

PS: Возможно, это подстегнет Anthropic и остальных начать тоже шевелиться, ибо новый GPT-5 очень хорош в кодинге. А у Anthropic до сих пор даже нет constrained decoding по схеме 😂
👍68🔥3123😁2🤝2🤣1
Локальная gpt-oss-20b - эквивалент закрытой gpt-5-nano, а mini - 120b 🔥

Теперь все цифры сошлись. Я таки запустил gpt-oss-20b, как если бы reasoning у него изначально работал с поддержкой Structured Outputs.

Сейчас gpt-oss-20b из-за новизны архитектуры работает без Structured Outputs даже у Fireworks (это мне подтвердили ребята в OpenRouter). Но, думаю, для таких хороших моделей завезут поддержку новой архитектуры достаточно быстро.

В итоге - очки на моем бенчмарке получились у моделей похожие. Смотрите сами. Причем ситуация аналогична паре моделей gpt-5-mini и gpt-oss-120b.

В принципе, это логично. Зачем OpenAI поддерживать большой зоопарк моделей, когда можно обучить три новые модели, выдать по API все три (спрятав reasoning) и раздать всем две младшие модели? Ну а смогут ли люди получить от локальных моделей результаты аналогичные их облачным вариантам - это уж зависит от самих людей.

Можете проверить сами, скачав локальные модели с Hugging Face (20B и 120B) и запустив у себя, или через одного из провайдеров (списки - 20B и 120B).

Для честного сравнения с gpt-5-nano и gpt-5-mini обязательно давайте локальным моделям возможность подумать над проблемой до ответа, как это делается в CoT. А когда в xgrammar/outlines появится поддержка constrained decoding для 120B/20B, то можно будет и Schema-Guided Reasoning использовать (как это делается в бенчмарке).

Ваш, @llm_under_hood 🤗
👍64🔥2815🤗3😱2🤝1
Новые материалы по SGR - Schema-Guided Reasoning

Я собрал воедино и структурировал материалы про SGR для LLM, выделил паттерны (их всего три) в отдельные статьи (english). Получилась краткая методичка "собери сам свою reasoning систему":

- SGR Intro - заглавная страница с определением и основными ссылками
- SGR Patterns - примеры простых паттернов, из которых можно "собирать" более сложные reasoning схемы: Cascade, Routing, Cycle.
- SGR Examples - четыре примера: simple math task, text-to-sql, document classification, advanced reasoning in compliance.
- Update: SGR Demo - пример бизнес-ассистента с использованием инструментов на базе SGR

Сейчас я работаю над еще одним дополнением - минимальным примером бизнес-ассистента, который может использовать несколько инструментов для распутывания сложных задачек. Он создается без сторонних библиотек, исключительно на OpenAI SDK, Pydantic и всего с одним промптом.

Как думаете, в сколько строчек Python можно уложить такое демо-решение?

Ваш, @llm_under_hood 🤗
🔥12531👍10👏4🤝1🎄1
Релиз линейки gpt-5 - это самый крутой подарок от OpenAI разработчикам. Включая тех, кто хочет запускать мощные модели на старых картах.

Смотрите.

(1) gpt-oss-120B занимает 5 место в бизнес бенчмарке при использовании SGR. И заодно 4-е место в виде gpt-5-mini (ибо модели идентичны).

(2) это модель с открытыми весами. Бери и используй. Качаем тут.

(3) 120B запускается неплохо (10-30 tokens per second) на старых картах (5-8GB VRAM для attention в bf16) и простой оперативке (советуют 64GB)! Это все благодаря Mixture of experts архитектуре, которая использует только часть весов.

Про запуск 120B - можно почитать на Reddit. Если кратко у llama есть переключатель —cpu-moe, который позволяет использовать всякие 3060Ti или 3090 для запуска модели.

"Yeah, I'm now also hitting > 30T/s on my 3090"


Пишите сюда, если получится запустить модель из верха бенчмарка на карте, от которой такого не ожидали. Порадуемся вместе)

Ваш, @llm_under_hood 🤗

PS: в ollama еще не завезли. Следить тут.
🤣5429👍23🔥10🤯3🎄2😁1
У @VaKovaLskii из @neuraldeep есть RAG бот, который может отвечать на вопросы по материалам канала и чата нашего комьюнити.

Бот появился впервые месяцев 8 назад и недавно ожил снова, пополнился новыми постами.

Бот работает как Custom ChatGPT - находит релевантные сообщения и на их основе синтезирует ответ. Ответы не всегда точные, но всегда сопровождаются ссылками на оригинальные сообщения, поэтому все можно перепроверить.

Пообщаться с ботом можно тут: @neuraldeepbot. Прочитать о нем тут.

Ваш, @llm_under_hood 🤗
🔥6119👍8🤯7💯4🤗2
Я доделываю небольшую демку, которая показывает, как сделать планируюшего бизнес-ассистента с доступом к инструментам, на базе Schema-Guided Reasoning и недорогой модели.

Код я потом выложу в статье.

На скриншоте - пример запуска агента. Тут я попросил переделать последний инвойс Маску, там нужно сделать скидку в три раза больше, чем та, что была у Sama.

Вопрос. Как вы думаете, сколько строчек кода в этой демке?

Подсказка:
- Система не использует GPT-5. Модель под капотом даже не из TOP-20 моего SGR бенчмарка, ибо для такой простоты ничего мощного не нужно.
- Никаких сторонних фреймворков не используется. Tool Use тоже самописный (tools интегрированы с планировщиком и работают на одном-единственном SGR-промпте). Только openai и pydantic.
- Реализована простая in-memory CRM система с инвойсами, продуктами, памятью, отправкой писем.

Итак, сколько строчек кода может быть в такой демке? Каждая строчка не более 80 символов, и это не code golf, естественно.

Ваш, @llm_under_hood 🤗

PS: Того, кто укажет самое нереально маленькое число - попросим показать класс и написать самостоятельно))
🔥60👍12🤯54😢1🤗1
Проблемы с GPT-5 моделями у OpenAI

Итак, исходные веса gpt-oss OpenAI моделей - это, на мой взгляд, самое крутое, что давали в свободное пользование со времен Llama. Модели очень хороши и умны.

Но вот с реализацией reasoning у линейки GPT-5 есть вопросы.

Во-первых, при запуске gpt-5/mini/nano (OpenAI API) со Structured Outputs код периодически падает с ошибкой парсинга. Хотя, казалось бы, такое не должно быть возможным - как может constrained decoding по схеме генерировать код, который не соответствует схеме?

При этом тот же код никогда не падает при работе с gpt-4o.

Скорее всего, проблема в том, как constrained decoding интегрировали в новую reasoning схему у gpt-5-mini/nano на новых inference серверах.

Во-вторых, GPT-5 Pro (самая умная) субъективно заметно поглупела. Например, если просто взять весь код с этой ошибкой парсинга и задать вопрос в DeepResearch про первопричины, то эта модель откровенно начинает глупить: "а в чем проблема? А как должен работать constrained decoding? итп". Плюс в процессе работы постоянно упускает из виду моменты, про которые мы уже говорили в рамках контекста.

Та же o3 работает куда лучше и сразу самостоятельно начинает копать в первопричины.

Но в итоге обе сходятся во мнении, что проблема, скорее всего, в сырой реализации constrained decoding на моделях GPT-5.

TLDR;
- gpt-5 в OpenAI API пока плохо работают с Structured Outputs. Ждем фиксов или используем локально gpt-oss со своим constrained decoding
- GPT 5 Pro субъективно стал слабее. Используем пока o3.

Замечали такое?

Постоянные читатели канала помнят, что такое у OpenAI происходит периодически:

- Сначала они выпускают что-то мощное.
- Потом - делают подешевле и поглупее
- И только потом делают снова умнее, сохряняя дешевизну

Поэтому снова ждем третьей стадии

Ваш, @llm_under_hood 🤗
🤣4418👍18🤯13😁4
Демка бизнес-ассистента, которая показывает основы построения reasoning системы c tool use на базе простой LLM (GPT-4o)

Ассистент умеет:
- генерировать инвойсы и отменять их
- отправлять письма с вложениями
- создавать правила самому себе на будущее
- читать данные клиентов

(на самом деле интеграций с реальными системами нет, агент работает в симуляции)

Из библиотек требуется только openai/pydantic для Structured Outputs и rich (для красивого вывода в терминал). Все остальные вещи вроде демо-БД и инструментов реализованы прямо в коде.

Всего в демке 159 строчек исполняемого кода. Большая часть которого - SGR схема инструментов (у ассистента всего один промпт) и реализация работы самих инструментов.

Статья с демкой - SGR Demo. Код одним файлом - в статье после разбора.

Для тех, кому хочется более серьезного кода, в статье есть раздел "Hardening the code" про то, как можно эту обучающую демку развить дальше.

Ваш, @llm_under_hood 🤗

---
Полный список статей:

- SGR Intro - заглавная страница с определением и основными ссылками
- SGR Patterns - примеры простых паттернов, из которых можно "собирать" более сложные reasoning схемы: Cascade, Routing, Cycle.
- SGR Examples - четыре примера: simple math task, text-to-sql, document classification, advanced reasoning in compliance.
- SGR Demo - минимальное демо бизнес-ассистента с SGR под капотом.
90👍50🔥48
Демо reasoning бизнес-ассистента с SGR на JS

Спасибо Антону (@antonkuzminru) за этот порт!

Его код работает аналогично версии на Python и тоже использует минимум фреймворков. Вместо pydantic в мире JS/TS используется zod.

- TS (Bun) + Zod - Gist 👈

Если портируете на другой стэк или сделаете красивую визуализацию - пишите мне и прикладывайте скриншот работы последней задачи. Я их обязательно тоже опубликую.

Ваш, @llm_under_hood 🤗
21🔥11👍7
Красивое демо бизнес-ассистента с SGR на Python

Спасибо Виталию (@vitalii_ask) за версию агента с красиво оформленной визуализацией!

Код работает аналогично версии на Python, но с более симпатичным оформлением и отображением результатов работы инструментов. Заодно сохраняет результат работы в markdown отчет. Фреймворки те же.

Ссылка на Gist

Если портируете на другой стэк или сделаете еще более красивую визуализацию - пишите мне и прикладывайте скриншот работы последней задачи. Я их обязательно тоже опубликую.

Ваш, @llm_under_hood 🤗
🔥28👍1410🤯1
Меня сегодня спросили - есть ли идеи по поводу следующего Enterprise RAG Challenge?

Я сказал, что есть две:

(1) Сделать ERC, как он был в прошлые два раза (поиск ответов на вопросы в отчетах), но заранее подготовить базовый стенд, в котором реализованы простые pipelines. Команды смогут взять этот код и работать над его улучшением. Веселье с парсингом документов и таблиц гарантировано.

(2) Сделать Enterprise Reasoning Challenge, где команды получают легковесную среду, которая симулирует небольшую компанию с внутренними системами (ERP/Emails/CMS итп). Это похоже на симулированный пример из демки бизнес-ассистента, но с бОльшим количеством доступных сервисов.

И задача - написать такого агента, который получает задачки текстом (как корпоративный чатбот), а потом использует доступные ему инструменты для выполнения этих задач. Самая простая реализация - просто воткнуть все доступные сервисы как MCP/Tool Calling в LLM.

Вам какая идея больше нравится для дружеского соревнования этой осенью? И почему?

Ваш, @llm_under_hood 🤗
👍6016🔥10🤯4😢2
Бенчмарк новых моделей: Grok, Opus 4.1, Mistral Medium 3.1

Elon Musk что-то делает правильно. Мало того, что у них Grok-4 работает с нормальным Structured Outputs, так Grok-4 по очкам заняла первое место. Ровно столько же очков у GPT-5 (medium reasoning). Дорогие, но умные.

Кстати, на данный момент поддержка Structured Outputs (которая нужна для стабильной работы SGR) появилась у большего числа независимых провайдеров (все они доступны через OpenRouter):

- Fireworks
- Cerebras
- Groq

Это вдобавок к крупным провайдерам - OpenAI (+Azure), Mistral, Google (ограниченные Structured Outputs).

NB: GPT-OSS модели OpenAI из-за нового Harmony формата пока со Structured Outputs стабильно не работают - ни у провайдеров, ни в ollama. Нужно подождать.

Anthropic Claude - пока продолжают болтаться в аутсайдерах на промышленных задачах. Компания молчит по-партизански про поддержку constrained decoding/Structured outputs, а Opus 4.1 по очкам на бизнес-бенчмарке с использованием SGR стал чуть хуже, чем Opus 4.0. 22 место.

Mistral Medium 3.1 - тоже без прорывов. По очкам чуть хуже, чем Mistral Medium 3.0. 38 место.

Ваш, @llm_under_hood 🤗
29👍20🔥11😁1
Какая самая маленькая LLM, которая может управлять бизнес-агентами?

Участники сообщества и курса решили выяснить это и допилили SGR демку до состояния, что она внятно запустилась на Qwen3-4B 🤯 ибо:

тут был спортивный интерес добиться чего то вменяемого от такого размера


Среди изменений:

- убрали OpenAI SDK, заменив прямыми запросами к локальной модели (llama.cpp для inference модели `Qwen3-4B-Instruct-2507-Q8_0`)
- добавили инструкций в промпт, прописав явно некоторые правила
- добавили еще одно reasoning поле в самое начало SGR каскада в NextStep

Посмотреть эту версию можно тут: gist

Спасибо @amekhrishvili за порт!

Ваш, @llm_under_hood 🤗
🔥6022👍16👏3
А вы знаете, что пост про демку бизнес-ассистента с SGR под капотом - это самый тщательно скрываемый секрет нашего коммьюнити?

Если верить статистике Telegram, этот пост люди пересылали в личке разы чаще, чем все остальные посты, но никто не шарил этот пост публично.

Правда секретом это будет оставаться не так долго. Следующий ERC (это наш формат соревнований) точно будет про Enterprise Reasoning Challenge, где командам нужно будет построить агента или мультиагентную систему, которые смогут использовать предоставленные им API, чтобы распутывать корпоративные задачки. Все как в SGR демке, только чуть масштабнее.

Событие планируется осенью/зимой. Точные сроки зависят от того, как быстро раскачаются отделы маркетинга в TimeToAct и IBM. Тестовый прогон будет точно этой осенью.

Формат проведения будет примерно аналогичен прошлому Enterprise RAG Challenge: команды со всего мира, небольшой призовой фонд, максимально открытые исходники и публичный сравнительный анализ результативности различных архитектур.

Возможно, все вместе сможем обнаружить новые паттерны в построении агентских систем для бизнеса.

Ваш, @llm_under_hood 🤗
🔥10222👍14😁6🤣1
Forwarded from Dmitry Nik
Попробовал в деле Schema Guided Reasoning - перевёл на неё скрипт составления протокола встречи по транскрипту встречи.

Результаты:
1. Того же качества протокола удалось добиться за один запрос к LLM вместо четырёх ранее.
2. Протокол стал чуть более осмысленным (но это не точно), так как схема направляет "движение мысли" модели.
3. Это работает на обычных (не размышляющих) моделях.

Я в восторге!
Спасибо @llm_under_hood за культпросвет!

Теперь попробую вникнуть в работу агента на SGR.
🔥51👍2415
⬆️ Я всегда очень рад читать такие отзывы! Здорово, что решения работают и помогают вам делать продукты с LLM под капотом точнее, умнее и быстрее.

Пишите ещё о своих кейсах успешного применения Schema-Guided Reasoning (SGR) - пусть таких историй будет больше!

Ваш, @llm_under_hood 🤗

PS: Когда историй становится много - начинают проявляться новые паттерны)
24👍10🔥9🤝1
Валерий Ковальский (@neuraldeep) поделился опытом использования SGR-подходов в обзоре "SGR vs Tools: когда использовать Schema-Guided Reasoning, а когда Function Calling в LLM-системах"

У него очень прагматичная точка зрения на разработку продуктов с LLM под капотом, т.к. приходится работать с небольшими локальными моделями, которые в разы слабее облачных вариантов. Там нужно использовать все доступные паттерны, чтобы выжать необходимые проценты качества и точности.

Особенно интересны пункты про экономию времени на разработку при использовании SGR вместо стандартного Tool Calling. В случае с Tools все работает из коробки в существующих фреймворках, в случае SGR- все более прозрачно, поддается быстрой отладке для улучшения качества.

Я перешлю его обзор в канал целиком следующим постом. Читайте - это стоит того!

Ваш, @llm_under_hood 🤗
🔥2310👍1
Forwarded from Neural Kovalskii
SGR vs Tools: когда использовать Schema-Guided Reasoning, а когда Function Calling в LLM-системах

Сегодня хочу поднять тему, которую у меня часто спрашивают: когда использовать Tool Calling, а когда Schema-Guided Reasoning (SGR) в LLM решениях под капотом?

Респект Ринату Абдуллину за отличную систематизацию подхода SGR!

Что забавно, я сам использовал похожие паттерны 4-5 месяцев назад загляните в гит, но именно Ринат дал этому четкое название и структуру!

SGR vs Tools по моему мнению

SGR заставляем LLM мыслить по четким шагам через Structured Output:
Анализ → Поиск → Обработка → Вывод в одном запросе

Tools даем LLM набор функций для взаимодействия с внешним миром
Кстати все больше вижу сдвиг именно в паттерн агент=tool_call MCP+SO(где надо) и теперь SGR:
Поиск, API, вычисления, полноценное агентское поведение

Пример SGR из моей практики:
{
"reasoning": {
"query_analysis": {
"user_query": "Найди информацию о проекте X",
"query_interpretation": "Пользователь ищет документы по проекту"
},
"information_search": {
"search_strategy": "Ищу по ключевым словам в базе",
"relevant_documents": [...]
}
},
"response": "Полный ответ на основе найденной информации"
}


Когда использовать SGR:

Анализ и структуризация данных
Разбор документов, классификация, отчеты
Сложные рассуждения
Пошаговый анализ с обоснованием
Обработка имеющихся данных
Все нужное уже в контексте, нужна предсказуемость но не детерминированность (запомним)

Когда использовать Tools:
Настоящее агентское поведение
LLM сам решает последовательность, адаптируется к результатам, может прерываться

Не зря появилась куча оберток типа LangGraph, AutoGen, CrewAI все строятся именно на свойствах
Tools когда модель сама принимает решение их вызвать
А MCP от Anthropic на мой взгляд это попытка стандартизировать агентские инструментарий

Взаимодействие с внешними системами
Интернет, email, календарь, API


Критически важно для production Evals и мониторинг!

SGR:
Все рассуждения видны и логированы
Легко тестировать каждый шаг
A/B тестирование предсказуемо

Tools:
LLM сам решает какой инструмент вызвать — черный ящик
Сложно понять WHY выбрана функция
Непредсказуемая цепочка вызовов
Дебаг в production = боль

Из реального опыта:
При настройке NSFW-фильтров с Tools ушло бы недели на понимание решений модели с SO было бы сложно дебажить.
С SGR за день увидел проблемы в reasoning и пофиксил качество!

Ключевое различие — агентность vs структурированность

SGR = мощное рассуждение без истинной агентности
Один запрос → один ответ
Для агентского поведения придется костылить

Tools = настоящее агентское поведение из коробки
LLM сам управляет workflow, нативные прерывания в большинстве фреймворков и API
Поэтому все современные агентские фреймворки базируются именно на Tools

Гибридный подход? Искал медь а нашел золото!

SGR для принятия решений какой инструмент использовать
Tools для выполнения действий получение данных и ощущение агентности
SGR для финальной обработки структуризация результата

Вывод финально

SGR когда нужно контролируемое рассуждение и мониторинг
Tools когда нужно настоящее агентское поведение
SGR работает даже на локальных 7B моделях и даже на qwen3 4B

Update:
Ринат подкинул очень интересную демку, смешение в сторону SGR в агентах
Как запускать вместе и то и другое

Можно и вместе.
См демку с многоходовым
бизнес-ассистентом
Ребята из
Сбера допилили это до запуска на Qwen 3 4B


В production качество мониторинга = выживание продукта
А как вы решаете эту дилемму? Поделитесь опытом!

P.S. Спасибо Ринату за системный подход к SGR это свежий глоток точности и постоянства в нашем мире LLM!
P.S.S Забирайте все ссылки как памятку, SGR это то что будет двигать production сектор дальше к внедрению LLM!
44👍21🔥8👏4
Как сделать агента, который может адаптировать свой план "на лету"?

В процессе обсуждения SGR Demo, было сделано интересное замечание:

> Но реальное агентское поведение в проде – это, когда агент не знает заранее всю последовательность шагов и принимает решение, какой шаг следующий уже в процессе работы.

Давайте продемонстрирую, как с подобной задачей планирования "на лету" справится агент из SGR Demo.

Для этого мы ему последовательно дадим две новые задачи.

Первая - простая, запомнить правило, что SkyNet никогда нельзя продавать практикум по созданию AGI (SKU-220)


"Add rule for skynet@y.com - politely reject all requests to buy SKU-220",


Напомню, что разные задачи выполняются в разных контекстах. Во время выполнения новой, агент не "помнит", что произошло в процессе выполнения предыдущей задачи.

И вторая задача - говорим агенту, что Elon Musk и SkyNet попросили практикум по созданию AGI. Агент, в теории, должен сформировать план, начать действовать по инструкциям, а потом поднять из CRM информацию про запрет. Это повлияет на план.


"elon@x.com and skynet@y.com wrote emails asking to buy 'Building AGI - online exercises', handle that",


Итак, запускаем и смотрим (скриншот выполнения добавлю в комментарии). Демка выдаст вот такой лог выполненных задач:


- Issued invoice INV-4 for elon@x.com
- Emailed invoice INV-4 to finance@x.com
- Politely rejected skynet@y.com request


Почему оно сработало, как модель смогла адаптировать план "на лету"?

Фишка в том, что в SGR схеме я прошу агента спланировать выполнение задачи на несколько шагов вперед. Это нужно, чтобы принудить к формированию целостной картины. Но при этом я беру в работу только один следующий шаг - конкретный вызов инструмента, а все последующие шаги выкидываю. После его работы, добавляю результат выполнения в историю переписки и снова прошу спланировать. Новый шаг - новый план, который адаптирован к новой информации.

Помните, полгода назад я писал про разработку своего Reasoning Flow? Ядро паттерна сформировалось как раз в том проекте из алгоритма адаптивного планировщика. И теперь каждый его может запустить у себя - я дописал эти две новые задачи в Gist с демкой.

Ваш, @llm_under_hood 🤗

PS: Единственное, что этот агент не сможет осилить - запуск независимых веток планирования в рамках одной задачи. Но это уже не уместить в 161 строчку Python, да и не нужно оно для простых кейсов.
36🔥24👍12