Pavel Zloi

У себя на канале @neuraldeep опубликовал предварительные результаты тестов sgr-deep-research на бенчмарке SealQA (сплит seal_0), ну и так вот, из коробки, без оптимизаций указанное решение на gpt-4o-mini модельке показывает чуть больше 25% правильных ответов (28 из 111), само собой это надо будет ещё всё перепроверить, но уже больше 0% и это радует, однако, до SotA кажется будто ещё далековато.

Почём нынче мёртвые души?^W^W^W^W
Что там SotA в наши дни?

Есть например проект ROMA который выбивает на данном бенчмарке 45%, думаю занятно, полезу посмотрю, что за модельки использовались да и в целом, что там на низах происходит.

И похоже, что ROMA достигла 45% вероятно благодаря gpt-4o-search-preview (хотя это не точно, так как прямых свидетельств я найти не смог).

Данная моделька крутая сама по себе, она представляет из себя связку затюненной под поиск gpt-4o с тулом поиска в сети и несколькими поисковыми системами, при чём судя по публикации на сайте OpenAI этот самый поиск работает в несколько итераций, сам выбирает поисковый движок, формирует и отправляет запрос, производит анализ результатов, сам правит запросы если необходимо и ищет дальше, под конец формирует красивый ответ, короче эдакий продвинутый поисковый агент по форме отдалённо напоминающий deep research.

~~Вам шашечки или ехать?^W^W^W^W~~
Как работает поиск?

Думаю странно, модель со встроенным поисковиком для всех задач это конечно круто, но как тогда в ROMA реализован базовый тул поиска в сети, на случай если придётся использовать модель в которую поиск не встроен?

Нашёл вот это:
- OpenAICustomSearchAdapter - судя по коду по умолчанию используется gpt-4o со включенным web_search_preview тулом (эту фичу поддерживают почти все модели openai начиная с gpt-4o и далее)
- GeminiCustomSearchAdapter - по умолчанию используется gemini-2.5-flash со включенным google_search тулом (эту фичу поддерживают все гугловые модельки начиная с gemini 2.0)
- ExaCustomSearchAdapter - это ещё один поисковый движок в ROMA, который использует EXA по API, а при помощи модели gpt-4o формирует красивый ответ модели.

Из чего складывается впечатление, что в чистом виде выполнять задачи поиска ROMA пока, что из коробки не умеет.

~~Трейн на тесте^W^W^W~~
Тюн промтов с помощью фью-шотов

Вот смотрите раз, два, три, четыре, пять забавных моментов (ищется по few shot).

В системных промтах ROMA в формате few-shots встречаются вопросы или отдельные шаги ресёрча отдалённо напоминающие перефразированные тексты из бенчмарка seal-0, поэтому кажется будто авторы ROMA тюнили промты таким образом, чтобы он хорошо проходил данный бенчмарк.

~~Кто виноват?^W^W~~
Итого

Короче занятный проектик, в процессе изучения которого возник ряд мыслей:
- действительно ли ROMA способен работать с такой же эффективностью за, скажем так, пределами домена вопросов бенчмарка SealQA?
- получится ли повторить 45% используя другую модель, без встроенного поискового движка, скажем gpt-5 или cloude-opus-4.1?
- если отключить все проприетарные модели со встроенным поиском и использовать только поиск (скажем чистый travily) то как сильно это повлияет на результат?
- почему авторы пишут, что это OpenSource инструмент для DeepResearch? Когда на низах там используются проприетарные модели и нет тестов на OpenSource моделях.

~~Что делать?^W^W~~
Постскриптум

И тут же мысли в рамках проекта sgr-deep-research:
- надо будет попробовать модели толстушки аля gpt-5 и claude-4.1-opus со включенным поиском на всех этапах работы системы
- добавить тул который будет использовать специализированные LLM заточенные под поиск в сети, вдобавок к тулу который использует travily
- при помощи few-shots подтюнить системные промты так чтобы на нескольких примерах показать системе как ей надо себя вести, так как сейчас модель работает через zero-shot
- вместо списка ссылок чтобы поисковый тул отдавал красивую и релевантную суммаризацию созданную LLM полученных ссылок
- добавить шаг атомизации (как тут), который бы проверял можно ли выполнить задачу за один шаг и делал был декомпозицию шага если нельзя

UPD. Поправил очепятки, добавил пунктик про атомизацию.

❤‍🔥4👍3🔥2

1.82K viewsedited 23:25