Python Portal

Кто-то протестировал 35 AI-моделей на 172 млрд токенов реальных вопросов по документам.

Цифры по галлюцинациям должны навсегда закрыть аргумент: «просто дайте модели документы».

Вот что на самом деле показали данные.

Лучшая модель во всём исследовании, в идеальных условиях, выдумывала ответы в 1,19% случаев. Это звучит немного — пока не понимаешь, что это потолок. Абсолютно лучший возможный результат. При оптимальных настройках, которые почти никогда не используются в реальных внедрениях.

Типичные топ-модели показывают 5–7% фабрикаций в задачах document Q&A.
Не на вопросах из памяти.
Не на абстрактном рассуждении.
А на вопросах, где ответ буквально лежит в документе перед моделью.

Медианное значение среди всех 35 протестированных моделей — около 25%.

То есть каждый четвёртый ответ — выдумка, даже когда исходный материал предоставлен.

Затем протестировали, что происходит при увеличении окна контекста. Всем компаниям, продающим 128K и 200K context как решение проблемы галлюцинаций, стоит внимательно прочитать этот момент.

При длине контекста 200K каждая модель в исследовании превысила 10% галлюцинаций. Показатель почти утроился по сравнению с оптимальными более короткими контекстами.

Чем длиннее окно контекста, тем выше уровень фабрикаций.
Фича, которую продают как решение проблемы, на практике заметно её усугубляет.

Есть ещё одно наблюдение, о котором говорят недостаточно.

Навык grounding (привязки к источнику) и способность избегать фабрикаций — это две разные способности у моделей.

Модель может отлично находить релевантную информацию в документе, но при этом плохо справляться с тем, чтобы не придумывать факты. Это разные метрики, и между ними нет надёжной корреляции. Нельзя предполагать, что если модель хорошо делает retrieval, то она меньше галлюцинирует.

172 млрд токенов. 35 моделей.

Вывод у всех один и тот же.

Передача LLM самого документа не решает проблему галлюцинаций. Она лишь меняет форму их проявления.

👉

@PythonPortal

Please open Telegram to view this post