Записки NLPшника

# Доклад про оценку БЯМ
## как оценить умность llm → бенчмарк

На ум приходят образовательные человеческие тексты, профессиональные тесты, специальные тесты для ЬЯМ.

Кастомные бенчи
- знание спецфактов
- провокации
- следование формату
- культурные код

С бенчмарками беда:
- протечки — попадание бенчней в тренировочную выборку.
- результат сильно зависит от способа замера.
- зависимость от опций ответов — у БЯМ есть предпочтения, какие из вариантов в тестах брать.
- тест != ум.

## как оценивать умность БЯМ → люди, лидерборд арена

Например, lmsys или Chatbot Arena.

Быстро, бесплатно, «объективно».

Есть проблемы:
- смещенные типы заданий и темы — на такие платформы приходят люди, интересующиеся БЯМ.
- смещение в формат ответа — у людей есть предпочтение на формат ответа.

## как оценивать умность БЯМ → разметка

Нанимать экспертов — аи-тренеров

Из чего состоит разметка

1. Фиксируем набор заданий.
1. Контроль: разнообразие тем, сложность, контрастность задачи, стратифиации, типы задачи
2. Фиксация правил разметки: безопасность, правдивость, полезность.
3. llm-as-a-judge — используем мощную БЯМ для оценки

Проблемы:
- llm-as-a-judge: модели больше нравятся свои ответы, смещение форматов, модель плохой фактчекер.
- АИ-тренеры это сложно, дорого, долго, немасштабируемо, не всегда коррелирует с тем что нужно пользователям.

## как оценивать умность БЯМ → разметка экспертами

Системная проблемы: чем лучше модель, тем сложнее ее оценивать. С какого-то момента необходимо привлекать экспертов в разных областях, чтобы оценить правильность ответов. Это стоит еще дороже, чем обычные АИ—тренера, и еще сложнее оценивать качество работы эксперта, потому что вы сами таковым не являетесь.

## Общий пайплайн

- Бенчмарки используем для первичного отбора.
- не забываем контролировать протечки, исследовать способы замера качества и устойчивость, делать кастомные бенчмарки и валидировать их.
- Разметкой делаем финальную приемку. Не забываем постоянно проверяйте качество, делать llm-as-a-judge.
- АБ-тесты на реальном продукте

👍1

317 viewsIgor Buyanov, 18:12