Machinelearning

⚡️

SimpleQA: бенчмарк для оценки фактологичности LLM от OpenAI.

SimpleQA - бенчмарк для оценки способности LLM отвечать на короткие, фактологические вопросы, разработанный с учетом двух основных свойств: сложности и простоты оценки.

Сложность достигается за счет вопросов, на которые модели GPT-4o и Claude отвечают с трудом (точность < 50%).

Простота оценки реализована формулировкой вопросов, допускающих только один верный ответ. Каждый ответ классифицируется как «верный», «неверный» или «ответ не дан».

Идеальная модель должна давать как можно больше верных ответов, воздерживаясь от ответов на вопросы, в которых она не уверена.

SimpleQA состоит из 4326 вопросов из областей: наука и технологии, политика, искусство, география, телевидение и т.д.

Ответы на вопросы проверялись двумя независимыми AI-тренерами, и только вопросы с совпадающими ответами были включены в набор данных. Для соблюдения актуальности датасета, вопросы формулировались таким образом, чтобы их ответы не менялись со временем.

Оценка ответов моделей производится с помощью классификатора ChatGPT, который сравнивает сгенерированный ответ с эталонным и присваивает оценку.

Для измерения калибровки LLM, то есть способности модели оценивать свою уверенность в ответе, применяются два метода:

🟢Первый заключается в прямом запросе модели указать свою уверенность в ответе в процентах.

🟢Второй основан на многократном (100 раз) запросе модели на один и тот же вопрос.

Если в обоих случаях наблюдается положительная корреляция между заявленной уверенностью модели и точностью ответа - это свидетельствует о наличии у моделей некоторого представления об уверенности. Но в случае, если модели склонны переоценивать свою уверенность, это указывает на необходимость дальнейших исследований в области калибровки LLM.

⚠️ Ограничением бенчмарка является его фокус на коротких ответах, оставляя открытым вопрос о корреляции между способностью давать фактологические короткие ответы и способностью генерировать длинные тексты с множеством фактов.

⚠️ Фикс ошибки загрузки датасета заменой blobfile на HTTPS URL:

import pandas
df = pandas.read_csv(
    "https://openaipublic.blob.core.windows.net/simple-evals/simple_qa_test_set.csv"
)

▶️Локальный запуск:

# Clone repo 
git clone https://github.com/openai/human-eval

# Install requirements for inference
# For OpenAI API
pip install openai

# For Anthropic API
pip install anthropic

# Demo 
python -m simple-evals.demo

📌Лицензирование: MIT License.

🟡

Статья на сайте

🟡

Техотчет

🟡

Датасет в CSV

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #OpenAI #Benchmark #SimpleQA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post