SimpleQA - бенчмарк для оценки способности LLM отвечать на короткие, фактологические вопросы, разработанный с учетом двух основных свойств: сложности и простоты оценки.
Сложность достигается за счет вопросов, на которые модели GPT-4o и Claude отвечают с трудом (точность < 50%).
Простота оценки реализована формулировкой вопросов, допускающих только один верный ответ. Каждый ответ классифицируется как «верный», «неверный» или «ответ не дан».
Идеальная модель должна давать как можно больше верных ответов, воздерживаясь от ответов на вопросы, в которых она не уверена.
SimpleQA состоит из 4326 вопросов из областей: наука и технологии, политика, искусство, география, телевидение и т.д.
Ответы на вопросы проверялись двумя независимыми AI-тренерами, и только вопросы с совпадающими ответами были включены в набор данных. Для соблюдения актуальности датасета, вопросы формулировались таким образом, чтобы их ответы не менялись со временем.
Оценка ответов моделей производится с помощью классификатора ChatGPT, который сравнивает сгенерированный ответ с эталонным и присваивает оценку.
Для измерения калибровки LLM, то есть способности модели оценивать свою уверенность в ответе, применяются два метода:
Если в обоих случаях наблюдается положительная корреляция между заявленной уверенностью модели и точностью ответа - это свидетельствует о наличии у моделей некоторого представления об уверенности. Но в случае, если модели склонны переоценивать свою уверенность, это указывает на необходимость дальнейших исследований в области калибровки LLM.
⚠️ Ограничением бенчмарка является его фокус на коротких ответах, оставляя открытым вопрос о корреляции между способностью давать фактологические короткие ответы и способностью генерировать длинные тексты с множеством фактов.
⚠️ Фикс ошибки загрузки датасета заменой
blobfile
на HTTPS URL
:import pandas
df = pandas.read_csv(
"https://openaipublic.blob.core.windows.net/simple-evals/simple_qa_test_set.csv"
)
# Clone repo
git clone https://github.com/openai/human-eval
# Install requirements for inference
# For OpenAI API
pip install openai
# For Anthropic API
pip install anthropic
# Demo
python -m simple-evals.demo
@ai_machinelearning_big_data
#AI #ML #LLM #OpenAI #Benchmark #SimpleQA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM