Сиолошная

Немного запоздалая новость, лежавшая с неделю в закладках. LMSYS добавляет 2 среза для сравнения моделей на Chatbot Arena (что это такое — писал тут).

Первый очень простой, и скоро станет рейтингом по умолчанию. В нём отфильтровали порядка 10% голосов, убрав примерно 1000 самых повторяющихся вопросов (те, что встречаются больше 25 раз). В основном там были запросы типа «привет» и вариации на разных языках. Так как всего 1000 запросов брали на себя 10% голосов (порядка 100000), то это вызывало перекос в их сторону — а сообщения-то были не сказать что самыми полезными для оценки LLM.

Второй — куда более интересный. Помните я писал про Arena Hard? Авторы тогда подготовили пайплайн для выделения самых сложных, комплексных и интересных запросов для того, чтобы сравнивать модели на вопросах не по типу «2+2=?». Для того, чтобы это сделать, было выделено 7 аспектов (например, важна ли точность ответа, должна ли модель решить какую-то конкретную проблему, нужна ли креативность, итд). Один промпт может относиться хоть ко всем категориям сразу.

Hard вопросами назвали те, из которых выделяется как минимум 6 аспектов (для определения использовали запромпченную LLAMA-3-70B, дав ей описания классов). Всего их вышло порядка 20% — больше всего отфильтровалось по критериям креативности и комплексности (то есть необходимости сделать несколько шагов, чтобы дать ответ).

Чтобы посмотреть рейтинг моделей, нужно перейти на https://chat.lmsys.org/?leaderboard и выбрать вкладку «Hard Prompts». Ниже — моё саммари результатов.

Примеры промптов:

(сложность: 6) tell me how to make a hydroponic nutrient solution at home to grow lettuce with precise amount of each nutrient

(сложность: 6) write me GLSL code which can gennrate at least 5 colors and 2 waves of particles cross each other

(сложность: 7)

Write me a python script for the foobar problem, but make it so that if read aloud, each pair of lines rhymes. (i.e. lines 1/2 rhyme, 3/4 rhyme and so on)

17.4K viewsedited 04:04