Записки NLPшника

Продолжая разговор об изучении ответов в чатах. Сейчас я делаю бенчмарк для замера моделей. Несмотря на то, что ответы можно вытянуть из телеги напрямую, я решил привлечь людей, чтобы удостовериться возможно ли вообще пару классифицировать как ответ. Потому что иногда, например, пара "сообщение-ответ" могут стоять в середине разговора и без контекста невозможно понять, что между этими текстами есть связь.

Подумалось, что эта задача достаточно простая и решил дать Толоке еще один шанс. Надергал по нескольку десятков пар из разных чатов разных доменов и отправил на разметку, при этом не скупился на перекрытие.

В целом, результатом я остался доволен. Из 490 примеров 350 ответов получили метку "да". Для агрегации использовалась модель Девида-Скини, которую Толока предлагает из коробки. В добавок к агрегации модель еще дает оценку уверенности. Распределение смотрите постом ниже. Как видите, оценки довольно уверенные. Если посмотреть количество пар, уверенность которых ниже 80 процентов, что я принял, как неуверенность, то там по 25 примеров на "да" и "нет".

Интересный вопрос, почему же люди ставили "нет", если эти пары сформированы от действий пользователей. Вот причины, которые я выделил:

1. Иностранный язык.
2. Недопонимание домена.
3. Частный случай второго, не знание мемов. Из чата по игре Terraria "Приклеить скотчем большую петарду к монитору." - "У меня так друг умер 🪦". Данная пара вполне себе валидный ответ.
4. Малоинформативные сообщения.
5. Просто явные ошибки тоже встречаются.

Еще что я хотел сказать про Толоку. К сожалению, Толока не гарантирует сохранность порядка исходных данных, а также не сохраняет поля, которые не используются непосредственно в задании. Это накладывает сложности при проведении операции с исходным датасетом, чтобы, например, случайно не включить размеченные примеры повторно. Чтобы обойти это, создайте дополнительное поле с id и включите его в интерфейс. Его даже можно не отображать, достаточно чтобы оно значилось в интерфейсе Толоки как INPUT.

90 viewsIgor Buyanov, edited 12:49