Записки NLPшника

Cascading Biases. Investigating the Effect of Heuristic Annotation Strategies on Data and Models

# О чем
В статье авторы пытаются выявить смещения данных, вносимых разметчиками, через характеризацию известных когнитивных стратегий (эвристики). Тестировали, как эти смещения усваиваются моделями.
# Метод
Авторы собрали датасет генерации вопросов. В качестве исходного материала использовали тексты из википедии. Разметчиков (Amazon Mechanical Turk) просили придумать вопросы и 4 варианта ответов к нему. После этого, разметчикам предлагали пройти тест на когнитивные искажения (Приложение B).

Авторы выбрали три эвристики:
* Satisficing - выбор того, что удовлетворяет, а не то, что оптимально. Гипотеза авторов в контесте задачи - разметчики делают работу по принципу "и так сойдет". Признаком этой стратегии авторы устанавливают время, потраченное на задание.
* Availability - использование свежей информации в памяти. Гипотеза авторов - разметчики пишут корректный вариант ответа первым в списке. Признаком является, соответственно, корректный ответ на первом месте.
* Representatives - использование похожих объектов. Гипотеза авторов - вопрос сильно похож на исходных текст. Признаком является пересечение словаря.

Признаки имеют разные способы представления (отношения, логарифм и т.д.). Авторы подчеркивают, что признаки каждой эвристики не обязательно связаны только с конкретной эвристикой.

# Результаты

Авторам удалось найти набор признаков, который коррелирует с результатами тестов на уровне 0.3 по модулю со статистической значимостью. Кроме того, PCA этих признаков коллериует на уровне 0.5.

Далее, авторы проверили насколько успешно модели , явно использующие эвристики (см. 5), могут решить примеры от разметчиков, которые показывают высокие показатели по признакам авторов. Тест проводился по каждому признаку по отдельности и заключался в использовании примеров с высоким значением по признаку с постепенным включением всех остальных примеров. В результате получились графики, на которых видно, что во многих случаях модель дает лучше значения по точности на примерах с высоким показателем по признаку, т.е. в начале графика, с постепенным ухудшением.

Кроме того, авторы посчитали корреляцию между средним значением признака для разметчика и точностью модели на примерах этого разметчика. Корреляция для всех признаков, кроме семейства satisficing, на уровне 0.3 по модулю.

Также, авторы показали, что если формировать тренировочную выборку из примеров разметчиков со склонностью к когнитивным эвристикам, то качество такой модели будет хуже, чем если выбирать примеры от случайных разметчиков или выбирать примеры просо случайно, вне зависимости от разметчиков.

153 viewsIgor Buyanov, 07:17