̶с̶а̶м̶̶о̶изолента мёбиуса

Последние несколько месяцев я активно ковырял галлюцинации в машинном переводе, и сегодня мы с коллегами выложили статью про это:
Detecting and Mitigating Hallucinations in Machine Translation: Model Internal Workings Alone Do Well, Sentence Similarity Even Better.

Что такое «галлюцинация»? В широком смысле, в NLP принято так называть любой сгенерированный текст, который нас чем-то не устраивает. В более узком смысле мы под галлюцинациями понимаем переводы, в которых модель фантазирует нечто, вообще не имеющее к входному тексту отношения. Нейросетки так делают относительно часто, особенно если входной текст чем-то не похож на те тексты, на которых они обучались.

Можно ли такие патологии детектировать автоматически? В более ранней статье Guerreiro et al, 2022 ответ был скорее пессимистичный: если не генерировать галлюцинации искусственно, то никакие из предлагавшихся в литературе способов не позволяют выявлять галлюцинации лучше, чем простая сортировка переводов по их log loss’у из модели, а этот метод плохо отличает галлюцинации от менее критичных ошибок и от просто сложных переводов. Но мы предложили три другие способа, которые вроде бы работают лучше:

1) Просто сравнить LaBSE эмбеддинги исходного текста и перевода. Этот способ кажется очевидным, ибо LaBSE как раз и обучалась сопоставлять одинаковые по смыслу тексты на разных языках, но почему-то для детекции плохих переводов его раньше не применяли.

2) Засунуть исходный и переведенный тексты в мультиязычную модель для NLI и перемножить предсказанные моделью вероятности, что один текст логически следует из другого. Я уже показывал, что это хорошо коррелирует с человеческими оценками похожести текстов в рамках одного языка – и вот оказывается, что между языками оно тоже работает.

3) Самое интересное: средний вклад токенов исходного текста в представления токенов выходного текста, посчитанный той же самой моделью, которая и переводила текст. Да, оказывается, что модель сама «понимает», когда она галлюцинирует, и нужно у неё только правильно «спросить». Для этого я использовал метод ALTI+ (Ferrando et al, 2022), который хитро агрегирует активации разных слоев трансформера, чтобы вычислить процентный вклад каждого входного токена энкодера и декодера в каждое предсказание декодера. Усреднив эти вклады, можно понять, что при генерации данного перевода модель, скажем, в среднем 30% своего внимания обращала на исходный текст, а 70% – на уже сгенерированный её же префикс. И по таким пропорциям хорошо детектируются самые жесткие случаи галлюцинации, когда весь перевод имеет мало отношения к исходному тексту.

Окей, галлюцинации мы детектировать можем, а как их лечить? В работе Guerreiro предлагают рабоче-крестьянский метод: сгенерировать десяток разнообразных гипотез перевода, и выбрать лучшую согласно всё тем же автоматическим метрикам. Это сокращает долю галлюцинаций в 2-3 раза, но не лечит их полностью. Так что работать ещё есть над чем.

4.1K viewsedited 17:50