̶с̶а̶м̶̶о̶изолента мёбиуса

Пара статей про мультиязычные модельки.

LaBSE: language-agnostic BERT sentence embeddings (2020)
Чего хотят авторы: добыть мультиязычные эмбеддинги предложений, как Laser или mUSE, только лучше: чтоб и хорошо перформили на редких языках, и не теряли качество на самых частотных.
Что сделали: предобучили BERT на задачах masked language modeling + translation language modeling (см.ниже) для 109 языков, потом пофайнтюнили на задаче translation ranking. Translation ranking - значит, в батч подаются много пар предложений на языках А и Б, и надо правильно выбрать, какие являются переводами каких. Сходство предложений изменяется как косинусная близость между [CLS] эмбеддингами, и у правильной пары она должна быть хотя бы на margin больше, чем у всех неправильных пар. Замечу ещё, что в модели конский wordpiece словарь - 500к токенов, против 30К у BERT-multilingual, так что редкие языки они должны покрывать куда полнее.
Оценивают это также на задачах подбора правильных переводов на корпусах BUCC, Tatoeba, UN. Для топ 14 языков качество выходит чуть выше чем у mUSE и сравнимо с Laser, на большее редких языках - сильно лучше, чем Laser. На англоязычных задачах semantic text similarity перформанс, впрочем, ниже, чем у mUSE или SentenceBERT - но это они на моноязычных датасетах с парами предложений вообще не файн-тюнились.
Модель выложена на tfhub и даже уже на huggingface, можно пользоваться. Есть основания надеяться, что с её помощью межъязычный transfer learning может получиться хорошо.

Cross-lingual Language Model Pretraining (2019)
В этой статье как раз представляют translation language modeling, на котором предобучали LaBSE. Задача - получить хорошие предобученные мультиязычные модели для NLU. Сравнивают три задачи: causal language modeling CLM, masked language modeling MLM, и MLM+TLM. TLM работает так: в BERT подаётся пара предложений с одинаковым смыслом на разных языках, причем segment embeddings обозначают язык, а position embeddings в обоих предложениях идут с нуля, и к такому инпуту применяется обычное MLM. Поскольку два предложения могут _внимать_ друг другу, модель выучивается сопоставлять слова из разных языков.
Модель, обученную на MLM+TLM, тестировали на датасете XNLI, и выбили SOTA с большим отрывом в двух сетингах: 0-shot (когда модель учится NLI только на англоязычных парах предложений, а потом применяется к куче языков), и translate-train (когда англоязычные обучающие примеры переводятся на все языки, и классификатор учится на многоязычном корпусе).
Модель, обученная только на MLM (без параллельных корпусов) оказалась полезной для инициализации как unsupervised, так и supervised моделей для машинного перевода - оба раза взяли новый рекорд. Языковые модели CLM для редких языков дали более низкую перплексию, чем монолингвальные (проверяли на непальском). Наконец, MLM модель дала словные эмбеддинги, лучше совпадающие для пар слов из разных языков, чем mUSE.
Модельки есть на гитхабе и называются XLM.

Upd. Потестировал LaBSE для русского языка на задаче детектирования парафраз с paraphraser.ru. Оказалось на одном уровне с rubert-sentence от DeepPavlov, чуть лучше чем Laser, и сильно лучше, чем mUSE, BERT-multilingual, SBERT от Сбера, и разные более простые бейзлайны.

442 viewsedited 13:39