Forwarded from что-то на DL-ском
XLM-V: Overcoming the Vocabulary Bottleneck in
Multilingual Masked Language Models
В статье поднимается следующая проблема: языковые модели увеличиваются в параметрах, растут в глубину, но словарь по размеру все тот же. Например у модели mT5 13B параметров, но размер словаря всего 250К, что еще и охватывает 100+ языков. Таким образом это примерно 2500 уникальных токенов на язык, что очевидно довольно мало.
Что решают сделать авторы? Неожиданно, ноначинают обучать новую модель с 1м токенов в словаре . Был XLM-R, ну а с таким апгрейдром станет XLM-V
Что используют нового в XLM-V, чего не было в XLM-R?
💓 💓 💓 Строят вектора лексических представлений для каждого языка следующим образом (используют подход Improving Multilingual Models with Language-Clustered Vocabularies): для каждого языка в множестве языков, они составляют бинарный вектор, каждый элемент которого это определенное слово в языке. 1 означает, что слово присутсвует в словаре этого языка. (можно посмотреть во вложениях рисуночек с графическим объяснением). Но авторы совершенствуют способ, на который идет ссылка, за счет постороения вектора с помощью отрицательной логарифмической вероятности появления каждой лексемы.
💓 💓 💓 Затем вектора кластеризуются. И на каждом отдельном кластере обучается sentencepiece model, для того, чтобы предотвратить обмен словарным запасом между лексически несхожими языками.
💓 💓 💓 С помощью ALP (средней логарифмической вероятности) оценивают способность словаря представлять конкретный язык. (скрин с формулкой из статьи во вложениях)
Следующим шагом используют алгоритм для посторонних словарей ULM. Который начинает с большого исходного словаря, который итеративно обрезается, пока количество лексем не упадет ниже заранее определенного порога размера словаря.
Полюбоваться апгрейдом скора можно во вложениях :)
Multilingual Masked Language Models
В статье поднимается следующая проблема: языковые модели увеличиваются в параметрах, растут в глубину, но словарь по размеру все тот же. Например у модели mT5 13B параметров, но размер словаря всего 250К, что еще и охватывает 100+ языков. Таким образом это примерно 2500 уникальных токенов на язык, что очевидно довольно мало.
Что решают сделать авторы? Неожиданно, но
Что используют нового в XLM-V, чего не было в XLM-R?
Следующим шагом используют алгоритм для посторонних словарей ULM. Который начинает с большого исходного словаря, который итеративно обрезается, пока количество лексем не упадет ниже заранее определенного порога размера словаря.
Полюбоваться апгрейдом скора можно во вложениях :)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17
Московские мигранты в Нью-Йорке: пук пук крыска в метро, бомжик нассал.
Московские мигранты в Лондоне: у нас в отделе ввели коэффициент найма на количество зарезанных людей, кстати у меня тут мешки черные, помоги вынести пожалуйста.
Московские мигранты в Лондоне: у нас в отделе ввели коэффициент найма на количество зарезанных людей, кстати у меня тут мешки черные, помоги вынести пожалуйста.
🔥33😁14🤨4🤣2👍1
ты готов купить дорогую видеокарту, а готов ли ты купить дорогой роутер?
😱31❤8😢2😈2
Входит, значит Сергей Брин в Ларри Пейджа и говорит:
- Ларри, гляди, Майкрософт в свои сетки в поисковик сделали!
- Что, правда?!?!
- Нее, мне просто нравится, когда ты очко сжимаешь)))
Презентация LLM поисковика от гугл будет сегодня, по этой ссылке
- Что, правда?!?!
- Нее, мне просто нравится, когда ты очко сжимаешь)))
Презентация LLM поисковика от гугл будет сегодня, по этой ссылке
Engadget
Google's February 8th event will focus on 'Search, Maps and beyond'
Google has announced that it's holding an event next week called Live from Paris that will be all about "Search, Maps and beyond."
🤣50👍7🤡5🍓5👌2
Love. Death. Transformers.
Входит, значит Сергей Брин в Ларри Пейджа и говорит: - Ларри, гляди, Майкрософт в свои сетки в поисковик сделали! - Что, правда?!?! - Нее, мне просто нравится, когда ты очко сжимаешь))) Презентация LLM поисковика от гугл будет сегодня, по этой ссылке
YouTube
Google presents : Live from Paris
We're reimagining how people search for, explore and interact with information, making it more natural and intuitive than ever before to find what you need. Join us to learn how we're opening up greater access to information for people everywhere, through…
Love. Death. Transformers.
Смотрим, любуемся, анекдоты будут позже Трансляция
Обновляемый пост с анекдотами
🔥27🤣4👍1
подписчики притащили поисковик по архиву который я раньше не видел, и он 💫 п р е к р а с е н💫
arxivxplorer.com
@lovedeathtransformers
arxivxplorer.com
@lovedeathtransformers
Please open Telegram to view this post
VIEW IN TELEGRAM
❤46
Прекрасная академия будущего с гитом и логированием симуляциями для учёных всех мастей, все статьи выходят в виде обновляемых постов, ревьювит их антиплагиат + кто хочет, а рейтинг статьи определяется по весу оценок.
😈32🍓8🤡4👍3🙏1