Love. Death. Transformers.

Куплю ваши видеокарты от 11гб памяти в мск, не майнинг

😁45

3.61K views14:28

Вообще хз чо так дрочат на RLHF - имхо залупа из конца 10хх которую сложно обогнать без кучи данных и экспрементиров, отставание опенсурса сильно больше полугода и в лоб обогнать не получится. Ну и да, опенсурс модели кажется сами по себе сильно хуже closed…

Ещё тема для дискас: хорошая модель с хорошим сетом будет работать не хуже чем хайповое RLHF, сила cgpt не в PPO, а в сете

🔥12👎6💩3🤡2

3.62K views15:32

Love. Death. Transformers.

Forwarded from что-то на DL-ском

XLM-V: Overcoming the Vocabulary Bottleneck in
Multilingual Masked Language Models

В статье поднимается следующая проблема: языковые модели увеличиваются в параметрах, растут в глубину, но словарь по размеру все тот же. Например у модели mT5 13B параметров, но размер словаря всего 250К, что еще и охватывает 100+ языков. Таким образом это примерно 2500 уникальных токенов на язык, что очевидно довольно мало.

Что решают сделать авторы? Неожиданно, но начинают обучать новую модель с 1м токенов в словаре. Был XLM-R, ну а с таким апгрейдром станет XLM-V

Что используют нового в XLM-V, чего не было в XLM-R?

💓

💓Строят вектора лексических представлений для каждого языка следующим образом (используют подход Improving Multilingual Models with Language-Clustered Vocabularies): для каждого языка в множестве языков, они составляют бинарный вектор, каждый элемент которого это определенное слово в языке. 1 означает, что слово присутсвует в словаре этого языка. (можно посмотреть во вложениях рисуночек с графическим объяснением). Но авторы совершенствуют способ, на который идет ссылка, за счет постороения вектора с помощью отрицательной логарифмической вероятности появления каждой лексемы.

💓

💓Затем вектора кластеризуются. И на каждом отдельном кластере обучается sentencepiece model, для того, чтобы предотвратить обмен словарным запасом между лексически несхожими языками.

💓

💓С помощью ALP (средней логарифмической вероятности) оценивают способность словаря представлять конкретный язык. (скрин с формулкой из статьи во вложениях)

Следующим шагом используют алгоритм для посторонних словарей ULM. Который начинает с большого исходного словаря, который итеративно обрезается, пока количество лексем не упадет ниже заранее определенного порога размера словаря.

Полюбоваться апгрейдом скора можно во вложениях :)

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17

3.79K views17:41

Love. Death. Transformers.

Московские мигранты в Нью-Йорке: пук пук крыска в метро, бомжик нассал.

Московские мигранты в Лондоне: у нас в отделе ввели коэффициент найма на количество зарезанных людей, кстати у меня тут мешки черные, помоги вынести пожалуйста.

🔥33😁14🤨4🤣2👍1

3.9K views21:54

Love. Death. Transformers.

F яндекс

🤔50😢13🌚5🍾5👍1💯1

3.68K views14:18

Love. Death. Transformers.

👍83🤣40😁7😢4😈3❤‍🔥1

3.9K views09:28

Love. Death. Transformers.

🔥54😁17💩3🍌3👍1

4.15K views11:34