Градиент обреченный
7.97K subscribers
835 photos
20 videos
8 files
454 links
Download Telegram
Forwarded from Lingtrain
🔺 Обновление Lingtrain

Всем привет! Добавил важный функционал в наш выравниватель (что это такое).

🔁 Экспорт и импорт

Теперь выравнивание, в том числе и незаконченное, можно скачать в .lt формате и загрузить его на вкладке Alignments. После загрузки можно будет продолжать с ним работать, править и т.д. Таким образом, если кто-то выравнивал текст и в нем остались ошибки, то можно будет загрузить выравнивание в Lingtrain и подредактировать его.

🚀 beta.lingtra.in

Какое-то время назад поднимал тестовую версию выравнивателя для русского и английского языков (там модель rubert-tiny). Прошляпил момент, когда на аккаунте закончились деньги и его удалили 🤷‍♂️

Поднял новый сервер и настроил нормальный адрес, там сейчас последняя версия с той же tiny моделью. Поддерживаются английский и русский языки.

http://beta.lingtra.in

🐳 Docker

Образы для локального запуска:

• lingtrain/studio:v8.4 (50+ языков)
• lingtrain/studio:v8.4-labse (100+ языков)
• lingtrain/studio:v8.4-tiny (ru-en)

Запускается все как раньше (инструкция).

👉 GitHub
🔥13👍53🤗1
#dataset #emnlp2022

🔺 Crossmodal-3600

Смотрю тут статьи с прошедшего EMNLP и наткнулся на релиз мультимодального датасета от Google. Это 3600 картинок с подписями (ручная разметка) на 36 языках. Подписей очень много — 261 375, в среднем по 2 аннотации на каждом языке для каждой картинки.

〰️ Языки

Взяли 31 распространенный язык + 5 малоресурсных (но с большим числом говорящих). Вот список:

Arabic, Bengali, Chinese, Croatian, Cusco, Quechua, Czech, Danish, Dutch, English, Filipino, Finnish, French, German, Greek, Hebrew, Hindi, Hungarian, Indonesian, Italian, Japanese, Korean, Maori, Norwegian, Persian, Polish, Portuguese, Romanian, Russian, Spanish, Swahili, Swedish, Telugu, Thai, Turkish, Ukrainian, Vietnamese

Используют как бенчмарк для своих мультиязычных моделей типа image captioning и image retrieval. Заявляют, что сильно коррелирует с человеческой оценкой.


👉 Paper | Скачать | Поиск по датасету
👍4🔥31🤓1
🔺 Друзья, написал статью про создание параллельного корпуса на 10 языках при помощи моего маленького проекта во выравниванию.

На выходе получается корпус Woland-10, про который писал и про который многие спрашивали.
🔥17👍52❤‍🔥1👏1😁1🎉1
🔺 TAPE

Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.

〰️ Что это?

Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.

〰️ Устойчивость к шуму

В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).

👉 Хабр | GitHub | HF
🔥17👍621🤗1
🗿 Сходил на выставку "Всеобщий язык" в Пушкинском. Кто интересуется различными видами письменностей, очень рекомендую. Их там такое количество, что глаза разбегаются.

Есть деревянные дощечки с острова Пасхи с надписями ронго-ронго, есть тысячелетние камни с клинописью, ацтекские кодексы, берестяные грамоты и много всего.

Единственное, что, на мой взгляд, освещение там немного тусклое. Хотя может так и надо.
👍25🔥9❤‍🔥311
#visualization

🔸 Люблю такие красивые и понятные визуализации. Видно, насколько централизована страна в плане населения (сравните Францию и Италию).

Нашел тут, автор периодически рисует новые страны.
👍26❤‍🔥7🔥7🤩1
🔺 Торрент-LM от BigScience

Инициатива от BigScience (коллаборация исследователей, которая сделала Bloom и делает BigСode).

Позволяет всем миром запускать и тюнить (!) Bloom 176B под свои задачи. Называется Petals 🌼.

Зачем?

Запуск 175B модели требует около 350 GB GPU и еще больше при дообучении. А чтобы запустить инференс модели при помощи Petals, нужно иметь 12GB оперативки под эмбеддинги (3.6B параметров) и еще сколько-то, если хотите сделать fine-tuning.

Дообучение происходит в режиме prompt tuning'а или при помощи слоев-адаптеров. В этом случае мы обучаем только малую часть параметров, которую храним у себя, все остальные веса распределены по Petals серверам (В 8 bit режиме модель режется на 22 куска, и требуется минимум 22 сервера, чтобы поднять модель).

Можно задонатить свою GPU, запустив Petals сервер у себя. Понадобится 16 GB RAM и 8 GB GPU.

Попробовать можно в Colab'e.

👉 Colab | GitHub | Paper
🔥11👍3❤‍🔥2😁2🤗2
❄️ 2023

Похоже, что ChatGPT отбирает работу у составителей поздравлений со словом пупырка.

〰️ Друзья, будьте собой и всё у вас получится!
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉358🤗3😁2👍1💯1🍾1
🔺 Делаю книжку-трансформер

👉 Посмотреть можно здесь

Идея в том, чтобы после выравнивания нескольких текстов (2 и более) Lingtrain'ом можно было бы собирать веб-книжку, которую можно разместить на github pages (просто скопировать файлики) и читать откуда угодно + пользоваться дополнительным функционалом — компоновать в одну/две колонки, менять подсветку, размер шрифтов, языки, и т.д.

Делаю на примере "Мастера и Маргариты".

〰️ Добавил:

• Тексты на 10 языках
• Новые виды разметки (переключатель layout):

1️⃣ В одну колонку с чередованием абзацев
2️⃣ В одну колонку с чередованием предложений
3️⃣ Можно скрыть один из текстов и читать только нужный

• Новые виды подсветки (переключатель prompt):

1️⃣ Подчеркивание соответствующих предложений
2️⃣ Цветовое выделение

• Увеличил размеры шрифта
• Настройки запоминаются и хранятся в браузере

Проект открытый, ваши идеи и любой фидбек приветствуются! 🚀

👉 GitHub | Habr
🔥27👍822🤓1