Удмурт диджитал
614 subscribers
177 photos
23 files
61 links
Рассказываем о цифровизации удмуртского языка. Связаться с автором: @odomort
Обсуждение: @udmurtchat
VK: https://vk.com/udmurtdigital
Download Telegram
Представляем свежую подборку шрифтов, поддерживающих удмуртский язык!

1. «АР ЗОЖ». Широкий геометрический гротеск для заголовков. Поддерживает только кириллицу. Автор: Алиса Ровинская. Лицензия: SIL OFL;

2. «Seenonim». Ещё один стильный гротеск, поддерживающий более 80 языков. Автор: Маргарита Колмыкова. Лицензия: Freeware;

3. «Fliege Mono». Яркий, вариативный, моноширинный шрифт. Лучше всего подходит для интерфейсов и дизайна в tech-стиле. Автор: Павел Лаптев. Лицензия: SIL OFL;

4. «Horovod». Аккуратный шрифт, поддерживающий многие славянские и тюркские языки. Автор: Nata Georgiadi. Лицензия: Creative Commons.

Все шрифты бесплатны для персонального и коммерческого использования, поэтому свободно скачивайте и используйте в своих проектах!
132❤‍🔥5🥰2🔥1
Ко Дню языков народов России «Яндекс» представил масштабное обновление для своего Переводчика, добавив поддержку речевых технологий для удмуртского языка. С помощью нейросетевых технологий сервис теперь умеет не только переводить тексты, но и распознавать устную речь (ASR), а также реалистично озвучивать перевод (TTS). Удмуртский язык стал первым финно-угорским языком, который получил полноценную голосовую поддержку в сервисах Яндекса.

Что умеет обновлённый Переводчик:

1. Произносить слова и фразы: пользователи могут прослушать произношение удмуртских слов и их переводов на другие языки.

2. Общаться в диалоговом режиме: приложение позволяет вести беседу носителям разных языков. Можно задать вопрос вслух на русском, а услышать ответ на озвученном удмуртском переводе, и наоборот.

3. Расшифровывать устную речь: новая функция распознавания позволяет переводить в текст сказанное на удмуртском, избавляя от необходимости печатать.

В реализации проекта компании помогли эксперты УдмФИЦ УрО РАН, лингвисты и волонтёры, которые обеспечили необходимую языковую базу для обучения нейросетей.

Попробовать: https://translate.yandex.ru/
🔥37❤‍🔥118🤩4
О том, почему это важно и что будет дальше, мы поговорили с Андреем Михеевым, заместителем руководителя проекта компании Яндекс «Языки народов России».

1. Андрей, расскажите, почему именно удмуртский язык стал первым финно-угорским языком в Яндекс Переводчике, получившим функции синтеза и распознавания речи?

Обычно мы стараемся добавлять новые возможности для наиболее распространенных языков, но важным является еще встречная заинтересованность представителей региона или сообщества носителей, а также наличие открытых данных по языку. Потому что для разработки синтеза и особенно распознавания нам нужно решить много разных задач, требующих владения языком: проверить тексты, которые будет читать диктор или наговаривать обычные люди, собрать сами наговоры (100 тыс. фраз разными голосами и в разных условиях), проверить их, сделать разные разметки и оценки. Сделать это быстро и с нужным качеством можно только в тесном сотрудничестве с сообществом носителей языка.

2. Какую роль сыграло сотрудничество с УдмФИЦ УрО РАН и волонтёрами?

Как я уже сказал, для обучения моделей синтеза и распознавания нужно собрать большое количество данных, причем не только записи профессионального диктора, но и «наговоры» разными голосами, оценка, проверка, разметка. То есть, нужна группа носителей языка, готовых с нами работать и хорошо владеющих языком; найти таких самостоятельно, без партнера «на месте» — очень трудно. К счастью для удмуртского языка у нас такой партнер есть — мы уже около года плотно работаем с УдмФИЦ и по улучшению основной модели перевода, и по разработке новой функциональности. Коллеги не только помогают с привлечением людей с нужными компетенциями, но и делятся с нами корпусами текстов, которые нужны и для перевода, и для речевых технологий.

3. Как Вам удалось собрать и подготовить такой корпус данных для синтеза речи?

Мы привлекли профессионального диктора, которая более 100 часов провела в студии, записывая разные тексты и фразы под контролем специалиста по языку, который следил за произношением и интонацией. Кстати, и диктора, и специалиста помогли найти партнеры из УдмФИЦ. Кроме того, у нас был, также от партнеров, некоторый объем предварительных записей этого диктора в другой студии — мы не использовали их непосредственно в основной модели, но использовали для ее предварительного обучения и «разогрева».

4. Появятся ли подобные функции для других языков народов России в ближайшее время?

Мы обычно не рассказываем про планы, но раскроем, что активно ведем работу над аналогичными функциями для марийского языка. А если говорить в целом про проект по языкам России — у нас в разной степени готовности около десятка языков, среди которых и языки Кавказа, Крайнего Севера и Сибири.

5. Планируется ли интеграция голосового удмуртского интерфейса в другие продукты Яндекса — например, в «Алису»?

«Когда Алиса научится на моём языке?» — наверное, самый частый запрос, который мы слышим от представителей языковых сообществ. Но нужно понимать, что синтез и распознавание — это только «внешние проявления» взаимодействия с голосовым помощником; самое важное — чтобы голосовой помощник мог (желательно без «костылей» в виде перевода на русский или другой язык) отвечать на вопросы пользователя, выполнять какие-то функции (хотя бы включать музыку или ставить таймер). К сожалению, пока полноценная поддержка нового языка в виртуальном помощнике требует весьма дорогой и сложной разработки. Возможно, через несколько лет голосовые помощники на национальных языках получат распространение.

6. Это в первую очередь инструмент для сохранения языков или всё же коммерческий продукт для повышения удобства пользователей?

Мы будем рады, если в будущем языки, на которых говорят в России, будут так широко и активно использоваться, что их поддержка в интернет-сервисах будет представлять коммерческий интерес. Пока это очевидно не так. Поэтому мы воспринимаем весь проект по языкам народов России как исключительно социальную и некоммерческую историю, ориентированную на поддержку и сохранение языков, расширение их использования, в особенности среди молодёжи.
❤‍🔥40146🤩5
Чуть более года назад Аделина Шайдуллина выпустила небольшую публикацию, посвящённую становлению удмуртской кириллицы. Этот материал – хронология, отражающая то, как лингвистика и воля народа столкнулись в 1930-е годы, определив письменное будущее языка. Мы подготовили карточки, где собрали ключевые моменты, изложенные в статье.

Кому интересно погрузиться в детали – читайте оригинал по ссылке: https://type.today/ru/journal/udmurt
1❤‍🔥45🔥85
Удмуртский язык получил поддержку в моделях синтеза речи от Silero

Компания Silero, специализирующаяся на технологиях искусственного интеллекта, добавила поддержку удмуртского языка в свои модели синтеза речи (Text-to-Speech). Это стало частью масштабного обновления, охватившего 20 языков народов России и СНГ.

Разработчики создали полноценную TTS-модель, которая умеет преобразовывать удмуртский текст в естественно звучащую речь. Ключевой элемент работы — публикация алгоритма постановки ударений для удмуртского языка в рамках проекта silero-stress. Технология работает быстро и не требует мощного оборудования — модели оптимизированы для работы даже на обычных процессорах. Система поддерживает SSML (Speech Synthesis Markup Language) — язык разметки, позволяющий настраивать произношение, интонацию, скорость речи, добавлять паузы, делая звучание более выразительным.

Разработчики отмечают, что это пока базовая версия: если слова нет в словаре ударений, система определяет его алгоритмически. Работа с омографами (словами, которые пишутся одинаково, но имеют разное значение и ударение) ещё предстоит.

Попробовать синтез удмуртской речи и ознакомиться с технологией можно в репозитории проекта Silero.

Протестировать модель для озвучки текста можно здесь.

Суред: Елена Манохина

P. S. В боте Silero технология на момент написания поста не поддерживается.
22❤‍🔥8🔥5
Audio
Качество синтеза уже проверено на практике. Мы протестировали модель на стихотворении «Мон вал Америка пушкын...» из сборника «Ӝикъя Promo» поэта Богдана Анфиногенова, который принимал участие в озвучке обучающих данных для модели. По нашей оценке, результат звучит живо и понятно, но пока неидеально.
16❤‍🔥5🌚3😁2
Забавные фразы на удмуртском и где они обитают

Стартовал второй сезон подкаста «Дословно с удмуртского». Ежедневно короткие эпизоды знакомят слушателей с фразеологизмами и их значением.

Послушать можно «ВКонтакте»: vk.com/podcasts-143124542. Или на других площадках: taplink.cc/speakudmurt.

Продолжение проекта стало возможным благодаря финансовой поддержке Министерства национальной политики Удмуртии.
25❤‍🔥10🔥7
Программист Гриша Григорьев запустил Telegram-бот и сайт удмуртских медиаресурсов «Чӧлскон Куа». Проект представляет собой каталог онлайн-ресурсов, посвящённых удмуртскому языку и культуре.

В каталоге собраны медиапроекты разных форматов — от новостных до образовательных и культурных ресурсов.

В настоящее время в каталоге представлены следующие разделы:
— Новости и медиа;
— Книги и литература;
— Музыка;
— IT и инструменты;
— Видео и кино;
— Изучение языка.

По словам автора, база ресурсов будет регулярно обновляться и расширяться.

«Чӧлскон Куа» доступен в виде телеграм-бота и сайта:

ТГ-бот: t.me/udmurt_catalog_bot
Сайт: https://udmurt-catalog.ru/

Проект реализуется при поддержке Министерства национальной политики Удмуртии.

Суред: Коллекция НМУР, «Колхозлэн мушбакчаез», Ува ёрос, Выль Мултан 1936 г.
40❤‍🔥12👍4