Forwarded from Kali Novskaya (Tatiana Shavrina)
#про_nlp #nlp #синтез_речи #история_nlp
Хотела вам что-то рассказать образовательное, но настроение слишком несерьезное.
Поэтому сегодня будет пост про моё любимое нецелевое использование речевых технологий — пупы.
Муд утра: RYTP Morrowind
https://youtu.be/xQMLg0VEm2cRYTP
"Там же нет никакого text to speech", — могли бы сказать вы. Но нет, старый синтез речи так и выглядел по сути.
Еще в 2000-х акустический синтез речи осуществлялся двумя способами:
1) либо в виде формантного синтеза по правилам,
2) либо в виде конкатенативного синтеза — и опять с элементами правил.
Последний тип еще называется компилятивным синтезом и состоит в том, чтобы собрать и аккуратно склеить уже готовые акустические образцы речи диктора, которые в совокупности покрывают все акустически значимые типы коартикуляционного взаимодействия звуковых единиц.
Использовались обычно такие типы акустических образцов:
- дифоны (отрезки, которые начинаются в середине одного звука и заканчиваются в середине другого),
- полуслоги,
- слоги,
- фрагменты фонемной размерности (акустические аллофоны)
- и образцы смешанных типов.
Во всех кусочках обязательно сохраняются переходные участки, на которых происходит акустическое взаимодействие звуков.
После склеивания полученная "акустическая основа" подвергается обработке на правилах, чтобы выровнять частоту основного тона, длительность и энергию в склеенных фрагментах. (В пупах этого этапа как раз не происходит, что вы можете наблюдать, слушая обрывистую речь, для которой нужны субтитры. Хотя я выбираю ей наслаждаться)
Такой способ синтеза речи активно использовался довольно долго, и даже породил новые инженерные задачи:
1) какие минимальные кусочки необходимо включать в базу для получения естественного "склеивания"
2) как правилами производить просодическую модификацию и склейку с наименьшими потерями для естественности синтезированной речи.
А как сейчас?
Как обычно бывает, первая проблемапотерялась вылечилась удешевлением мощностей и дискового пространства, а вторая сломалась вылечилась deep learning.
📖Если тема старого синтеза вам интересна, могу посоветовать учебник "Общая фонетика" С.В. Кодзасов, О.Ф. Кривнова. Вот, например, глава из него.
В нем много интересного о том, как был устроен синтез речи в СССР и технологии 2000х для русского языка.
Все, серьезная часть закончилась, присылайте в комменты свои любимые пупы!
Хотела вам что-то рассказать образовательное, но настроение слишком несерьезное.
Поэтому сегодня будет пост про моё любимое нецелевое использование речевых технологий — пупы.
Муд утра: RYTP Morrowind
https://youtu.be/xQMLg0VEm2cRYTP
"Там же нет никакого text to speech", — могли бы сказать вы. Но нет, старый синтез речи так и выглядел по сути.
Еще в 2000-х акустический синтез речи осуществлялся двумя способами:
1) либо в виде формантного синтеза по правилам,
2) либо в виде конкатенативного синтеза — и опять с элементами правил.
Последний тип еще называется компилятивным синтезом и состоит в том, чтобы собрать и аккуратно склеить уже готовые акустические образцы речи диктора, которые в совокупности покрывают все акустически значимые типы коартикуляционного взаимодействия звуковых единиц.
Использовались обычно такие типы акустических образцов:
- дифоны (отрезки, которые начинаются в середине одного звука и заканчиваются в середине другого),
- полуслоги,
- слоги,
- фрагменты фонемной размерности (акустические аллофоны)
- и образцы смешанных типов.
Во всех кусочках обязательно сохраняются переходные участки, на которых происходит акустическое взаимодействие звуков.
После склеивания полученная "акустическая основа" подвергается обработке на правилах, чтобы выровнять частоту основного тона, длительность и энергию в склеенных фрагментах. (В пупах этого этапа как раз не происходит, что вы можете наблюдать, слушая обрывистую речь, для которой нужны субтитры. Хотя я выбираю ей наслаждаться)
Такой способ синтеза речи активно использовался довольно долго, и даже породил новые инженерные задачи:
1) какие минимальные кусочки необходимо включать в базу для получения естественного "склеивания"
2) как правилами производить просодическую модификацию и склейку с наименьшими потерями для естественности синтезированной речи.
А как сейчас?
Как обычно бывает, первая проблема
📖Если тема старого синтеза вам интересна, могу посоветовать учебник "Общая фонетика" С.В. Кодзасов, О.Ф. Кривнова. Вот, например, глава из него.
В нем много интересного о том, как был устроен синтез речи в СССР и технологии 2000х для русского языка.
Все, серьезная часть закончилась, присылайте в комменты свои любимые пупы!
YouTube
Прекрасный летний день | RYTP | Morrowind 18+
Давно хотел сделать пуп, а учитывая нашу с вами любовь к Морровинду, объединил это воедино.
"Истории старого клерка Сейда-нина всегда вызывали интерес у народа, как и в этот раз, события его рассказов иногда приобретают неожиданные повороты, порой задевая…
"Истории старого клерка Сейда-нина всегда вызывали интерес у народа, как и в этот раз, события его рассказов иногда приобретают неожиданные повороты, порой задевая…