Love. Death. Transformers.

Forwarded from Пресидский залив (Nadia ズエバ)

😧 Девочка: ищет в инстраграме бывшую своего парня
😎 Женщина: ищет через scholar диссер разработчика Adobe, чтобы узнать архитектуру

🚀 Нашла бесплатную тулзу studio speech enhancement от adobe research и она реально классно работает. Если посмотреть на мелспеки, то видно, что звук стал глубже и фоновых шумов действительно стало меньше.

Модель отрабатывает достаточно долго и точно не годится для рилтайма — значит скорее всего внутри что-то рекуррентное и довольно крупное. Мне стало интересно раскопать, что именно.

Достаточно быстро я нашла на скаляре, что статей со словами studio/adobe/enhancement за 2021+ год не особо много и везде фигурировала Jiaqi Su — PhD из Принстона с этой же темой диссера из adobe research, дальше среди ее недавних работ выделилась и статья с IEEE воркшопа, которая, скорее всего, и является основой технологии

🧩 В чем суть архитектуры?
Внутри wav2wav Hifi-GAN-2. Авторы выделили три критерия "студийности" и их улучшают: зашумленность, реверберация и балансировка эквалайзера. В архитектуре выделяются три компоненты:

1. RNN, которая предсказывает по raw signal (инпут по дефолту 16kHz) MFCC фичи для чистого сигнала
2. WaveNet, который берет на вход raw signal и предсказанные MFCC фичи из первой сетки и предсказывает raw signal в 16kHz
3. Апсемплер в 48 kHz

Данные генерили традиционно — портили хорошие через доступные шумы и скрипты из DAPS/ACE Challenge/etc. В начале статьи авторы вспоминают модели постарше вроде DEMUCS, PoCoNet, обученные на шумах и датасетах из DNS Challenge, где многие данные в 16kHz и что студийки там при всем желании не получится 🙃

Отличие от оригинального Hifi-GANа заключается как раз в первом пункте — сетке, которая считает акустические фичи по шумному инпуту. По мнению авторов, эта модификация значительно улучшает качество звука на выходе.
Большой минус архитектуры — скорость работы, много пространства для оптимизаций ~~господа-студенты, ловите тему для диплома~~
В статье супер много примеров и схем, так что рекомендую ознакомиться 🤓

🔥31👍12

3.46K views17:00