Forwarded from Пресидский залив (Nadia ズエバ)
😧 Девочка: ищет в инстраграме бывшую своего парня
😎 Женщина: ищет через scholar диссер разработчика Adobe, чтобы узнать архитектуру
🚀 Нашла бесплатную тулзу studio speech enhancement от adobe research и она реально классно работает. Если посмотреть на мелспеки, то видно, что звук стал глубже и фоновых шумов действительно стало меньше.
Модель отрабатывает достаточно долго и точно не годится для рилтайма — значит скорее всего внутри что-то рекуррентное и довольно крупное. Мне стало интересно раскопать, что именно.
Достаточно быстро я нашла на скаляре, что статей со словами studio/adobe/enhancement за 2021+ год не особо много и везде фигурировала Jiaqi Su — PhD из Принстона с этой же темой диссера из adobe research, дальше среди ее недавних работ выделилась и статья с IEEE воркшопа, которая, скорее всего, и является основой технологии
🧩 В чем суть архитектуры?
Внутри wav2wav Hifi-GAN-2. Авторы выделили три критерия "студийности" и их улучшают: зашумленность, реверберация и балансировка эквалайзера. В архитектуре выделяются три компоненты:
1. RNN, которая предсказывает по raw signal (инпут по дефолту 16kHz) MFCC фичи для чистого сигнала
2. WaveNet, который берет на вход raw signal и предсказанные MFCC фичи из первой сетки и предсказывает raw signal в 16kHz
3. Апсемплер в 48 kHz
Данные генерили традиционно — портили хорошие через доступные шумы и скрипты из DAPS/ACE Challenge/etc. В начале статьи авторы вспоминают модели постарше вроде DEMUCS, PoCoNet, обученные на шумах и датасетах из DNS Challenge, где многие данные в 16kHz и что студийки там при всем желании не получится 🙃
Отличие от оригинального Hifi-GANа заключается как раз в первом пункте — сетке, которая считает акустические фичи по шумному инпуту. По мнению авторов, эта модификация значительно улучшает качество звука на выходе.
Большой минус архитектуры — скорость работы, много пространства для оптимизацийгоспода-студенты, ловите тему для диплома
В статье супер много примеров и схем, так что рекомендую ознакомиться 🤓
😎 Женщина: ищет через scholar диссер разработчика Adobe, чтобы узнать архитектуру
🚀 Нашла бесплатную тулзу studio speech enhancement от adobe research и она реально классно работает. Если посмотреть на мелспеки, то видно, что звук стал глубже и фоновых шумов действительно стало меньше.
Модель отрабатывает достаточно долго и точно не годится для рилтайма — значит скорее всего внутри что-то рекуррентное и довольно крупное. Мне стало интересно раскопать, что именно.
Достаточно быстро я нашла на скаляре, что статей со словами studio/adobe/enhancement за 2021+ год не особо много и везде фигурировала Jiaqi Su — PhD из Принстона с этой же темой диссера из adobe research, дальше среди ее недавних работ выделилась и статья с IEEE воркшопа, которая, скорее всего, и является основой технологии
🧩 В чем суть архитектуры?
Внутри wav2wav Hifi-GAN-2. Авторы выделили три критерия "студийности" и их улучшают: зашумленность, реверберация и балансировка эквалайзера. В архитектуре выделяются три компоненты:
1. RNN, которая предсказывает по raw signal (инпут по дефолту 16kHz) MFCC фичи для чистого сигнала
2. WaveNet, который берет на вход raw signal и предсказанные MFCC фичи из первой сетки и предсказывает raw signal в 16kHz
3. Апсемплер в 48 kHz
Данные генерили традиционно — портили хорошие через доступные шумы и скрипты из DAPS/ACE Challenge/etc. В начале статьи авторы вспоминают модели постарше вроде DEMUCS, PoCoNet, обученные на шумах и датасетах из DNS Challenge, где многие данные в 16kHz и что студийки там при всем желании не получится 🙃
Отличие от оригинального Hifi-GANа заключается как раз в первом пункте — сетке, которая считает акустические фичи по шумному инпуту. По мнению авторов, эта модификация значительно улучшает качество звука на выходе.
Большой минус архитектуры — скорость работы, много пространства для оптимизаций
🔥31👍12
Кажется next big thing будет auto negative prompt внутри картинко_генерации, причем он будет прикручен к classifier free guidence на уровне эмебедингов, те его не надо будет прописывать ручками
🤔15🤨9👎2👌2👍1
LoRA: Low-Rank Adaptation of Large Language Models или как ее сунуть то
есть такая эвристика - оптимайзер модели без хаков занимает в 4 раза больше памяти чем сама модель. Тут открывается простор для оптимизаций: перенос оптимайзера на cpu, заморозка модели fp16 и fp8 и все это требует некоторой интелектуальной нагрузки чтобы аккуратно все обучилось и взорвалось.
Но есть путь проще - адаптеры, идея такая: давайте в attention разложи Wqkv на Wk и Wv что дает выигрышь в 4 раза
github
paper
Не так давно тоже самое сделали для SD, тюн/dreamboth влезает в 12гб карты с adamw 32bit
github
есть такая эвристика - оптимайзер модели без хаков занимает в 4 раза больше памяти чем сама модель. Тут открывается простор для оптимизаций: перенос оптимайзера на cpu, заморозка модели fp16 и fp8 и все это требует некоторой интелектуальной нагрузки чтобы аккуратно все обучилось и взорвалось.
Но есть путь проще - адаптеры, идея такая: давайте в attention разложи Wqkv на Wk и Wv что дает выигрышь в 4 раза
github
paper
Не так давно тоже самое сделали для SD, тюн/dreamboth влезает в 12гб карты с adamw 32bit
github
👍10
Шел третий год с выхода JAX 1.0, авторы наконец выложили лекцию на youtube
YouTube
What is JAX?
JAX is a high performance numerical computing framework that brings together differentiation to Python code (Autograd) and Accelerated Linear Algebra (XLA) that compiles to low level, high performing code on accelerators, such as GPUs and TPUS. In this video…
😈15👍5
не пишите код вала без батчинга пацаны, вам гпу минуты еще нужны...
👍16😐7
Babenko_M._Vvedenie_v_teoriyu_algoritmov_i_struktur_dannykh.pdf
1.1 MB
В руки попала топавая шадовая книжка по алгосам, го ботат
🔥64🤯4🌭3🤡2
Обновил anime diffusion, чекпоинт 65/290, выкинул обоссаный стебль и взял божественный vintedois-diffusion , cкоро выложу обнову VAE
🙏19💩6🤡4👍2🤮2🔥1
зато текст с первого раза понимает, это вам на претрейне не тупо clip.hidden_states[-1] совать!!
huggingface
huggingface
🔥14👍2