Love. Death. Transformers.
22.5K subscribers
4.24K photos
498 videos
76 files
2.78K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Forwarded from Пресидский залив (Nadia ズエバ)
😧 Девочка: ищет в инстраграме бывшую своего парня
😎 Женщина: ищет через scholar диссер разработчика Adobe, чтобы узнать архитектуру

🚀 Нашла бесплатную
тулзу studio speech enhancement от adobe research и она реально классно работает. Если посмотреть на мелспеки, то видно, что звук стал глубже и фоновых шумов действительно стало меньше.

Модель отрабатывает достаточно долго и точно не годится для рилтайма — значит скорее всего внутри что-то рекуррентное и довольно крупное. Мне стало интересно раскопать, что именно.

Достаточно быстро я нашла на скаляре, что статей со словами studio/adobe/enhancement за 2021+ год не особо много и везде фигурировала Jiaqi Su — PhD из Принстона с этой же темой диссера из adobe research, дальше среди ее недавних работ выделилась и статья с IEEE воркшопа, которая, скорее всего, и является основой технологии

🧩 В чем суть архитектуры?
Внутри wav2wav Hifi-GAN-2. Авторы выделили три критерия "студийности" и их улучшают: зашумленность, реверберация и балансировка эквалайзера. В архитектуре выделяются три компоненты:

1. RNN, которая предсказывает по raw signal (инпут по дефолту 16kHz) MFCC фичи для чистого сигнала
2. WaveNet, который берет на вход raw signal и предсказанные MFCC фичи из первой сетки и предсказывает raw signal в 16kHz
3. Апсемплер в 48 kHz

Данные генерили традиционно — портили хорошие через доступные шумы и скрипты из DAPS/ACE Challenge/etc. В начале статьи авторы вспоминают модели постарше вроде DEMUCS, PoCoNet, обученные на шумах и датасетах из DNS Challenge, где многие данные в 16kHz и что студийки там при всем желании не получится 🙃

Отличие от оригинального Hifi-GANа заключается как раз в первом пункте — сетке, которая считает акустические фичи по шумному инпуту. По мнению авторов, эта модификация значительно улучшает качество звука на выходе.
Большой минус архитектуры — скорость работы, много пространства для оптимизаций господа-студенты, ловите тему для диплома
В статье супер много примеров и схем, так что рекомендую ознакомиться 🤓
🔥31👍12
Кажется next big thing будет auto negative prompt внутри картинко_генерации, причем он будет прикручен к classifier free guidence на уровне эмебедингов, те его не надо будет прописывать ручками
🤔15🤨9👎2👌2👍1
уважающий себя итшник:
🍌25🤮8🌭8🍾7🤔1
Если б программисты строили бы дом

Когда взял энкодер с dim 2048, а unet с dim 768

Когда не синканул контракты ml с бэкэндом
😁29🤡6🍓2👍1🔥1
LoRA: Low-Rank Adaptation of Large Language Models или как ее сунуть то

есть такая эвристика - оптимайзер модели без хаков занимает в 4 раза больше памяти чем сама модель. Тут открывается простор для оптимизаций: перенос оптимайзера на cpu, заморозка модели fp16 и fp8 и все это требует некоторой интелектуальной нагрузки чтобы аккуратно все обучилось и взорвалось.

Но есть путь проще - адаптеры, идея такая: давайте в attention разложи Wqkv на Wk и Wv что дает выигрышь в 4 раза

github
paper

Не так давно тоже самое сделали для SD, тюн/dreamboth влезает в 12гб карты с adamw 32bit
github
👍10
не пишите код вала без батчинга пацаны, вам гпу минуты еще нужны...
👍16😐7
👍3
👍71🔥9😁9👎5
Babenko_M._Vvedenie_v_teoriyu_algoritmov_i_struktur_dannykh.pdf
1.1 MB
В руки попала топавая шадовая книжка по алгосам, го ботат
🔥64🤯4🌭3🤡2
Обновил anime diffusion, чекпоинт 65/290, выкинул обоссаный стебль и взял божественный vintedois-diffusion , cкоро выложу обнову VAE
🙏19💩6🤡4👍2🤮2🔥1
шакалы пришли и поели качество, хм
huggingface
13
зато текст с первого раза понимает, это вам на претрейне не тупо clip.hidden_states[-1] совать!!

huggingface
🔥14👍2
Админ канала принес очередной бесполезный тюн диффузии: подписчики на понимающие зачем...
😈28🤮6🤔4❤‍🔥3
🤔24🔥10😁3😈1
😁646🔥3
👍58🤣17💯12😁2😢2💋2
Как собаки должны носить платья?
👍9🤮5🤔4🔥3