Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
2.16K subscribers
100 photos
114 videos
173 links
Все самое полезное про нейросети для звука: транскрибации, синтеза речи и музыки.

Список наших каналов: https://t.me/proglibrary/9197
Учиться у нас: https://proglib.io/w/3cd20c23

Обратная связь: @proglibrary_feedback_bot

По рекламе: @proglib_adv
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Нейросеть теперь может утащить любой голос.
Все просто:
включаем микрофон и общаемся с ботом, пока он считывает все параметры вашего голоса. Работает пока с английским.

Попробовать можно тут

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Whisper Timestamped — распознавание речи в браузере с временными метками!

Загружаете видео и получаете транскрипцию с временными метками. Работает быстро и не ошибается.

#новости_нейрозвук
🤖💼 ТОП-6 самых высокооплачиваемых профессий в сфере ИИ

Forbes опубликовал список самых высокооплачиваемых профессий в сфере ИИ. Рассказываем, какие профессии лидируют и какие навыки требуются.

Зарплаты указаны для западного рынка.

👉 Читать подробности в статье
Nvidia выпустили универсальный нейронный вокодер BigVGAN, который генерирует аудио, используя спектрограммы.

Исправления и дополнения:

💩 Предоставляется объединенное ядро с повышающей дискретизацией и активацией, написанное на CUDA, для ускорения логического вывода. Тест показал увеличение скорости в 1,5 - 3 раза на одном графическом процессоре A100.
💩 BigVGAN-v2 обучается с использованием многомасштабного поддиапазонного дискриминатора CQT и многомасштабной спектрограммы mel потерь.
💩 BigVGAN-v2 обучается с использованием наборов данных, содержащих различные типы аудиозаписей, включая речь на нескольких языках, звуки окружающей среды и инструменты.

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
Silero TTS — преобразование текста в речь.

Большинство моделей из текста в речь «TTS», не работают с русским языком и чаще всего очень плохо. С этим софтом не нужен GPU, скорость генерации быстрая. Можно ставить ударения и паузы. Голос немного роботизированный.

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Merlin birds

ИИ умеет распознавать более 10 тысяч птичьих "голосов".

Сетка записывает звуки, производит обработку, и на выходе получаем спектрограмму, основываясь на которой, определяет вид птиц.

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Сервис для точного перевода аудио и видео в текст прямо в браузере

Yescribe.ai — профессиональный сервис с точностью 99,9%. Поможет законспектировать совещание и перевести на другой язык, и не бояться за корректность преобразования аудио или видео в текст

Есть 3 режима транскрибирования:
быстрый, cбалансированный и точный.

Бесплатно можно загрузить 3 файла в день по 30 минут. Помимо транскрипции, есть краткое изложение в письменном видео о чем это аудио, так же сразу доступен пересказ поконкретнее. Транскрипцию можно скачать в pdf, docx, txt, можно скачать аудио из своего видео. Убрать и добавить временные метки.

Сервис поддерживает 98 языков, включая русский.

Сами аудио и видео файлы можно сбросить в MP3, MP4, M4A, MOV, AAC, WAV, OGG, OPUS, MPEG, WMA, WMV.

За 10 $/мес поддерживают загрузку файлов продолжительностью до 5 часов, в день доступно 10 файлов по 5 часов.

#новости_нейрозвук