Forwarded from asisakov
Рашифровка аудио с Whisper
Всех приветствую! Возможно, каждый из вас сталкивался с небольшой проблемой, когда хочется сделать транскрибацию часового аудио или видео и перенести все это в текст и не хочется тратить много времени на прослушивание даже на x2 и конспектировании.
К счастью, все придумано уже до нас. Нам остается лишь правильно это применить.
Расчехляем гугл colab и подгружаем GPU.
В первую ячейку вписываем небольшой костыль:
Далее подгружаем Whisper и ставим ffmpeg
В файлы загружаем необходимую для расшифровки аудиодорожку и далее просто запускаем модель
После --model мы видим, что в принципе можно применять разные модели. По желанию вы можете даже попробовать версию v3 или применить другие модели, например tiny, base, small, medium. Подробнее тут.
Если вы хотите загрузить аудио из интернетов, то допустим это можно сделать следующим образом (может меняться от кейса к кейсу, поэтому просто погуглите)
Либо если вы хотите расшифровать это видео, грузим его вот так, а потом снова применяем whisper
Результат расшифровки сохранится у вас в той же папочке.
Несколько минут - и вам не нужно слушать весь текст. А если файл большой, то можно другой сеточкой сделать суммаризацию (ну и вообще это сейчас можно делать прямо в браузере).
Надеюсь, было полезно. Кидайте в коменты модели (с кодом!), которые можно было бы применить для решения этой задачи.
Подробнее тут, тут и тут.
#dl #audio
Всех приветствую! Возможно, каждый из вас сталкивался с небольшой проблемой, когда хочется сделать транскрибацию часового аудио или видео и перенести все это в текст и не хочется тратить много времени на прослушивание даже на x2 и конспектировании.
К счастью, все придумано уже до нас. Нам остается лишь правильно это применить.
Расчехляем гугл colab и подгружаем GPU.
В первую ячейку вписываем небольшой костыль:
import locale
def getpreferredencoding(do_setlocale = True):
return "UTF-8"
locale.getpreferredencoding = getpreferredencoding
Далее подгружаем Whisper и ставим ffmpeg
!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
В файлы загружаем необходимую для расшифровки аудиодорожку и далее просто запускаем модель
!whisper "audio1891746601.m4a" --model large-v2
После --model мы видим, что в принципе можно применять разные модели. По желанию вы можете даже попробовать версию v3 или применить другие модели, например tiny, base, small, medium. Подробнее тут.
Если вы хотите загрузить аудио из интернетов, то допустим это можно сделать следующим образом (может меняться от кейса к кейсу, поэтому просто погуглите)
!wget -c -A '*.mp3' -r -l 1 -nd http://example.org/musics/
Либо если вы хотите расшифровать это видео, грузим его вот так, а потом снова применяем whisper
pip install yt-dlp
yt-dlp -x --audio-format mp3 -o use_whisper.mp3 -- 8SQV-B83tPU
!whisper "use_whisper.mp3" --model large-v3
Результат расшифровки сохранится у вас в той же папочке.
Несколько минут - и вам не нужно слушать весь текст. А если файл большой, то можно другой сеточкой сделать суммаризацию (ну и вообще это сейчас можно делать прямо в браузере).
Надеюсь, было полезно. Кидайте в коменты модели (с кодом!), которые можно было бы применить для решения этой задачи.
Подробнее тут, тут и тут.
#dl #audio
GitHub
GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
Robust Speech Recognition via Large-Scale Weak Supervision - openai/whisper
#fuggato #nvidia #audio #sound #voice
Демка впечатляет. Последний пример с лаем на фоне электронной музыки напомнил alors on dance )
https://3dnews.ru/1114531/nvidia-predstavila-novuyu-iimodel-fugatto-kotoraya-ponimaet-i-generiruet-zvuk-kak-eto-delayut-lyudi
Демка впечатляет. Последний пример с лаем на фоне электронной музыки напомнил alors on dance )
https://3dnews.ru/1114531/nvidia-predstavila-novuyu-iimodel-fugatto-kotoraya-ponimaet-i-generiruet-zvuk-kak-eto-delayut-lyudi
YouTube
Audio AI Fugatto Generates Sound from Text | NVIDIA Research
While some AI models can compose a song or modify a voice, none have the dexterity of the new offering, from #NVIDIAResearch.
Fugatto (short for Foundational Generative Audio Transformer Opus 1), generates or transforms any mix of music, voices and sounds…
Fugatto (short for Foundational Generative Audio Transformer Opus 1), generates or transforms any mix of music, voices and sounds…