Aspiring Data Science

Forwarded from asisakov

Рашифровка аудио с Whisper

Всех приветствую! Возможно, каждый из вас сталкивался с небольшой проблемой, когда хочется сделать транскрибацию часового аудио или видео и перенести все это в текст и не хочется тратить много времени на прослушивание даже на x2 и конспектировании.

К счастью, все придумано уже до нас. Нам остается лишь правильно это применить.
Расчехляем гугл colab и подгружаем GPU.

В первую ячейку вписываем небольшой костыль:

import locale
def getpreferredencoding(do_setlocale = True):
return "UTF-8"
locale.getpreferredencoding = getpreferredencoding

Далее подгружаем Whisper и ставим ffmpeg

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

В файлы загружаем необходимую для расшифровки аудиодорожку и далее просто запускаем модель

!whisper "audio1891746601.m4a" --model large-v2

После --model мы видим, что в принципе можно применять разные модели. По желанию вы можете даже попробовать версию v3 или применить другие модели, например tiny, base, small, medium. Подробнее тут.

Если вы хотите загрузить аудио из интернетов, то допустим это можно сделать следующим образом (может меняться от кейса к кейсу, поэтому просто погуглите)

!wget -c -A '*.mp3' -r -l 1 -nd http://example.org/musics/

Либо если вы хотите расшифровать это видео, грузим его вот так, а потом снова применяем whisper

pip install yt-dlp
yt-dlp -x --audio-format mp3 -o use_whisper.mp3 -- 8SQV-B83tPU

!whisper "use_whisper.mp3" --model large-v3

Результат расшифровки сохранится у вас в той же папочке.
Несколько минут - и вам не нужно слушать весь текст. А если файл большой, то можно другой сеточкой сделать суммаризацию (ну и вообще это сейчас можно делать прямо в браузере).

Надеюсь, было полезно. Кидайте в коменты модели (с кодом!), которые можно было бы применить для решения этой задачи.
Подробнее тут, тут и тут.

#dl #audio

GitHub

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

Robust Speech Recognition via Large-Scale Weak Supervision - openai/whisper

136 viewsAnatoly Alekseev, 18:49