Машинное обучение RU
17.1K subscribers
1.29K photos
160 videos
11 files
1.78K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Forwarded from Machinelearning
🌟 ASR и диаризация речи от RevAI.

RevAI, лидер в области профессиональной транскрипции английской речи выпустила в открытый доступ фреймdорк Reverb и набор моделей для построения конвейера speech-to-text.

Reverb включает в себя: модель ASR на базе WeNet и 2 версии модели диаризации речи. Весь паплайн Reverb можно запускать как на CPU, так и на GPU.

Reverb ASR обучалась на 200 000 часов английской речи, профессионально транскрибированной людьми — это самый большой корпус транскрибированной человеком речи, когда-либо использовавшийся для обучения модели с открытым исходным кодом.

Она позволяет контролировать уровень дословности выходного транскрипта для создания чистого, удобочитаемого текста и справляется с обработкой аудио, требующего транскрипции каждого произнесенного слова, включая запинания и перефразирования.

Reverb ASR использует совместную архитектуру CTC/attention и поддерживает несколько режимов декодирования. Указать один или несколько режимов можно в recognize_wav.py. Для каждого режима будут созданы отдельные выходные каталоги. Варианты декодирования:

🟢attention;
🟢ctc_greedy_search;
🟢ctc_prefix_beam_search;
🟢attention_rescoring;
🟢joint_decoding.

В оценке Reverb ASR использовались три корпуса длинных аудиозаписей: Rev16 (подкасты), Earnings21 и Earnings22 (телефонные разговоры).

Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм, особенно в Earnings22, где в основном речь носителей английского языка не как родного.

Для традиционного бенчмаркинга использовался GigaSpeech, Reverb ASR запускался в дословном режиме на скриптах оценки Hugging Face Open ASR Leaderboard. По их результатам Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм.

Reverb diarization v1 использует архитектуру pyannote 3.0 и имеет 2 слоя LSTM со скрытым размером 256, всего около 2,2 млн параметров, а Reverb diarization v2 использует WavLM вместо функций SincNet в базовой модели pyannote 3.0.

Обе модели диаризации прошли донастройку на 26 000 часах данных с экспертной разметкой.

▶️Локальное использование предусматривает несколько вариантов: установка с anaconda, использование Docker-образа и масштабное развертывание.

⚠️ Для локальной установки понадобится Huggingface API KEY


🟡Набор моделей
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #Diarization #REVAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🏆 NVIDIA Parakeet V2 возглавила рейтинг ASR-моделей на Hugging Face

Новая модель Parakeet-TDT-0.6B-V2 достигла рекордной точности распознавания речи6.05% Word Error Rate на Open ASR Leaderboard от Hugging Face.

🦜 Parakeet V2 выводит автоматическое распознавание речи (ASR) на новый уровень:

Молниеносный инференс — RTFx 3386 (в 50 раз быстрее аналогов)
🔍 Поддержка необычных сценариев:
• Распознавание песен в текст (song-to-lyrics)
• Форматирование чисел и временных меток
• Высокоточная транскрибация

📌 Лицензирование: CC-BY-4.0

🔗 Leaderboard: huggingface.co/spaces/hf-audio/open_asr_leaderboard
🔗 Демо: huggingface.co/nvidia/parakeet-tdt-0.6b-v2
🔗 Попробовать: build.nvidia.com/explore/speech

@ai_machinelearning_big_data


#NVIDIA #ASR #SpeechRecognition #Parakeet #AIaudio
Please open Telegram to view this post
VIEW IN TELEGRAM