🏆 NVIDIA Parakeet V2 возглавила рейтинг ASR-моделей на Hugging Face
Новая модель Parakeet-TDT-0.6B-V2 достигла рекордной точности распознавания речи на Open ASR Leaderboard от Hugging Face — 6.05 на Word Error Rate.
🦜 Parakeet V2 выводит автоматическое распознавание речи (ASR) на новый уровень:
⚡ Молниеносный инференс — RTFx 3386 (в 50 раз быстрее аналогов)
🔍 Поддержка необычных сценариев:
• Распознавание песен в текст (song-to-lyrics)
• Форматирование чисел и временных меток
• Высокоточная транскрибация
📌 Лицензирование: CC-BY-4.0
🔗 Leaderboard: huggingface.co/spaces/hf-audio/open_asr_leaderboard
🔗 Демо: huggingface.co/nvidia/parakeet-tdt-0.6b-v2
🔗 Попробовать: build.nvidia.com/explore/speech
@ai_machinelearning_big_data
#NVIDIA #ASR #SpeechRecognition #Parakeet #AIaudio
Новая модель Parakeet-TDT-0.6B-V2 достигла рекордной точности распознавания речи на Open ASR Leaderboard от Hugging Face — 6.05 на Word Error Rate.
🦜 Parakeet V2 выводит автоматическое распознавание речи (ASR) на новый уровень:
⚡ Молниеносный инференс — RTFx 3386 (в 50 раз быстрее аналогов)
🔍 Поддержка необычных сценариев:
• Распознавание песен в текст (song-to-lyrics)
• Форматирование чисел и временных меток
• Высокоточная транскрибация
🔗 Leaderboard: huggingface.co/spaces/hf-audio/open_asr_leaderboard
🔗 Демо: huggingface.co/nvidia/parakeet-tdt-0.6b-v2
🔗 Попробовать: build.nvidia.com/explore/speech
@ai_machinelearning_big_data
#NVIDIA #ASR #SpeechRecognition #Parakeet #AIaudio
Please open Telegram to view this post
VIEW IN TELEGRAM
❤60👍31🔥11🥰6👌1
Что она умеет:
-
- Автоматическая пунктуация, капитализация и точные таймстампы до слова.
- Поддержка русского, французского, немецкого, испанского и многих других языков.
Чем интересна
- До 10× быстрее инференс, чем у моделей в 3 раза больше.
- Уже показывает state-of-the-art точность среди открытых моделей на Hugging Face.
- Лицензия CC-BY-4.0 — можно свободно использовать в проектах.
Под капотом:
- Архитектура: FastConformer-энкодер + Transformer-декодер (~978M параметров).
- Форматы:
.wav
и .flac
, моно 16 кГц. - Легко интегрируется через NVIDIA NeMo или прямо с Hugging Face.
Где пригодится:
Всего ~978M параметров → легче, быстрее и дешевле в использовании, чем большие модели конкурентов.
@ai_machinelearning_big_data
#AI #NVIDIA #SpeechRecognition #ASR #AST #Multilingual #MachineLearning #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥39❤15✍2