This media is not supported in your browser
VIEW IN TELEGRAM
Moonshine
Распознаватор речи, бьет Whisper по нескольким параметрам.
Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.
Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи
Гитхаб
#leaderboard #ASR #speech2text #stt
Распознаватор речи, бьет Whisper по нескольким параметрам.
Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.
Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи
Гитхаб
#leaderboard #ASR #speech2text #stt
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
moonshine-live
Распознавание речи в реальном времени на Moonshine
Демо
Модели
#speech2text #ASR #subtitles #realtime
Распознавание речи в реальном времени на Moonshine
Демо
Модели
#speech2text #ASR #subtitles #realtime
🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.
Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.
Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.
Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое🤩
Код
Демо - видимо, еще не собрали
#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.
Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.
Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.
Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое
Код
Демо - видимо, еще не собрали
#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4👎1
NeMo Canary-Qwen-2.5B
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Streaming Sortformer
Модель от NVIDIA для диаризации в реальном времени, которая позволяет определять, кто говорит в многоголосных аудиозаписях.
Возможности модели:
- диаризация на уровне кадров с тегами (например, spk_0, spk_1);
- точные временные метки для каждого помеченного высказывания;
- отслеживание 2–4+ говорящих с минимальной задержкой;
- оптимизация для английского языка, но успешное тестирование на мандаринском и других языках.
Пример на видео конечно дурацкий, все друг друга ждут чтобы сказать свою реплику, в жизни оно не так работает
HF
#ASR #speech2text #stt
Модель от NVIDIA для диаризации в реальном времени, которая позволяет определять, кто говорит в многоголосных аудиозаписях.
Возможности модели:
- диаризация на уровне кадров с тегами (например, spk_0, spk_1);
- точные временные метки для каждого помеченного высказывания;
- отслеживание 2–4+ говорящих с минимальной задержкой;
- оптимизация для английского языка, но успешное тестирование на мандаринском и других языках.
Пример на видео конечно дурацкий, все друг друга ждут чтобы сказать свою реплику, в жизни оно не так работает
HF
#ASR #speech2text #stt
👍10❤1🍌1