Нейронавт | Нейросети в творчестве
9.33K subscribers
3.58K photos
3.09K videos
40 files
4.06K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Moonshine

Распознаватор речи, бьет Whisper по нескольким параметрам.

Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.

Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи

Гитхаб

#leaderboard #ASR #speech2text #stt
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.

Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.

Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.

Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое 🤩

Код
Демо - видимо, еще не собрали

#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4👎1
NeMo Canary-Qwen-2.5B

#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.

Влез на вершину Open ASR Leaderboard

Гитхаб
HF
Демо

#ASR #speech2text #stt #llm #leaderboard
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Streaming Sortformer

Модель от NVIDIA для диаризации в реальном времени, которая позволяет определять, кто говорит в многоголосных аудиозаписях.

Возможности модели:

- диаризация на уровне кадров с тегами (например, spk_0, spk_1);

- точные временные метки для каждого помеченного высказывания;

- отслеживание 2–4+ говорящих с минимальной задержкой;

- оптимизация для английского языка, но успешное тестирование на мандаринском и других языках.

Пример на видео конечно дурацкий, все друг друга ждут чтобы сказать свою реплику, в жизни оно не так работает

HF

#ASR #speech2text #stt
👍101🍌1