xVibeNot

Полный список всех актуальных open-source TTS, которые умеют в синтез на русском языке.

XTTS v2
https://github.com/idiap/coqui-ai-TTS
Клонирование голоса: ✅
Реалтайм: ✅
RTF (Realtime factor): 0.3-0.6 на rtx 3090

Модель может в ru изначально, но есть и файнтюны:
https://huggingface.co/tensorbanana/xttsv2_banana
https://huggingface.co/NeuroDonu/RU-XTTS-DonuModel

F5
https://github.com/SWivid/F5-TTS
Клонирование голоса: ✅
Реалтайм: ✅
RTF: 0.14 на rtx 3090, 0.08 на rtx 5090 при nfe=16
TTFB / Latency: > 1 сек
RU файнтюн:
https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN
Демо:
https://misha24-10.github.io/Misha24-10/

ESpeech (та же F5)
https://huggingface.co/ESpeech
Относительно новый файнтюн F5, представлено несколько весов.
Мне больше всего зашли RL 1 и SFT 95k.
Релиз пост автора (внутри демо):
https://t.me/den4ikresearch/117
Доклад от автора про датасет и модели:
https://www.youtube.com/watch?v=B6kO5qVhMnw

Chatterbox
https://github.com/resemble-ai/chatterbox
Клонирование голоса: ✅
Реалтайм: ✅
RTF: не тестил
Демо:
https://resemble-ai.github.io/chatterbox_demopage/
HF space:
https://huggingface.co/spaces/ResembleAI/Chatterbox-Multilingual-TTS

Streaming реализация без поддержки мультиязычности:
https://github.com/davidbrowne17/chatterbox-streaming

VibeVoice
https://github.com/microsoft/VibeVoice
Клонирование голоса: ✅
Реалтайм: ❌
RTF: >1 для 7B модели

Большая модель, умеет клонировать голос, но о реалтайме с большой 7B моделью в базовом виде можно забыть.
HF:
https://huggingface.co/vibevoice/VibeVoice-7B
https://huggingface.co/vibevoice/VibeVoice-1.5B
Реалтайм реализация и подробности от Tensor Banana:
https://t.me/tensorbanana/1236

FishSpeech
https://github.com/fishaudio/fish-speech
Клонирование голоса: ✅
Реалтайм: ✅
RTF: 0.14 на rtx 4090 (по заявлению от авторов), не тестил

Из коробки очень медленный, стриминг навайбкодить не вышло.

HF:
https://huggingface.co/fishaudio
https://huggingface.co/fishaudio/fish-speech-1.5

Silero
https://github.com/snakers4/silero-models
Клонирование голоса: ❌
Реалтайм: ✅
RTF: не тестил

Поддерживает много СНГ языков и акценты. Умеет в SSML.

Piper TTS
https://github.com/OHF-Voice/piper1-gpl
Клонирование голоса: ❌
Реалтайм: ✅
RTF: не записал

Очень маленькая и шустрая модель, умеет в русский, но не умеет клонировать голос. Пробовал завести с RVC, но достичь реалтайма не получилось (из-за RVC).
Демо:
https://rhasspy.github.io/piper-samples/demo.html

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍5🔥1

236 viewsedited 12:10