Forwarded from AI & Robotics Lab
На первом месте по загрузкам - coqui/XTTS-v2 - поработав с ней понял, что не мое. А вот следующая hexgrad/Kokoro-TTS оказалась именно то, что нужно.
Для английского языка в модели почти 30 голосов - как мужских, так и женских - что-нибудь сгенерировать и послушать как они звучат можно здесь.
Модель с открытыми весами, ее использование максимально просто и удобно - все разворачивается в виртуальном окружении. Места, правда, занимает 5.6 Гб. Зато для работы не нужна видеокарта: на моем ноуте с Ryzen 5 4500U двухчасовой ролик генерируется где-то минут за 50.
Чтобы было удобно пользоваться - сделал небольшой проект pdf2mp3, обернув модель в CLI утилиту: работает как в Linux, так и в Win. Можно выбирать языки (русского, к сожалению, пока нет), голоса, скорость (важно для иностранного языка) и прочие параметры. Генерирует из pdf файла сразу в mp3 - подробное описание как установить и пользоваться.
#projects #kokoro #tts
Для английского языка в модели почти 30 голосов - как мужских, так и женских - что-нибудь сгенерировать и послушать как они звучат можно здесь.
Модель с открытыми весами, ее использование максимально просто и удобно - все разворачивается в виртуальном окружении. Места, правда, занимает 5.6 Гб. Зато для работы не нужна видеокарта: на моем ноуте с Ryzen 5 4500U двухчасовой ролик генерируется где-то минут за 50.
Чтобы было удобно пользоваться - сделал небольшой проект pdf2mp3, обернув модель в CLI утилиту: работает как в Linux, так и в Win. Можно выбирать языки (русского, к сожалению, пока нет), голоса, скорость (важно для иностранного языка) и прочие параметры. Генерирует из pdf файла сразу в mp3 - подробное описание как установить и пользоваться.
#projects #kokoro #tts
huggingface.co
Kokoro TTS - a Hugging Face Space by hexgrad
This application lets you turn written text into natural-sounding voice recordings. You can choose from multiple voices and settings, and the app will output an audio clip of the text being read al...
🔥1🆒1