AI для чайников | Александр Троицкий

Тестирую библиотеки и и сервисы text-to-speech (TTS).

Библиотеки и сервисы, которые переводят текст в человеческую, не новшество. Они уже 5-6-7 лет довольно популярны, а многие блогеры на ютьюбе используют смешной машинный голос как озвучку для своих роликов. Однако с последним хайпом на ИИ, все больше и больше стартапов получает инвестиции на развитие, соответственно новые сервисы вырастают как грибы после дождя.

Для своего пет-проекта по генерации контента я решил попробовать запустить автоматические релизы подкастов в Apple, Amazon, Spotify, Google Podcasts. Для этого мне пришлось повозиться с разными библиотеками озвучки. Поскольку это не реклама, я буду писать реальные отзывы о них:

1. gTTS - библиотека от Google оказалась среднячком среди всех, что я рассматривал. Потыкав примеры, понял, что все-таки отличить ее от реального голоса вполне легко.

2. Amazon Polly - продукт от AWS. Полный шлак. Именно эту озвучку используют чаще всего, чтобы сделать мемные видео про тупых роботов. Кажется, что последние 5-6 лет компания Джеффа Безоса просто забросила продукт.

3. Conqui-AI неплохо выделяется среди остальных. У них есть открытая библиотека (если хочешь - раскатывай на своем железе), есть своя платформа с API (решают вопросы с железом). Примеры их озвучки - классные.

А еще у этой же группы разработчиков есть проект Bark, который классно озвучивает. Ну и идея у Bark сама по себе классная.

4. Еще классными показались ребята из PlayHT - они дают готовый максимально ванильный API, который может внедрить в свой сервис даже ребенок. Качество генерируемого аудио хорошее. Большой минус - стоит это удовольствие недешево (примерно $40 за 50.000 слов).

В целом, кажется, что IT гиганты забили на этот рынок и не развивают его, поэтому небольшие коллективы и стартапы начали выбиваться вперед. Думаю, что все закончится M&A сделками и поглощениями, а фаундеры AI стартапов смогут хорошо выйти в кеш.

👍3

1.12K viewsedited 12:39