Russian Habr companion article - https://habr.com/ru/post/577630/
Хабр
Последние обновления моделей распознавания речи из Silero Models
Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка. В этот раз мы можем...
Silero Models Stars
A small milestone -
- https://seladb.github.io/StarTrack-js/#/preload?r=snakers4,silero-models
A small milestone -
silero-models
now has 1000 stars on GitHub.- https://seladb.github.io/StarTrack-js/#/preload?r=snakers4,silero-models
seladb.github.io
GitHub Star History and Stats
Web site created using create-react-app
English V5 Quantized ONNX Model
Surprise surprise, ONNX supports native quantization.
Added a quantized ONNX model - https://github.com/snakers4/silero-models/blob/master/models.yml#L11
Amazingly, it just works.
Surprise surprise, ONNX supports native quantization.
Added a quantized ONNX model - https://github.com/snakers4/silero-models/blob/master/models.yml#L11
Amazingly, it just works.
GitHub
silero-models/models.yml at master · snakers4/silero-models
Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple - snakers4/silero-models
We Have Published a Model For Text Repunctuation and Recapitalization
The model works with SINGLE sentences (albeit long ones) and:
- Inserts capital letters and basic punctuation marks (dot, comma, hyphen, question mark, exclamation mark, dash for Russian);
- Works for 4 languages (Russian, English, German, Spanish) and can be extended;
- By design is domain agnostic and is not based on any hard-coded rules;
- Has non-trivial metrics and succeeds in the task of improving text readability;
Links:
- Model repo - https://github.com/snakers4/silero-models#text-enhancement
- Colab notebook - https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_te.ipynb
- Russian article - https://habr.com/ru/post/581946/
- English article - https://habr.com/ru/post/581960/
The model works with SINGLE sentences (albeit long ones) and:
- Inserts capital letters and basic punctuation marks (dot, comma, hyphen, question mark, exclamation mark, dash for Russian);
- Works for 4 languages (Russian, English, German, Spanish) and can be extended;
- By design is domain agnostic and is not based on any hard-coded rules;
- Has non-trivial metrics and succeeds in the task of improving text readability;
Links:
- Model repo - https://github.com/snakers4/silero-models#text-enhancement
- Colab notebook - https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_te.ipynb
- Russian article - https://habr.com/ru/post/581946/
- English article - https://habr.com/ru/post/581960/
GitHub
GitHub - snakers4/silero-models: Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly…
Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple - snakers4/silero-models
Text Enhancement Model Improvements?
Anonymous Poll
43%
Further quantization / speed / compression (up to 20-30 MB)
59%
Add multi-sentence support
11%
Add other languages (please comment which)
4%
Your option and ideas (please comment)
12%
It's aleady fine
Portfolio Update and VAD News
In case you have not been following this channel, added some write-up about our helper products (VAD, text enhancement, language classifier, number detector) to our Russian website:
https://www.silero.ai/tag/auxiliary-products/
Also ... a massive VAD update coming soon.
In case you have not been following this channel, added some write-up about our helper products (VAD, text enhancement, language classifier, number detector) to our Russian website:
https://www.silero.ai/tag/auxiliary-products/
Also ... a massive VAD update coming soon.
Silero
Вспомогательные продукты - Silero
Прочие и вспомогательные продукты, необходимые чтобы распознавание и синтез работали лучше в связке с ними
Collected all of our articles in one place:
- https://github.com/snakers4/silero-models#further-reading
- https://github.com/snakers4/silero-models#further-reading
GitHub
GitHub - snakers4/silero-models: Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly…
Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple - snakers4/silero-models
Синтезируем голос бабушки, дедушки и Ленина + новости нашего публичного синтеза
В этой статье мы постараемся:
- На реальных примерах показать возможности генерации голоса на малом числе данных или на данных с неидеальным качеством;
- Немного порассуждать на тему цифровых памятников (это чем-то похоже на интерактивные или трехмерные фотографии), сделанных из голоса человека;
- Также немного порассуждать на тему того, какую объективную опасность это представляет для общества;
И также мы конечно поделимся новостями нашего синтеза речи.
https://habr.com/ru/post/584750/
В этой статье мы постараемся:
- На реальных примерах показать возможности генерации голоса на малом числе данных или на данных с неидеальным качеством;
- Немного порассуждать на тему цифровых памятников (это чем-то похоже на интерактивные или трехмерные фотографии), сделанных из голоса человека;
- Также немного порассуждать на тему того, какую объективную опасность это представляет для общества;
И также мы конечно поделимся новостями нашего синтеза речи.
https://habr.com/ru/post/584750/
Хабр
Синтезируем голос бабушки, дедушки и Ленина + новости нашего публичного синтеза
На Хабре часто висят в топе: политика и очередные запреты, трактор, ну и конечно сенсационные новости про "очередные достижения AI". Также журналисты маркетологи любят перепечатывать...
As an experiment reposted last article to VC.ru just for lulz:
- https://vc.ru/tribuna/310183-sinteziruem-golos-babushki-dedushki-i-lenina-novosti-nashego-publichnogo-sinteza
- https://vc.ru/tribuna/310183-sinteziruem-golos-babushki-dedushki-i-lenina-novosti-nashego-publichnogo-sinteza
vc.ru
Синтезируем голос бабушки, дедушки и Ленина + новости нашего публичного синтеза — Трибуна на vc.ru
Постоянно вижу новости про "очередные достижения AI". Также журналисты маркетологи любят перепечатывать нормальные статьи наподобие этой но под максимально кричащими заголовками в духе "AI поработит мир, ваш голос уже украли".
Our private UA TTS featured on Ukrainian Radio - http://ukr.radio/schedule/play-archive.html?periodItemID=2973701
Lol, no one invited us to radio in Russia
What gives
Lol, no one invited us to radio in Russia
What gives
Forwarded from Spark in me (Alexander)
This media is not supported in your browser
VIEW IN TELEGRAM
Forwarded from Spark in me (Alexander)
Telegram-бот Silero бесплатно переводит речь в текст
Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут).
Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах
Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).
Статья - https://habr.com/ru/post/591563/
Сам бот - @silero_audio_bot
Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут).
Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах
/help
и /faq
.Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).
Статья - https://habr.com/ru/post/591563/
Сам бот - @silero_audio_bot
Telegram
Silero STT ✅
🤟 Silero конвертирует аудио на русском языке в текст на основе нашего собственного движка распознавания речи.
Forwarded from Spark in me (Alexander)
После долгой и упорной отладки микроскопических бесячих краевых кейсов в боте и случившегося Хабра-эффекта, решили попробовать на пикабу - https://pikabu.ru/story/telegrambot_avtomaticheski_perevodit_rech_v_tekst_8647046
Пикабу
Telegram-бот автоматически переводит речь в текст
Автор: snakers4
Are ONNX Models Necessary for the VAD?
In a few days we will be radically changing the models:
- Probably dropping ONNX VAD models (we have not decided yet);
- Reducing chunk size to 30ms (chunk will be flexible, but larger than 30ms);
- Removing separate 8 / 16 kHz models, now all models would work with 8 and 16 kHz;
- Most likely deprecating micro, mini and ordinary models in favor of just a mini-sized models (still running last experiments);
- New models will be compatible with mobile builds of PyTorch;
- Dropping the batched buffering approach we used because of large chunks;
https://github.com/snakers4/silero-vad/issues/125
In a few days we will be radically changing the models:
- Probably dropping ONNX VAD models (we have not decided yet);
- Reducing chunk size to 30ms (chunk will be flexible, but larger than 30ms);
- Removing separate 8 / 16 kHz models, now all models would work with 8 and 16 kHz;
- Most likely deprecating micro, mini and ordinary models in favor of just a mini-sized models (still running last experiments);
- New models will be compatible with mobile builds of PyTorch;
- Dropping the batched buffering approach we used because of large chunks;
https://github.com/snakers4/silero-vad/issues/125
GitHub
Are ONNX Models Necessary? · Issue #125 · snakers4/silero-vad
In a few days we will be radically changing the models: Probably dropping ONNX VAD models (we have not decided yet); Reducing chunk size to 30ms (chunk will be flexible, but larger than 30ms); Remo...