улучшайзеры мультиголосов -2.24 -добавлены опции: Анализатор синтаксиса Stanza NLP; Анализатор морфологии pymorphy3 \\\pymorhpy3 дополняет mystem , когда он не дает рода (хмыкнула - алисия{алисия=S,имя,жен,од=им,ед|алисий=S,имя,муж,од=вин,ед|алисий=S,имя,муж,од=род,ед}) то анализирует его pymorhpy3, что повышает точность .... Stanza позволяет сделать синктактический разбор предложения ( токиниезация и т.д. ) и получить существительное связанное с глаголом для дальнейшего его морфологического анализа и установления рода, иначе перебираются все слова в предложении\ или наоборот только по окончанию глагола принимается решение... Т.е. все эти модули нужны для более четкого получения ролей М\Ж голоса \\\ Будет без них работать? Да , будет, но будет хуже качество разметки под голоса...\\\ пока сам еще изучаю\смотрю логи, могу сказать , что pymorhpy3 можно не ставить, там проценты , что он дораспознает, а вот NLP значительно улучшает, да и код сейчас под его использование оптимизируется...
👍1🔥1
sintax.py
795 B
вместо Stanza можно https://spacy.io/usage
pip install -U pip setuptools wheel
pip install -U spacy
python -m spacy download ru_core_news_lg она чуток полегче и побыстрее - нужно только на этот скрипт заменить
pip install -U pip setuptools wheel
pip install -U spacy
python -m spacy download ru_core_news_lg она чуток полегче и побыстрее - нужно только на этот скрипт заменить
👍2
SpaCy на видеокарте Nvidia
pip install -U 'spacy[cuda12x]'
Если для Stanza хватило просто поставить install torch ...
То тут все сложнее, так много чего компилируется у пользователя на компе под свои характеристики...
Мне потребовалось
1)python-3.11.9-amd64.exe (на 3.13 не хватает нужных компонентов, 3.12 не пробовал)
2)cuda_12.9.1_576.57_windows.exe
3)vs_BuildTools.exe с "Разработка классических приложений на C++"
это займет на диске десятки гигов...
Если устанавливаете питон как второй и создаете виртуальное окружение и туда устанавливаете spacy[cuda12x] + словарь
то можно создать в
Компьютер\HKEY_CURRENT_USER\Software\bal1web
строковый параметр
pythonSpaCy
и указать путь
C:\Users\deity\venv311\Scripts\python.exe
и тогда bal1web будет запускать скрипт отсюда
и прописать более жестко в нем
spacy.require_gpu()
pip install -U 'spacy[cuda12x]'
Если для Stanza хватило просто поставить install torch ...
То тут все сложнее, так много чего компилируется у пользователя на компе под свои характеристики...
Мне потребовалось
1)python-3.11.9-amd64.exe (на 3.13 не хватает нужных компонентов, 3.12 не пробовал)
2)cuda_12.9.1_576.57_windows.exe
3)vs_BuildTools.exe с "Разработка классических приложений на C++"
это займет на диске десятки гигов...
Если устанавливаете питон как второй и создаете виртуальное окружение и туда устанавливаете spacy[cuda12x] + словарь
то можно создать в
Компьютер\HKEY_CURRENT_USER\Software\bal1web
строковый параметр
pythonSpaCy
и указать путь
C:\Users\deity\venv311\Scripts\python.exe
и тогда bal1web будет запускать скрипт отсюда
и прописать более жестко в нем
spacy.require_gpu()
sintax_spaCy.py
2.5 KB
разобрав подробней spaCy , выяснил , что короткие предложения с 2 существительными вызвали это расхождение, поэтому тут новый скрипт, который это решает ( переименовать в sintax.py)
👏2
+ еще оптимизация кода под NLP и правки в в скрипте для sintax_spaCy.py. P.S. Все-таки хоть Stanza и помедленнее обрабатывает, но все-таки более проработанная модель - получше распознает в сложных предложениях...
👍1
Silero - добавил tensor mod голоса https://disk.yandex.ru/d/uonspm_vUgL9iQ
👍2
добавлена возможность - отключить нормализацию под кириллицу (для RU в пути модели должно быть -ru-) и использовать не RU модели (без режима мультиозвучки), внося свои правила в vosk_noRU.rex) .Остается только вопрос с голосами, я не знаю, нужно ли делать их редактируемыми или хватит этих с цифрами ....
👍1