GigaAM
(Giga Acoustic Model
) - семейство акустических моделей для обработки звучащей речи на русском языке. Среди решаемых задач - задачи распознавания речи, распознавания эмоций и извлечения эмбеддингов из аудио. Модели построены на основе архитектуры
Conformer
с использованием методов self-supervised
learning
(wav2vec2
-подход для GigaAM-v1
и HuBERT
-подход для GigaAM-v2
).Модели
GigaAM
с отрывом являются лучшими по качеству моделями в открытом доступе для соответствующих задач.Репозиторий включает:
-
GigaAM
: фундаментальная акустическая модель, обученная на большом объеме неразмеченных русскоязычных аудиозаписей.-
GigaAM-CTC
и GigaAM-RNNT
: модели, дообученные на задачу автоматического распознавания речи.-
GigaAM-Emo
: модель, дообученная на задачу распознавания эмоций.https://gitverse.ru/GigaTeam/GigaAM
опубликовано в @gitgate
#russian #speech2text #stt
gitverse.ru
GigaTeam/GigaAM: Foundational Model for Speech Recognition Tasks | Gitverse
GigaTeam/GigaAM: Foundational Model for Speech Recognition Tasks. Актуальные файлы и описания. Ветки и обсуждения на платформе для разработчиков GitVerse.
👍12🔥6