Хабр / ML & AI

ИИ-го-го или как AI-стартапу с TTS сэкономить копеечку: синтез речи из палок и веток для low-resource языков

Идущие майские учат нас, что шашлык сам себя не пожарит…но это лишь до поры до времени – не далек тот час, когда ИИ автоматизация наверняка придет и сюда! Но пока светлое будущее еще не наступило, поэтому давайте поговорим … о котиках о лошадках 🐴

Слышали ли вы, как скачет конь по монгольской степи? Если нет, то в этой статье мы исправим это упущение и расскажем, как за 'недорого' натренировать облегчённую TTS (Time-to-speech) модель для воспроизведения речи на монгольском языке, очень непривычно звучащим для русского уха и практически непроизносимом для языка 🚑

тыг-дык-тыг-дык… тыг-дык-тыг-дык…ии-го-го … Примерно такого аудио ряда мы ждем на выходе у нашего эксперимента... Чтобы узнать, как мы дошли до такой жизни, что у нас в итого получилось и насколько оно бьется с ожиданиями, поскакали под кат! 😜🚀

Поскакать

#stt #tts #text_to_speech #speech_to_text #монголия #tacotron_2 #cnn #rnn #low_resource_languages | @habr_ai

Хабр

Как AI-стартапу сэкономить копеечку: синтез речи из палок и веток для low-resource языков

Как учат нас майские, шашлык сам себя не пожарит…но это лишь до поры до времени и не далек тот час, когда ИИ автоматизация наверняка придет и сюда! Но пока светлое будущее еще не наступило, поэтому...

37 views06:04

Хабр / ML & AI

Руководство по задачам, возникающим при использовании речевой аналитики Яндекс SpeechSense (Часть 2)

Если у вас имеется собственный контактный центр, задача найти упоминание чего-либо конкретного в большом количестве аудиозаписей возникает регулярно. Недавно я опубликовал статью о том, как настраивать это решение с нуля. Во второй части я хочу показать, какие решения мне пришлось разработать дополнительно для использования речевой аналитики Яндекс SpeechSense, какие дополнительные задачи при этом появились и как их решать.

Задача, которую я решал, формулировалась вот так. Необходимо проанализировать 25000 аудиозаписей разговоров оператора с клиентом по телефону, найти и вывести список всех аудиозаписей, где есть поздравления с праздниками.

Перейти к решениям

#speechsense #yandex_cloud #речевая_аналитика #разработка_приложений #внедрение_по #аудиозаписи #speech_to_text #руководство_для_разработчика #решения #python | @habr_ai

Хабр

Руководство по задачам, возникающим при использовании речевой аналитики Яндекс SpeechSense (Часть 2)

Если у вас имеется собственный контактный центр, задача найти упоминание чего-либо конкретного в большом количестве аудиозаписей возникает регулярно. Недавно я опубликовал статью о том, как...

27 views09:46

Хабр / ML & AI

Сравнение систем распознавания русского языка 2024

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая: Какая?

#распознавание_речи #речевые_технологии #asr #stt #speech_to_text #silero #sber #tinkoff #yandex #voice_kit | @habr_ai

Хабр

Сравнение систем распознавания русского языка 2024

После значительной паузы, опять пришло время обновить наше исследование ( прошлое , позапрошлое ) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и...

33 views04:07

Хабр / ML & AI

[Перевод] Станет ли ИИ катастрофой для сквозного шифрования?

Недавно я обнаружил потрясающую новую статью How to think about end-to-end encryption and AI, написанную группой исследователей из Нью-Йоркского и Корнеллского университетов. Я очень рад прочтению этой статьи, потому что, хоть не согласен со всеми её выводами, она стала первой попыткой ответа на невероятно важные вопросы.

С одной стороны, максимума мой интерес к этой теме достиг, когда были разработаны системы ИИ-помощников наподобие защиты от мошеннических звонков Google и Apple Intelligence. Обе эти системы нацелены на то, чтобы ИИ был задействован практически во всех частях телефона, даже в личных сообщениях. С другой стороны, я размышлял о негативном влиянии ИИ на конфиденциальность из-за недавних европейских обсуждений законов об обязательном сканировании контента, благодаря которым системы машинного обучения смогут сканировать все отправляемые личные сообщения.

Несмотря на различия этих двух аспектов, я пришёл к мнению, что в конечном итоге они сведутся к одному. А поскольку меня больше десятка лет волнует шифрование и обсуждения «криптовойн», я был вынужден начать задавать неприятные вопросы о будущем сквозного шифрования. Возможно, даже вопросы о том, есть ли у него будущее.

Но давайте начнём с чего-то попроще. Читать дальше →

#сквозное_шифрование #speech_to_text #слежка_за_гражданами #шифрование_данных #тайна_переписки #правоохранительные_органы #ruvds_перевод | @habr_ai

Хабр

Станет ли ИИ катастрофой для сквозного шифрования?

Недавно я обнаружил потрясающую новую статью How to think about end-to-end encryption and AI , написанную группой исследователей из Нью-Йоркского и Корнеллского университетов. Я очень рад прочтению...

31 viewsedited 13:20

Хабр / ML & AI

Спецификация формата RTTM: полное техническое описание

RTTM — это формат, в котором каждое событие в аудио точно знает своё место.

Он позволяет системам видеть не просто звук, а структуру разговора: кто говорит, когда, как долго — и что происходит в фоновом шуме.

В этой статье вы найдёте всё, что нужно знать об этом стандарте: как устроены его 10 полей, какую роль он играет в задачах диаризации и распознавания речи, и почему его до сих пор активно используют лидеры индустрии — такие как pyannote.audio, NVIDIA NeMo, DScore и другие. Узнать больше про RTTM!

#rttm #rttm_формат #аннотация_аудио #речевая_разметка #asr_разметка #структура_rttm_файла #речевые_технологии #формат_nist_rttm #speech_to_text_разметка #speaker_diarization | @habr_ai

Хабр

Спецификация формата RTTM: полное техническое описание

Если бы у аудио был паспорт — он был бы в формате RTTM. Предисловие Совсем недавно, при подготовке данных для обучения модели диаризации я впервые всерьёз столкнулся с форматом RTTM , о котором прежде...

🔥1

49 views09:25

Хабр / ML & AI

ТОП-5 AI-генераторов для транскрибации аудио в текст (часть 2)

В первой части мы проверили три сервиса: AssemblyAI, Riverside и Teamlogs. Все они пообещали точную и быструю транскрибацию, но на деле…

Первый оказался хорош на английском, но на русском плыл. Второй выдал интересные фишки в интерфейсе, но транскрипцией не порадовал. Третий оказался самым сбалансированным, но и у него с пунктуацией и спикерами беда.

Во второй части — ещё два претендента, у которых всё ещё есть шанс: или вытащить транскрибацию на новый уровень, или окончательно доказать, что без ручной правки пока никуда.

Продолжаем тестирование! Читать далее

#нейросети #транскрибация #расшифровка_аудио #whisper #speech_to_text | @habr_ai

Хабр

ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)

Сгенерировано нейросетью GPT Image В первой части мы проверили три сервиса: AssemblyAI , Riverside и Teamlogs . Все они обещали точную и быструю транскрибацию, но на деле… Первый оказался хорош на...

52 views13:46

About

Blog

Apps

Platform