Хабр / ML & AI
481 subscribers
5.49K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
ИИ-го-го или как AI-стартапу с TTS сэкономить копеечку: синтез речи из палок и веток для low-resource языков

Идущие майские учат нас, что шашлык сам себя не пожарит…но это лишь до поры до времени – не далек тот час, когда ИИ автоматизация наверняка придет и сюда! Но пока светлое будущее еще не наступило, поэтому давайте поговорим … о котиках о лошадках 🐴

Слышали ли вы, как скачет конь по монгольской степи? Если нет, то в этой статье мы исправим это упущение и расскажем, как за 'недорого' натренировать облегчённую TTS (Time-to-speech) модель для воспроизведения речи на монгольском языке, очень непривычно звучащим для русского уха и практически непроизносимом для языка 🚑

тыг-дык-тыг-дык… тыг-дык-тыг-дык…ии-го-го … Примерно такого аудио ряда мы ждем на выходе у нашего эксперимента... Чтобы узнать, как мы дошли до такой жизни, что у нас в итого получилось и насколько оно бьется с ожиданиями, поскакали под кат! 😜🚀

Поскакать

#stt #tts #text_to_speech #speech_to_text #монголия #tacotron_2 #cnn #rnn #low_resource_languages | @habr_ai
Руководство по задачам, возникающим при использовании речевой аналитики Яндекс SpeechSense (Часть 2)

Если у вас имеется собственный контактный центр, задача найти упоминание чего-либо конкретного в большом количестве аудиозаписей возникает регулярно. Недавно я опубликовал статью о том, как настраивать это решение с нуля. Во второй части я хочу показать, какие решения мне пришлось разработать дополнительно для использования речевой аналитики Яндекс SpeechSense, какие дополнительные задачи при этом появились и как их решать.

Задача, которую я решал, формулировалась вот так. Необходимо проанализировать 25000 аудиозаписей разговоров оператора с клиентом по телефону, найти и вывести список всех аудиозаписей, где есть поздравления с праздниками.

Перейти к решениям

#speechsense #yandex_cloud #речевая_аналитика #разработка_приложений #внедрение_по #аудиозаписи #speech_to_text #руководство_для_разработчика #решения #python | @habr_ai
[Перевод] Станет ли ИИ катастрофой для сквозного шифрования?

Недавно я обнаружил потрясающую новую статью How to think about end-to-end encryption and AI, написанную группой исследователей из Нью-Йоркского и Корнеллского университетов. Я очень рад прочтению этой статьи, потому что, хоть не согласен со всеми её выводами, она стала первой попыткой ответа на невероятно важные вопросы.

С одной стороны, максимума мой интерес к этой теме достиг, когда были разработаны системы ИИ-помощников наподобие защиты от мошеннических звонков Google и Apple Intelligence. Обе эти системы нацелены на то, чтобы ИИ был задействован практически во всех частях телефона, даже в личных сообщениях. С другой стороны, я размышлял о негативном влиянии ИИ на конфиденциальность из-за недавних европейских обсуждений законов об обязательном сканировании контента, благодаря которым системы машинного обучения смогут сканировать все отправляемые личные сообщения.

Несмотря на различия этих двух аспектов, я пришёл к мнению, что в конечном итоге они сведутся к одному. А поскольку меня больше десятка лет волнует шифрование и обсуждения «криптовойн», я был вынужден начать задавать неприятные вопросы о будущем сквозного шифрования. Возможно, даже вопросы о том, есть ли у него будущее.

Но давайте начнём с чего-то попроще. Читать дальше →

#сквозное_шифрование #speech_to_text #слежка_за_гражданами #шифрование_данных #тайна_переписки #правоохранительные_органы #ruvds_перевод | @habr_ai
Спецификация формата RTTM: полное техническое описание

RTTM — это формат, в котором каждое событие в аудио точно знает своё место.

Он позволяет системам видеть не просто звук, а структуру разговора: кто говорит, когда, как долго — и что происходит в фоновом шуме.

В этой статье вы найдёте всё, что нужно знать об этом стандарте: как устроены его 10 полей, какую роль он играет в задачах диаризации и распознавания речи, и почему его до сих пор активно используют лидеры индустрии — такие как pyannote.audio, NVIDIA NeMo, DScore и другие. Узнать больше про RTTM!

#rttm #rttm_формат #аннотация_аудио #речевая_разметка #asr_разметка #структура_rttm_файла #речевые_технологии #формат_nist_rttm #speech_to_text_разметка #speaker_diarization | @habr_ai
🔥1
ТОП-5 AI-генераторов для транскрибации аудио в текст (часть 2)

В первой части мы проверили три сервиса: AssemblyAI, Riverside и Teamlogs. Все они пообещали точную и быструю транскрибацию, но на деле…

Первый оказался хорош на английском, но на русском плыл. Второй выдал интересные фишки в интерфейсе, но транскрипцией не порадовал. Третий оказался самым сбалансированным, но и у него с пунктуацией и спикерами беда.

Во второй части — ещё два претендента, у которых всё ещё есть шанс: или вытащить транскрибацию на новый уровень, или окончательно доказать, что без ручной правки пока никуда.

Продолжаем тестирование! Читать далее

#нейросети #транскрибация #расшифровка_аудио #whisper #speech_to_text | @habr_ai