iFlexible

Сейчас я пытаюсь сделать анализ пауз для определения ритма и темпа для слуха и синтеза речи. Это позволило понять:

1) в тональном языке нет пауз на уровне слов (могут быть, но не как функция разделения). Отсюда и пение птиц, китов и тд

2) более ранний анализ биомов (среды обитания) вместе с текущими открытиями позволил понять, для чего произошло разделение на тональный и нетональные языки на уровне биологии, социума и физики звука. Вода-воздух, тепло-холод, хищник-жертва - три главных катализатора

3) градиенты впервые помогли соотнести три базовых типа звука дельфина, с тремя базовыми типами звука человека. Именно за счёт уровней, растяжения звуков, распределения энергии, градиентов. Без градиентов такое сделать невозможно

4) переход от тональных сигналов к не тональным был плавным (смешенным)

Зачем мне это?
1) мне нужно определять ритм и темп для нейронки слуха и синтеза.
2) я делаю метод анализа произвольной вокализации на слова, фразы для оценки их сложности. Для этого нужно правильно разделять слова

👍4🔥4

582 views13:53

iFlexible

Я закончил анализ пауз. Сейчас готовлю по ним посты.

А пока, небольшое объяснение того, почему градиенты колебаний частоты речи позволили увидеть то, чего раньше ни кто не видел.
1) градиент отражает динамику процесса

2) показывают скрытые движения артикулятора, даже если звука нет, так как язык все равно движется

Про паузы, несколько недель анализа дали результат.
Общие:
- человек ~4,2 слова на выдохе
- животные ~3,2-3.4 слова на выдохе. Люди чуть-чуть ушли вперёд
- распределение кол-ва слов на выдохе, похоже на распределение Пуассона с хаосом
- паузы наглядно показали галлюцинации речи как в LLM и их причины
- объяснили как строится грамматика и речь

Я разобью на несколько мелких постов про паузы.

В частности они помогли объяснить трансформеры, какие биологические процессы те реализуют.

Примеры галлюцинаций на одном выдохе как в LLM:
гришина семнадцать там человек гришина пятнадцать стоит человек на улице едим дальше вот такой маршрут

астана да да да да со стороны травмпункта со стороны травмпункта

410 views18:36

iFlexible

1) мы точно знаем, что при должном обучении некоторые животные понимают человеческую речь. Это происходит при условии, что с животным общаются с раннего детства, когда формируется механизм понимания речи у детей.

2) мы можем исследовать таких особей для получения определенных ответов на их языке на вопрос человека, чтобы затем интерпретировать их речь. Допуская, что животное понимает речь и отвечает доступным ему способом, на уровне своей вокализации.

3) животные не живут в своих стаях и поэтому их "родной язык" не будет развит без общения с сородичами. Но мы можем проверить, нет ли в ответах одинакового вида закономерностей.

4) подобрать животных, которые одновременно живут в стаях где часть животных является носителями языка из дикой среды, а часть выращена под влиянием человека, то такое животное получит обучение своему родному языку от диких сородичей и будет обладать пониманием речи человека.

За счёт этого, мы не понимая животное, можем изучить его "речь".
Попробую собрать данные для этой гипотезы

🔥5

416 views19:29

iFlexible

Прежде чем описывать результаты пауз речи людей и животных, я хочу описать, использованные подходы для анализа пауз нетональной речи. Нетональная речь - это речь, где слова разделены паузами.
1) анализ градиентов интенсивности. Градиенты интенсивности задачу не решили, но показали другие закономерности. Их анализ оставлен на будущее.
2) ASR распознавание речи показал худший результат, я хотел использовать его для сверки.
3) длительность гласных, как признак скорости речи для ее нормализации вместе с паузами. Результат не принесли.
4) определять тишину и разделять ее на интервалы согласно научным данным. Научные исследования летят в мусор. Провал.

Сработала идея, что в пределах одного выдоха, скорость речи более стабильная. И паузы между словами будут меньше по длительности, паузы вдоха за ним. А паузы дыхания не изменяются резко на следующем вдохе. Поэтому на таких интервалах мы можем кластеризировать их общие области.

Анализ пауз был нужен:
- сравнить речь людей и животных.
- найти закономерности

🤔1

448 views16:31

iFlexible

Ниже, результаты кластеризации чел речи.
3000 - все паузы > 3000 мсек мы делаем равным макс паузе, которая < 3000 мсек. Аналогично 1500 мсек.
Нужно, чтобы было проще объединять вместе по кластерам дыхания (их разброс времени больше, чем у слов).
skew - отбрасывания данных с сильной ассиметрией.
Датасет1 - аудио с необработанной речью
Датасет2 - аудио вырезаны строго по речи и разбиты на мелкие. Из за этого мы не можем определит длительность последней паузы.
Так же опробована идея разбиения пауз по пикам колебания длительности.

Человек: мозг генерирует 3.4-4.2 слова на "выдохе".
Плотность 4 слова - чаще всего идут повторы по 4 слова. Например цепока кол-ва слов на выдохе 2 3 2 4 4 4 2. Чаще всего встречается последовательность 4-ех слов.

Синтагмы - это участок речи от паузы до паузы (от вдоха до вдоха). Этот участок планируется мозгом во время вдоха, и произносится во время выдоха.

428 views09:07

About

Blog

Apps

Platform