iFlexible
814 subscribers
2.16K photos
142 videos
65 files
53 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Я закончил анализ пауз. Сейчас готовлю по ним посты.

А пока, небольшое объяснение того, почему градиенты колебаний частоты речи позволили увидеть то, чего раньше ни кто не видел.
1) градиент отражает динамику процесса

2) показывают скрытые движения артикулятора, даже если звука нет, так как язык все равно движется

Про паузы, несколько недель анализа дали результат.
Общие:
- человек ~4,2 слова на выдохе
- животные ~3,2-3.4 слова на выдохе. Люди чуть-чуть ушли вперёд
- распределение кол-ва слов на выдохе, похоже на распределение Пуассона с хаосом
- паузы наглядно показали галлюцинации речи как в LLM и их причины
- объяснили как строится грамматика и речь

Я разобью на несколько мелких постов про паузы.

В частности они помогли объяснить трансформеры, какие биологические процессы те реализуют.

Примеры галлюцинаций на одном выдохе как в LLM:
гришина семнадцать там человек гришина пятнадцать стоит человек на улице едим дальше вот такой маршрут

астана да да да да со стороны травмпункта со стороны травмпункта
1) мы точно знаем, что при должном обучении некоторые животные понимают человеческую речь. Это происходит при условии, что с животным общаются с раннего детства, когда формируется механизм понимания речи у детей.

2) мы можем исследовать таких особей для получения определенных ответов на их языке на вопрос человека, чтобы затем интерпретировать их речь. Допуская, что животное понимает речь и отвечает доступным ему способом, на уровне своей вокализации.

3) животные не живут в своих стаях и поэтому их "родной язык" не будет развит без общения с сородичами. Но мы можем проверить, нет ли в ответах одинакового вида закономерностей.

4) подобрать животных, которые одновременно живут в стаях где часть животных является носителями языка из дикой среды, а часть выращена под влиянием человека, то такое животное получит обучение своему родному языку от диких сородичей и будет обладать пониманием речи человека.

За счёт этого, мы не понимая животное, можем изучить его "речь".
Попробую собрать данные для этой гипотезы
🔥5
Прежде чем описывать результаты пауз речи людей и животных, я хочу описать, использованные подходы для анализа пауз нетональной речи. Нетональная речь - это речь, где слова разделены паузами.
1) анализ градиентов интенсивности. Градиенты интенсивности задачу не решили, но показали другие закономерности. Их анализ оставлен на будущее.
2) ASR распознавание речи показал худший результат, я хотел использовать его для сверки.
3) длительность гласных, как признак скорости речи для ее нормализации вместе с паузами. Результат не принесли.
4) определять тишину и разделять ее на интервалы согласно научным данным. Научные исследования летят в мусор. Провал.

Сработала идея, что в пределах одного выдоха, скорость речи более стабильная. И паузы между словами будут меньше по длительности, паузы вдоха за ним. А паузы дыхания не изменяются резко на следующем вдохе. Поэтому на таких интервалах мы можем кластеризировать их общие области.

Анализ пауз был нужен:
- сравнить речь людей и животных.
- найти закономерности
🤔1
Ниже, результаты кластеризации чел речи.
3000 - все паузы > 3000 мсек мы делаем равным макс паузе, которая < 3000 мсек. Аналогично 1500 мсек.
Нужно, чтобы было проще объединять вместе по кластерам дыхания (их разброс времени больше, чем у слов).
skew - отбрасывания данных с сильной ассиметрией.
Датасет1 - аудио с необработанной речью
Датасет2 - аудио вырезаны строго по речи и разбиты на мелкие. Из за этого мы не можем определит длительность последней паузы.
Так же опробована идея разбиения пауз по пикам колебания длительности.

Человек: мозг генерирует 3.4-4.2 слова на "выдохе".
Плотность 4 слова - чаще всего идут повторы по 4 слова. Например цепока кол-ва слов на выдохе 2 3 2 4 4 4 2. Чаще всего встречается последовательность 4-ех слов.

Синтагмы - это участок речи от паузы до паузы (от вдоха до вдоха). Этот участок планируется мозгом во время вдоха, и произносится во время выдоха.
Похоже плотность кол-ва слов речи в одной синтагме, является еще одним мощным инструментом к анализу речи и понимаю как она формируется.

Похоже, что с развитием сложного языка у животного, механизм его формирования одинаковый не зависимо от биологической основы (лобные доли у млекопитающих, весикопаллиум у птиц или грибовидные тела у насекомых - выполняют схожие функции).

Сейчас мне нужно собрать более большие датасеты по различным животным, чтобы доказать или опровергнуть общий механизм оптимальной речи у различных видов.

В следующих постах я сначала хотел бы описать, что лежит в основе механизмов разных типов речи (которые я случайно выявил когда сделал синтез эмоциональной речь).

Следующим шагом, как на основе этих механик получается иллюзия "многообразия речи". Там все очень просто. После этого любой сможет разобрать и понять как мозгом был сформирован данный участок речи. Если кратко - это борьба за доминирование между лимбической системой (сигнальная речь) и лобными долями (информационная речь).