iFlexible
814 subscribers
2.16K photos
142 videos
65 files
53 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Прежде чем описывать результаты пауз речи людей и животных, я хочу описать, использованные подходы для анализа пауз нетональной речи. Нетональная речь - это речь, где слова разделены паузами.
1) анализ градиентов интенсивности. Градиенты интенсивности задачу не решили, но показали другие закономерности. Их анализ оставлен на будущее.
2) ASR распознавание речи показал худший результат, я хотел использовать его для сверки.
3) длительность гласных, как признак скорости речи для ее нормализации вместе с паузами. Результат не принесли.
4) определять тишину и разделять ее на интервалы согласно научным данным. Научные исследования летят в мусор. Провал.

Сработала идея, что в пределах одного выдоха, скорость речи более стабильная. И паузы между словами будут меньше по длительности, паузы вдоха за ним. А паузы дыхания не изменяются резко на следующем вдохе. Поэтому на таких интервалах мы можем кластеризировать их общие области.

Анализ пауз был нужен:
- сравнить речь людей и животных.
- найти закономерности
🤔1
Ниже, результаты кластеризации чел речи.
3000 - все паузы > 3000 мсек мы делаем равным макс паузе, которая < 3000 мсек. Аналогично 1500 мсек.
Нужно, чтобы было проще объединять вместе по кластерам дыхания (их разброс времени больше, чем у слов).
skew - отбрасывания данных с сильной ассиметрией.
Датасет1 - аудио с необработанной речью
Датасет2 - аудио вырезаны строго по речи и разбиты на мелкие. Из за этого мы не можем определит длительность последней паузы.
Так же опробована идея разбиения пауз по пикам колебания длительности.

Человек: мозг генерирует 3.4-4.2 слова на "выдохе".
Плотность 4 слова - чаще всего идут повторы по 4 слова. Например цепока кол-ва слов на выдохе 2 3 2 4 4 4 2. Чаще всего встречается последовательность 4-ех слов.

Синтагмы - это участок речи от паузы до паузы (от вдоха до вдоха). Этот участок планируется мозгом во время вдоха, и произносится во время выдоха.
Похоже плотность кол-ва слов речи в одной синтагме, является еще одним мощным инструментом к анализу речи и понимаю как она формируется.

Похоже, что с развитием сложного языка у животного, механизм его формирования одинаковый не зависимо от биологической основы (лобные доли у млекопитающих, весикопаллиум у птиц или грибовидные тела у насекомых - выполняют схожие функции).

Сейчас мне нужно собрать более большие датасеты по различным животным, чтобы доказать или опровергнуть общий механизм оптимальной речи у различных видов.

В следующих постах я сначала хотел бы описать, что лежит в основе механизмов разных типов речи (которые я случайно выявил когда сделал синтез эмоциональной речь).

Следующим шагом, как на основе этих механик получается иллюзия "многообразия речи". Там все очень просто. После этого любой сможет разобрать и понять как мозгом был сформирован данный участок речи. Если кратко - это борьба за доминирование между лимбической системой (сигнальная речь) и лобными долями (информационная речь).
Исследования показали, что восприятие речи опирается на динамический иерархический граф пауз, где узлы представляют разные уровни детализации: слоги, слова, фразы и смысловые блоки. Механизм внимания управляет перемещением по графу, переключая фокус между уровнями в зависимости от контекста. Такой подход обеспечивает адаптивную обработку звуковой информации и выявляет ключевую роль пауз в структурировании речи.

Ранее анализ пауз через кластеризацию оказался неэффективным из-за ошибок фильтрации данных, что привело к ошибочному выводу о частоте одно- и двусловных смысловых блоков. Это потребовало пересмотра подхода и детального анализа, который раскрыл графовую природу пауз. Похожий принцип был обнаружен и в зрении, где внимание управляет пространственным графом объектов. Эти открытия дают новые возможности для моделирования когнитивных процессов и создания более эффективных технологий искусственного интеллекта.

Ссылки на научные статьи в комментариях + объяснение, почему кластеризация пауз провалилась
👍1🔥1🤔1