Ниже, результаты кластеризации чел речи.
3000 - все паузы > 3000 мсек мы делаем равным макс паузе, которая < 3000 мсек. Аналогично 1500 мсек.
Нужно, чтобы было проще объединять вместе по кластерам дыхания (их разброс времени больше, чем у слов).
skew - отбрасывания данных с сильной ассиметрией.
Датасет1 - аудио с необработанной речью
Датасет2 - аудио вырезаны строго по речи и разбиты на мелкие. Из за этого мы не можем определит длительность последней паузы.
Так же опробована идея разбиения пауз по пикам колебания длительности.
Человек: мозг генерирует 3.4-4.2 слова на "выдохе".
Плотность 4 слова - чаще всего идут повторы по 4 слова. Например цепока кол-ва слов на выдохе 2 3 2 4 4 4 2. Чаще всего встречается последовательность 4-ех слов.
Синтагмы - это участок речи от паузы до паузы (от вдоха до вдоха). Этот участок планируется мозгом во время вдоха, и произносится во время выдоха.
3000 - все паузы > 3000 мсек мы делаем равным макс паузе, которая < 3000 мсек. Аналогично 1500 мсек.
Нужно, чтобы было проще объединять вместе по кластерам дыхания (их разброс времени больше, чем у слов).
skew - отбрасывания данных с сильной ассиметрией.
Датасет1 - аудио с необработанной речью
Датасет2 - аудио вырезаны строго по речи и разбиты на мелкие. Из за этого мы не можем определит длительность последней паузы.
Так же опробована идея разбиения пауз по пикам колебания длительности.
Человек: мозг генерирует 3.4-4.2 слова на "выдохе".
Плотность 4 слова - чаще всего идут повторы по 4 слова. Например цепока кол-ва слов на выдохе 2 3 2 4 4 4 2. Чаще всего встречается последовательность 4-ех слов.
Синтагмы - это участок речи от паузы до паузы (от вдоха до вдоха). Этот участок планируется мозгом во время вдоха, и произносится во время выдоха.
Похоже плотность кол-ва слов речи в одной синтагме, является еще одним мощным инструментом к анализу речи и понимаю как она формируется.
Похоже, что с развитием сложного языка у животного, механизм его формирования одинаковый не зависимо от биологической основы (лобные доли у млекопитающих, весикопаллиум у птиц или грибовидные тела у насекомых - выполняют схожие функции).
Сейчас мне нужно собрать более большие датасеты по различным животным, чтобы доказать или опровергнуть общий механизм оптимальной речи у различных видов.
В следующих постах я сначала хотел бы описать, что лежит в основе механизмов разных типов речи (которые я случайно выявил когда сделал синтез эмоциональной речь).
Следующим шагом, как на основе этих механик получается иллюзия "многообразия речи". Там все очень просто. После этого любой сможет разобрать и понять как мозгом был сформирован данный участок речи. Если кратко - это борьба за доминирование между лимбической системой (сигнальная речь) и лобными долями (информационная речь).
Похоже, что с развитием сложного языка у животного, механизм его формирования одинаковый не зависимо от биологической основы (лобные доли у млекопитающих, весикопаллиум у птиц или грибовидные тела у насекомых - выполняют схожие функции).
Сейчас мне нужно собрать более большие датасеты по различным животным, чтобы доказать или опровергнуть общий механизм оптимальной речи у различных видов.
В следующих постах я сначала хотел бы описать, что лежит в основе механизмов разных типов речи (которые я случайно выявил когда сделал синтез эмоциональной речь).
Следующим шагом, как на основе этих механик получается иллюзия "многообразия речи". Там все очень просто. После этого любой сможет разобрать и понять как мозгом был сформирован данный участок речи. Если кратко - это борьба за доминирование между лимбической системой (сигнальная речь) и лобными долями (информационная речь).
Исследования показали, что восприятие речи опирается на динамический иерархический граф пауз, где узлы представляют разные уровни детализации: слоги, слова, фразы и смысловые блоки. Механизм внимания управляет перемещением по графу, переключая фокус между уровнями в зависимости от контекста. Такой подход обеспечивает адаптивную обработку звуковой информации и выявляет ключевую роль пауз в структурировании речи.
Ранее анализ пауз через кластеризацию оказался неэффективным из-за ошибок фильтрации данных, что привело к ошибочному выводу о частоте одно- и двусловных смысловых блоков. Это потребовало пересмотра подхода и детального анализа, который раскрыл графовую природу пауз. Похожий принцип был обнаружен и в зрении, где внимание управляет пространственным графом объектов. Эти открытия дают новые возможности для моделирования когнитивных процессов и создания более эффективных технологий искусственного интеллекта.
Ссылки на научные статьи в комментариях + объяснение, почему кластеризация пауз провалилась
Ранее анализ пауз через кластеризацию оказался неэффективным из-за ошибок фильтрации данных, что привело к ошибочному выводу о частоте одно- и двусловных смысловых блоков. Это потребовало пересмотра подхода и детального анализа, который раскрыл графовую природу пауз. Похожий принцип был обнаружен и в зрении, где внимание управляет пространственным графом объектов. Эти открытия дают новые возможности для моделирования когнитивных процессов и создания более эффективных технологий искусственного интеллекта.
Ссылки на научные статьи в комментариях + объяснение, почему кластеризация пауз провалилась
👍1🔥1🤔1
Речь и зрение формируют графы, которые структурно различны, но функционально схожи: граф речи носит последовательный характер, тогда как граф зрения организован пространственно. Уровень внимания внутри таких графов играет ключевую роль, выступая модулятором сигнала при консолидации в долговременную память. Сильный уровень внимания способствует активации более длинных нейронных цепочек, сохраняя детализированную информацию, тогда как слабый сигнал ограничивает активацию локальными маршрутами. Этот механизм обеспечивает энергоэффективность, позволяя мозгу адаптивно распределять ресурсы в зависимости от значимости события.
Обратная связь с долговременной памятью ослабляет внимание к знакомым событиям или усиливает его для новых. Зоны внимания взаимосвязаны: эмоциональное возбуждение через лимбическую систему может снижать смысловую обработку. Нейромедиаторы регулируют маршруты: кортизол ослабляет влияние лобной коры, дофамин усиливает глобальные цепочки, а норадреналин поддерживает локальную обработку.
Обратная связь с долговременной памятью ослабляет внимание к знакомым событиям или усиливает его для новых. Зоны внимания взаимосвязаны: эмоциональное возбуждение через лимбическую систему может снижать смысловую обработку. Нейромедиаторы регулируют маршруты: кортизол ослабляет влияние лобной коры, дофамин усиливает глобальные цепочки, а норадреналин поддерживает локальную обработку.