Буду по чуть чуть выкладывать результаты исследований речи. Чтоб с чего то начать.
Это анализ нескольких миллионов данных речи.
Предварительные результаты.
1) подтвердил, что изменение артикуляции языка стремиться к минимизации затрат энергии. Видно нормальное распределение наклонов частоты речи (движение языка)
2) у речи прослеживается фрактальные рисунки распределения наклона частоты и длительности наклона.
3) длительности наклонов частоты речи, предопределены и фиксированные
4) для речи достаточно две частоты. У людей это две форматы, у птиц (продвинутых) два тона.
5) похоже что пение птиц и речь человека равнозначны по структуре, но разные по форме. Есть всё предпосылки к тому, что обе речи можно записать в нотными записями. (Да, любой алфавит видимо можно записать нотами).
6) частоты речи, стремятся и колеблются вокруг "якорей", которыми выступают биологические gammatone фильтры.
7) музыкальные полутона совпадает с gammatone фильтрами.
8) к эмоциям можно применять LLM модели для предсказания.
Это анализ нескольких миллионов данных речи.
Предварительные результаты.
1) подтвердил, что изменение артикуляции языка стремиться к минимизации затрат энергии. Видно нормальное распределение наклонов частоты речи (движение языка)
2) у речи прослеживается фрактальные рисунки распределения наклона частоты и длительности наклона.
3) длительности наклонов частоты речи, предопределены и фиксированные
4) для речи достаточно две частоты. У людей это две форматы, у птиц (продвинутых) два тона.
5) похоже что пение птиц и речь человека равнозначны по структуре, но разные по форме. Есть всё предпосылки к тому, что обе речи можно записать в нотными записями. (Да, любой алфавит видимо можно записать нотами).
6) частоты речи, стремятся и колеблются вокруг "якорей", которыми выступают биологические gammatone фильтры.
7) музыкальные полутона совпадает с gammatone фильтрами.
8) к эмоциям можно применять LLM модели для предсказания.
🔥4👍1
Возможно в прежнем посте было запутано с выводами и объяснением.
Поэтому сделал наглядно, чтобы было понятно какие закономерности были обнаружены.
Если представить центральные частоы гамматон фильтров слуховой коры, как линии нотной записи, то получается высокая корреляция близкая к 1 как для нот так и для частот речи. Речь про 12 тонов (в музыке используется 12 тонов, хотя и рисуют как 7 нот с диез и бемоль).
Частоты речи четко разбиваются по углу наклона, что указывает что они подобно нотам указывают на переходы между полутонами.
Длительность углов наклона разбивается интервалы, каждый кратен друг другу. То есть 30 мсек, 60 мсек, 90 мсек, 120 мсек и т.д Что соответствует обозначению ритма (музыкальным размерам) либо длительности ноты.
Вот такая закономерность и эквивалентность была обнаружена.
Сейчас предстоит детализировать полученные данные, чтобы лучше понять их и убедиться, что это не глюк. Но данные закономерности проявляются уже на нескольких секунда речи, и при нескольких миллионах данных с речью
Поэтому сделал наглядно, чтобы было понятно какие закономерности были обнаружены.
Если представить центральные частоы гамматон фильтров слуховой коры, как линии нотной записи, то получается высокая корреляция близкая к 1 как для нот так и для частот речи. Речь про 12 тонов (в музыке используется 12 тонов, хотя и рисуют как 7 нот с диез и бемоль).
Частоты речи четко разбиваются по углу наклона, что указывает что они подобно нотам указывают на переходы между полутонами.
Длительность углов наклона разбивается интервалы, каждый кратен друг другу. То есть 30 мсек, 60 мсек, 90 мсек, 120 мсек и т.д Что соответствует обозначению ритма (музыкальным размерам) либо длительности ноты.
Вот такая закономерность и эквивалентность была обнаружена.
Сейчас предстоит детализировать полученные данные, чтобы лучше понять их и убедиться, что это не глюк. Но данные закономерности проявляются уже на нескольких секунда речи, и при нескольких миллионах данных с речью
🔥3
Исследования продвигаются очень тяжело.
Нашёл ошибку, из за разбиения аудио на части, возникало округление и возникал рисунок 🌲 из за округления. Теперь я разбиваю по вершинам колебания частоты (пикам).
Понять, что значат данные было сложно. Пришлось делать записи отдельных букв, слова. Анализируя каждое колебание.
1) при колебаниях частоты, она цепляется за интервалы? Да. Это видно когда мы ищем кластеры между пиками колебания частоты формант речи и углом наклона
2) колебания частоты разбиваются на интервалы? Да. У начала и конца слов он отличается от колебаний "тела" слова.
Пробую связать с моторикой (ритм связан с тем, что мы стали ходить на двух ногах, есть разбиение темпа ходьбы/бега и дыхания).
3) углы наклона всех формант при речи, в диапазоне -10, 10. Начало/конец слова больше +-10.
Буду детализировать буквы и переходы, чтобы понять связь.
Зачем? Чтобы сделать новую нотацию речи, включающую тон и буквы. И обучить на ней LLM, чтобы запись включала текст, интонацию, ударение, эмоции
Нашёл ошибку, из за разбиения аудио на части, возникало округление и возникал рисунок 🌲 из за округления. Теперь я разбиваю по вершинам колебания частоты (пикам).
Понять, что значат данные было сложно. Пришлось делать записи отдельных букв, слова. Анализируя каждое колебание.
1) при колебаниях частоты, она цепляется за интервалы? Да. Это видно когда мы ищем кластеры между пиками колебания частоты формант речи и углом наклона
2) колебания частоты разбиваются на интервалы? Да. У начала и конца слов он отличается от колебаний "тела" слова.
Пробую связать с моторикой (ритм связан с тем, что мы стали ходить на двух ногах, есть разбиение темпа ходьбы/бега и дыхания).
3) углы наклона всех формант при речи, в диапазоне -10, 10. Начало/конец слова больше +-10.
Буду детализировать буквы и переходы, чтобы понять связь.
Зачем? Чтобы сделать новую нотацию речи, включающую тон и буквы. И обучить на ней LLM, чтобы запись включала текст, интонацию, ударение, эмоции
🔥3
Первые плоды исследования градиентах речи.
После построения распределения скорости звуков, стало понятно что их скорость меняется очень в узком диапазоне.
Детальный анализ показал, что скорость речи меняется за счёт звуков с 0ым углом наклона частоты. Это логично, если угол наклона 0, ты мы можем бесконечно тянуть звук и его рисунок не изменится.
Поэтому каждые буквы имеют разный диапазон допустимого изменения скорости при произношении, иначе из рисунок измениться.
Если проще, то представьте баян. Его рёбра - это звуки с сильным углом углом наклона, поэтому при растяжении,форма рёбер не меняется.
А меха, это звуки где угол наклона равен 0. Они могут тянуться, сохраняя в целом свою форму.
Итог: тянуться могут звуки с углом наклона близким к 0, остальные, очень слабо,в пределах своего интервала.
В доказательство, я быстро написал код который правильно меняет скорость речи.
Плюс, я получил возможность создания любого пения.
Качество плохое, потому что решение быстрое в лоб, через мои старые функции
После построения распределения скорости звуков, стало понятно что их скорость меняется очень в узком диапазоне.
Детальный анализ показал, что скорость речи меняется за счёт звуков с 0ым углом наклона частоты. Это логично, если угол наклона 0, ты мы можем бесконечно тянуть звук и его рисунок не изменится.
Поэтому каждые буквы имеют разный диапазон допустимого изменения скорости при произношении, иначе из рисунок измениться.
Если проще, то представьте баян. Его рёбра - это звуки с сильным углом углом наклона, поэтому при растяжении,форма рёбер не меняется.
А меха, это звуки где угол наклона равен 0. Они могут тянуться, сохраняя в целом свою форму.
Итог: тянуться могут звуки с углом наклона близким к 0, остальные, очень слабо,в пределах своего интервала.
В доказательство, я быстро написал код который правильно меняет скорость речи.
Плюс, я получил возможность создания любого пения.
Качество плохое, потому что решение быстрое в лоб, через мои старые функции
У человека есть два типа речи: эмоциональная и информативная.
Это два разных языка, но имеют одинаковые звуки.
Если человек настроен на один тип речи, а ему говорят на другом, то он не поймет, так как попытается интерпретировать неверно, так как звуки одинаковые, но задачи и смысл разный. В одних важна словесная структура, а в другом сигнальная и слова практически теряют свой смысл.
1) разная биология процесса.
2) разный алгоритм синтеза интонации, структуры, правил
3) в одном случае язык передается через форманты, в другом через тон.
4) разные задачи - передача логической структуры и передача сигнальной структуры (о внутренней процессах или внешней опасности).
Я сделал две модели вдох-выдох.
В одной главным было передать информацию через скорость - эмоциональная речь.
Вторая, привязка с сердцу и гормонам, точные расчеты дыхания - итог структурированная информационная речь.
Итог, надо:
- разделять синтез речи
- нужны две LLM, где одна будет для информационной, а другая для эмоциональной речи.
Это два разных языка, но имеют одинаковые звуки.
Если человек настроен на один тип речи, а ему говорят на другом, то он не поймет, так как попытается интерпретировать неверно, так как звуки одинаковые, но задачи и смысл разный. В одних важна словесная структура, а в другом сигнальная и слова практически теряют свой смысл.
1) разная биология процесса.
2) разный алгоритм синтеза интонации, структуры, правил
3) в одном случае язык передается через форманты, в другом через тон.
4) разные задачи - передача логической структуры и передача сигнальной структуры (о внутренней процессах или внешней опасности).
Я сделал две модели вдох-выдох.
В одной главным было передать информацию через скорость - эмоциональная речь.
Вторая, привязка с сердцу и гормонам, точные расчеты дыхания - итог структурированная информационная речь.
Итог, надо:
- разделять синтез речи
- нужны две LLM, где одна будет для информационной, а другая для эмоциональной речи.