iFlexible
812 subscribers
2.17K photos
142 videos
65 files
54 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Закончил предварительный анализ речи животных. Готовлю нейронную сетку слуховой коры, поэтому важно понять, что должно лежать в основе дата сета.

1) мы не различаем речь животных, слыша просто кар, мяю и кряхтение дельфинов. Гипотеза была в том, что если выровнять их речь с человеческой (тон, скорость, форманты), то мы начнем слышать интонацию и лучше различать ее, так как наша слуховая сетка натренирована находить паттерны только в человеческом диапазон, обобщая весь остальной.
Это гипотеза верная. Послушайте аудио - и вы услышите интонацию и лучше различите отдельные звуки.

2) хотел проверить, на сколько развит язык у отдельных животных. Как и предполагал - домашние кошки просто не имеют возможность развить язык (встретилась одна запись неизвестных кошек, возможно уличные или уникумы). У дельфина речь развита не хуже, чем у человека, у ворон близка к людям.

Вывод? Обучать слуховую кору надо на всех языках сразу, для поиска закономерностей на разных частотах.
🔥5
Буду по чуть чуть выкладывать результаты исследований речи. Чтоб с чего то начать.
Это анализ нескольких миллионов данных речи.
Предварительные результаты.

1) подтвердил, что изменение артикуляции языка стремиться к минимизации затрат энергии. Видно нормальное распределение наклонов частоты речи (движение языка)
2) у речи прослеживается фрактальные рисунки распределения наклона частоты и длительности наклона.
3) длительности наклонов частоты речи, предопределены и фиксированные
4) для речи достаточно две частоты. У людей это две форматы, у птиц (продвинутых) два тона.
5) похоже что пение птиц и речь человека равнозначны по структуре, но разные по форме. Есть всё предпосылки к тому, что обе речи можно записать в нотными записями. (Да, любой алфавит видимо можно записать нотами).
6) частоты речи, стремятся и колеблются вокруг "якорей", которыми выступают биологические gammatone фильтры.
7) музыкальные полутона совпадает с gammatone фильтрами.
8) к эмоциям можно применять LLM модели для предсказания.
🔥4👍1
Возможно в прежнем посте было запутано с выводами и объяснением.
Поэтому сделал наглядно, чтобы было понятно какие закономерности были обнаружены.
Если представить центральные частоы гамматон фильтров слуховой коры, как линии нотной записи, то получается высокая корреляция близкая к 1 как для нот так и для частот речи. Речь про 12 тонов (в музыке используется 12 тонов, хотя и рисуют как 7 нот с диез и бемоль).

Частоты речи четко разбиваются по углу наклона, что указывает что они подобно нотам указывают на переходы между полутонами.

Длительность углов наклона разбивается интервалы, каждый кратен друг другу. То есть 30 мсек, 60 мсек, 90 мсек, 120 мсек и т.д Что соответствует обозначению ритма (музыкальным размерам) либо длительности ноты.

Вот такая закономерность и эквивалентность была обнаружена.

Сейчас предстоит детализировать полученные данные, чтобы лучше понять их и убедиться, что это не глюк. Но данные закономерности проявляются уже на нескольких секунда речи, и при нескольких миллионах данных с речью
🔥3
Исследования продвигаются очень тяжело.
Нашёл ошибку, из за разбиения аудио на части, возникало округление и возникал рисунок 🌲 из за округления. Теперь я разбиваю по вершинам колебания частоты (пикам).

Понять, что значат данные было сложно. Пришлось делать записи отдельных букв, слова. Анализируя каждое колебание.

1) при колебаниях частоты, она цепляется за интервалы? Да. Это видно когда мы ищем кластеры между пиками колебания частоты формант речи и углом наклона
2) колебания частоты разбиваются на интервалы? Да. У начала и конца слов он отличается от колебаний "тела" слова.
Пробую связать с моторикой (ритм связан с тем, что мы стали ходить на двух ногах, есть разбиение темпа ходьбы/бега и дыхания).
3) углы наклона всех формант при речи, в диапазоне -10, 10. Начало/конец слова больше +-10.

Буду детализировать буквы и переходы, чтобы понять связь.

Зачем? Чтобы сделать новую нотацию речи, включающую тон и буквы. И обучить на ней LLM, чтобы запись включала текст, интонацию, ударение, эмоции
🔥3
Первые плоды исследования градиентах речи.
После построения распределения скорости звуков, стало понятно что их скорость меняется очень в узком диапазоне.
Детальный анализ показал, что скорость речи меняется за счёт звуков с 0ым углом наклона частоты. Это логично, если угол наклона 0, ты мы можем бесконечно тянуть звук и его рисунок не изменится.
Поэтому каждые буквы имеют разный диапазон допустимого изменения скорости при произношении, иначе из рисунок измениться.

Если проще, то представьте баян. Его рёбра - это звуки с сильным углом углом наклона, поэтому при растяжении,форма рёбер не меняется.
А меха, это звуки где угол наклона равен 0. Они могут тянуться, сохраняя в целом свою форму.
Итог: тянуться могут звуки с углом наклона близким к 0, остальные, очень слабо,в пределах своего интервала.

В доказательство, я быстро написал код который правильно меняет скорость речи.

Плюс, я получил возможность создания любого пения.

Качество плохое, потому что решение быстрое в лоб, через мои старые функции