iFlexible
812 subscribers
2.17K photos
142 videos
65 files
54 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Разобрал некоторые фонемы на паттерны.
Есть всего три базовых паттерна.
/-\ увеличение, не изменяется, уменьшение.
На уровне частот, это контрастность, по которым фонемы разделяются
На уровне формант - они накладываются на ширину канала. Где он либо не меняется, либо растёт, либо уменьшается. При этом у этих линий есть угол наклона. Как при кодировании изображения. Этот паттерн задаёт изначальный уровень ширины канала и его интенсивность (меняется, уменьшается, растёт)
А так же он накладывается на центральную частоту форманты, растёт она, не меняется, уменьшается.

Таким образом для каждой из 5ии формант мы имеем свой уникальный рисунок. А комбинация этих рисунков, задаёт уникальный рисунок фонемы.

Благодаря этому, мы можем сдвигать рисунок по частоте и он всё равно сохраняется. Поэтому легко распознать фонему на любой частоте, так как её рисунок остаётся неизменным.

Из 3ех базовых паттернов, кодируется фонема.
Тут только 2-4 форманты, так как настройки были под речь дельфинов. Но сути не меняет.
Пришёл к выводу:
1) основа - паттерны наклона/градиента характеристики. Склеивая их, получаем динамику параметров во времени
2) Мы распознаем по динамике, а не по звуку. Нет чистой К, есть КА, КЭ, КО и тд. Мы распознаем К по динамике за время T
3) паттерн градиент --> паттерн прото эмоций -> сочетания звуков -> морфемы/слова. Например,
Чиуауа (порода собак) - этим словом невозможно выразить нервозность, так как сочетание звуков делает его мелодичным.
Праздник - сочетание согласным, делает его усиливающим нервозность в середине.
Монстр - усиливает нервозность из за согласных.
Это тревожность в разном контексте, положительном и отрицательным. Сами прото эмоции, лишь усиливают контекст.
4) каждое слово - имеет частоту использования и степень выраженности паттернов прото эмоций.
Каждое событие, объект в мире ранжируются по частоте появления и паттернам угрозы/тревоги/активности.
Получаем отсортированные колонки сочетания звуков и объектов. Где они сопоставляются друг другу.
👍4
Закончил предварительный анализ речи животных. Готовлю нейронную сетку слуховой коры, поэтому важно понять, что должно лежать в основе дата сета.

1) мы не различаем речь животных, слыша просто кар, мяю и кряхтение дельфинов. Гипотеза была в том, что если выровнять их речь с человеческой (тон, скорость, форманты), то мы начнем слышать интонацию и лучше различать ее, так как наша слуховая сетка натренирована находить паттерны только в человеческом диапазон, обобщая весь остальной.
Это гипотеза верная. Послушайте аудио - и вы услышите интонацию и лучше различите отдельные звуки.

2) хотел проверить, на сколько развит язык у отдельных животных. Как и предполагал - домашние кошки просто не имеют возможность развить язык (встретилась одна запись неизвестных кошек, возможно уличные или уникумы). У дельфина речь развита не хуже, чем у человека, у ворон близка к людям.

Вывод? Обучать слуховую кору надо на всех языках сразу, для поиска закономерностей на разных частотах.
🔥5
Буду по чуть чуть выкладывать результаты исследований речи. Чтоб с чего то начать.
Это анализ нескольких миллионов данных речи.
Предварительные результаты.

1) подтвердил, что изменение артикуляции языка стремиться к минимизации затрат энергии. Видно нормальное распределение наклонов частоты речи (движение языка)
2) у речи прослеживается фрактальные рисунки распределения наклона частоты и длительности наклона.
3) длительности наклонов частоты речи, предопределены и фиксированные
4) для речи достаточно две частоты. У людей это две форматы, у птиц (продвинутых) два тона.
5) похоже что пение птиц и речь человека равнозначны по структуре, но разные по форме. Есть всё предпосылки к тому, что обе речи можно записать в нотными записями. (Да, любой алфавит видимо можно записать нотами).
6) частоты речи, стремятся и колеблются вокруг "якорей", которыми выступают биологические gammatone фильтры.
7) музыкальные полутона совпадает с gammatone фильтрами.
8) к эмоциям можно применять LLM модели для предсказания.
🔥4👍1
Возможно в прежнем посте было запутано с выводами и объяснением.
Поэтому сделал наглядно, чтобы было понятно какие закономерности были обнаружены.
Если представить центральные частоы гамматон фильтров слуховой коры, как линии нотной записи, то получается высокая корреляция близкая к 1 как для нот так и для частот речи. Речь про 12 тонов (в музыке используется 12 тонов, хотя и рисуют как 7 нот с диез и бемоль).

Частоты речи четко разбиваются по углу наклона, что указывает что они подобно нотам указывают на переходы между полутонами.

Длительность углов наклона разбивается интервалы, каждый кратен друг другу. То есть 30 мсек, 60 мсек, 90 мсек, 120 мсек и т.д Что соответствует обозначению ритма (музыкальным размерам) либо длительности ноты.

Вот такая закономерность и эквивалентность была обнаружена.

Сейчас предстоит детализировать полученные данные, чтобы лучше понять их и убедиться, что это не глюк. Но данные закономерности проявляются уже на нескольких секунда речи, и при нескольких миллионах данных с речью
🔥3
Исследования продвигаются очень тяжело.
Нашёл ошибку, из за разбиения аудио на части, возникало округление и возникал рисунок 🌲 из за округления. Теперь я разбиваю по вершинам колебания частоты (пикам).

Понять, что значат данные было сложно. Пришлось делать записи отдельных букв, слова. Анализируя каждое колебание.

1) при колебаниях частоты, она цепляется за интервалы? Да. Это видно когда мы ищем кластеры между пиками колебания частоты формант речи и углом наклона
2) колебания частоты разбиваются на интервалы? Да. У начала и конца слов он отличается от колебаний "тела" слова.
Пробую связать с моторикой (ритм связан с тем, что мы стали ходить на двух ногах, есть разбиение темпа ходьбы/бега и дыхания).
3) углы наклона всех формант при речи, в диапазоне -10, 10. Начало/конец слова больше +-10.

Буду детализировать буквы и переходы, чтобы понять связь.

Зачем? Чтобы сделать новую нотацию речи, включающую тон и буквы. И обучить на ней LLM, чтобы запись включала текст, интонацию, ударение, эмоции
🔥3