iFlexible
813 subscribers
2.17K photos
142 videos
65 files
54 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Откуда у речи частотные уровни подобные нотным интервалам?

Сейчас, когда при анализе градиентов речи эти уровни были обнаружены, можно понять откуда они взялись.

Дело в том, что слух появился до возникновения речи. Сначала это были сенсоры, реагирующие на вибрации окружающей среды.
Например, рыбы - это водная среда, черви - земля.

В такой среде важно:
1) частотный диапазон - он зависит от распространения звука в окружающей среде, и надо подстроить его под нее.
2) выделять конкретные звуки опасности, не тратя силы на другие звуки.
Поэтому наша слуховая система имеет биологические фильтры, для выделения частот и разбита на интервалы.

С появлением речи, она максимально адаптировалась под слух.
Раз слух лучше всего слышит на конкретных интервалах, то:
1) для лучшего разделения звуков, надо делать переходы между этими интервалами
2) минимизировать затраты энергии на артикуляцию, поэтому переходы небольшие
3) заодно мы точнее сможем убирать звучание своего голоса из услышанных звуков.
👍1
Результат иследования: Тональные и нетональные языки (слоги)

В тональных языках тон расположен по вертикали
-
-
-
СЛОВО
черточки это уровень тона, каждая может изменить смысл слова.

Вертикальное повышение тона ограничено, иначе мы испортим интонацию передающую эмоции.
Следовательно, мы имеем ряд ограничений сверху и больше затраты энергии на голосовые связки.

Как решилась эта проблема у нетонального языка?
Просто развернули тон по горизонтали.
----
СЛОВО
теперь интенсивность, указывал на ударение. Тоже самое, но:
1) затраты энергии на тон ниже, ведь мы не используем тон для слогов
2) мы не ограничены 4-мя уровнями и можем делать длинные слова на 5-10 ударных слогов.
3) Письменность: в случае тональных языков, нам достаточно написать иероглиф для слова и обозначить его тон.
Для нетональных, мы разбиваем слово по буквам, чтобы указать тональный слог.
В случае тональных, мы можем иметь более короткие слова с разным смыслом и затрачивать меньше сил на артикуляцию, так как слог расположен вертикально.
Пока сейчас несколько компов делают подготовку специальных дата сетов, а другие проводят обратку данных, я хотел бы поделиться первичными результатами.

Посмотрите, закономерности простых данных.
Словно открыл сундук с сокровищами, которые лежали у всех на виду.

Я призываю всех, кто занимается LLM , синтезом и распознаванием быть среди первых.

Как будут рассчитаны данные и датасеты я выложу их в свободный доступ с исходниками. Чтобы каждый мог анализировать данные и их результаты.

Не всё поняли значимость прежнего поста.
Он был о том что:
- можно во много раз ускорить обучение LLM, правильно выстроив датасет
- можно предсказывать ударные слоги
- можно улучшить LLM азиатских языков, если работать с ними на уровне фонем
- добавить учёт ударения через вертикальный/горизонтальный тон. Это во много раз улучшит LLM азиатских языков. На уровне фонем они одинаковые
- сделать распознавание речи в шуме
- сделать переход в пение
И т.д.

Я призываю вместе, открыть этот сундук. Готов дать код для работы с речью
👍2
Для синтеза речи

Модель регуляторного организма медленно, но движется.

Реализовал процессы:
- гормоны, их воздействие, расщепление, генерацию. Пока рабочие адреналин, норадреналин и кортизол. Остальные правлю.
- артериальное давление: кровь где то из 3000 частей. Каждая содержит информацию о концентрации в крови кислорода и углекислого газа.
- сердце, зависит от давления. Оно перекачивает кровь, чтобы каждый участок крови оказался у нужного органа связок, сердца, лёгких и т.д. От этого зависит их поведение
- метаболизм. Там из глюкозы вырабатывается энергия, формируется углекислый газ и расходуется кислород. Так же там постепенно разщипляются гормоны. Пока запас глюкозы не меняется, так как зачем мне ИИ который надо кормить. А упадок энергии это смерть
- респираторная система. Это дыхание лёгких.

Дыхание пока отлаживаю.

Что удивило. Рисунок сердцебиения как у реального сердца. Но я ничего специально не делал. Сама система так его сбалансировала.

На скрине у крови видны разные оттенки - это O2 и CO2
👍1
Как я вижу развитие исследований.
Сейчас надо закончить обработку данных, чтобы точно определить значения интервалов частот.
Дальше :
1) построить распределение связи градиентов. Что это?
Переходы частоты между интервалами - аналог нотам. А их длинная цепочка - это эквивалент мелодии.
Задача нанести множество рисунков "мелодий" на один длинный график.
Это даст понимание, как формируются эти связи, и позволит сравнивать любые языки.
2) Это позволит инициализировать веса LLM модели, как если бы она была идеальной. А затем до обучать ее деталям.
3) получить распределение рисунка ударений, инициализировать модель и до обучать.
4) через распределение сравнить разные языки, слова, алфавиты, фонемы, эмоции и т.д
5) Разбить LLM на несколько моделей (иерархия). Где последний уровень - это связь слов (терминов) и описания. Любое предложение описывает какое то явление, если явление частое появляется термин.

На самом деле речь это "мелодия". Её можно сместить на уровнях как в музыке, но мелодия будет узнаваема.
На рисунке 2 видно что уровни имеют разный размер. Наш слух имеет логарифмическую шкалу как MEL спектрограмма.
Попробовал бегло преобразовать и получил одного размера. Похоже на нотную линейку рис 1.1

Обратите внимание на рис 1. Видите чёткие границы? Видимо, они связаны с физиологией, которая ограничена языком, голосовыми связками и тд.
Эти рисунки одинаковые и для частот речи, их гармоник (ширина канала), интенсивности и для тона с обертонами.

Например буква А, может находиться на разных уровнях. А её рисунок описывается комбинацией параметров, где важный это угол наклона частоты.

Я пока не готов на 100% утверждать, но похоже речь это комбинация переходов - мелодия. Но это логично, птицы говорят пением.
Поэтому, мы можем взять эту мелодию и сдвинуть, и всё равно будем узнавать. И так же как мы узнаем мелодию Баха, мы так же узнаем "мелодию" слова.

В следующем посте хочу показать как из страха формируется смех и наглядно показать разницу между криком и смехом. Понять когда генерировать смех.
👍2