У человека есть два типа речи: эмоциональная и информативная.
Это два разных языка, но имеют одинаковые звуки.
Если человек настроен на один тип речи, а ему говорят на другом, то он не поймет, так как попытается интерпретировать неверно, так как звуки одинаковые, но задачи и смысл разный. В одних важна словесная структура, а в другом сигнальная и слова практически теряют свой смысл.
1) разная биология процесса.
2) разный алгоритм синтеза интонации, структуры, правил
3) в одном случае язык передается через форманты, в другом через тон.
4) разные задачи - передача логической структуры и передача сигнальной структуры (о внутренней процессах или внешней опасности).
Я сделал две модели вдох-выдох.
В одной главным было передать информацию через скорость - эмоциональная речь.
Вторая, привязка с сердцу и гормонам, точные расчеты дыхания - итог структурированная информационная речь.
Итог, надо:
- разделять синтез речи
- нужны две LLM, где одна будет для информационной, а другая для эмоциональной речи.
Это два разных языка, но имеют одинаковые звуки.
Если человек настроен на один тип речи, а ему говорят на другом, то он не поймет, так как попытается интерпретировать неверно, так как звуки одинаковые, но задачи и смысл разный. В одних важна словесная структура, а в другом сигнальная и слова практически теряют свой смысл.
1) разная биология процесса.
2) разный алгоритм синтеза интонации, структуры, правил
3) в одном случае язык передается через форманты, в другом через тон.
4) разные задачи - передача логической структуры и передача сигнальной структуры (о внутренней процессах или внешней опасности).
Я сделал две модели вдох-выдох.
В одной главным было передать информацию через скорость - эмоциональная речь.
Вторая, привязка с сердцу и гормонам, точные расчеты дыхания - итог структурированная информационная речь.
Итог, надо:
- разделять синтез речи
- нужны две LLM, где одна будет для информационной, а другая для эмоциональной речи.
Откуда у речи частотные уровни подобные нотным интервалам?
Сейчас, когда при анализе градиентов речи эти уровни были обнаружены, можно понять откуда они взялись.
Дело в том, что слух появился до возникновения речи. Сначала это были сенсоры, реагирующие на вибрации окружающей среды.
Например, рыбы - это водная среда, черви - земля.
В такой среде важно:
1) частотный диапазон - он зависит от распространения звука в окружающей среде, и надо подстроить его под нее.
2) выделять конкретные звуки опасности, не тратя силы на другие звуки.
Поэтому наша слуховая система имеет биологические фильтры, для выделения частот и разбита на интервалы.
С появлением речи, она максимально адаптировалась под слух.
Раз слух лучше всего слышит на конкретных интервалах, то:
1) для лучшего разделения звуков, надо делать переходы между этими интервалами
2) минимизировать затраты энергии на артикуляцию, поэтому переходы небольшие
3) заодно мы точнее сможем убирать звучание своего голоса из услышанных звуков.
Сейчас, когда при анализе градиентов речи эти уровни были обнаружены, можно понять откуда они взялись.
Дело в том, что слух появился до возникновения речи. Сначала это были сенсоры, реагирующие на вибрации окружающей среды.
Например, рыбы - это водная среда, черви - земля.
В такой среде важно:
1) частотный диапазон - он зависит от распространения звука в окружающей среде, и надо подстроить его под нее.
2) выделять конкретные звуки опасности, не тратя силы на другие звуки.
Поэтому наша слуховая система имеет биологические фильтры, для выделения частот и разбита на интервалы.
С появлением речи, она максимально адаптировалась под слух.
Раз слух лучше всего слышит на конкретных интервалах, то:
1) для лучшего разделения звуков, надо делать переходы между этими интервалами
2) минимизировать затраты энергии на артикуляцию, поэтому переходы небольшие
3) заодно мы точнее сможем убирать звучание своего голоса из услышанных звуков.
👍1
Результат иследования: Тональные и нетональные языки (слоги)
В тональных языках тон расположен по вертикали
-
-
-
СЛОВО
черточки это уровень тона, каждая может изменить смысл слова.
Вертикальное повышение тона ограничено, иначе мы испортим интонацию передающую эмоции.
Следовательно, мы имеем ряд ограничений сверху и больше затраты энергии на голосовые связки.
Как решилась эта проблема у нетонального языка?
Просто развернули тон по горизонтали.
----
СЛОВО
теперь интенсивность, указывал на ударение. Тоже самое, но:
1) затраты энергии на тон ниже, ведь мы не используем тон для слогов
2) мы не ограничены 4-мя уровнями и можем делать длинные слова на 5-10 ударных слогов.
3) Письменность: в случае тональных языков, нам достаточно написать иероглиф для слова и обозначить его тон.
Для нетональных, мы разбиваем слово по буквам, чтобы указать тональный слог.
В случае тональных, мы можем иметь более короткие слова с разным смыслом и затрачивать меньше сил на артикуляцию, так как слог расположен вертикально.
В тональных языках тон расположен по вертикали
-
-
-
СЛОВО
черточки это уровень тона, каждая может изменить смысл слова.
Вертикальное повышение тона ограничено, иначе мы испортим интонацию передающую эмоции.
Следовательно, мы имеем ряд ограничений сверху и больше затраты энергии на голосовые связки.
Как решилась эта проблема у нетонального языка?
Просто развернули тон по горизонтали.
----
СЛОВО
теперь интенсивность, указывал на ударение. Тоже самое, но:
1) затраты энергии на тон ниже, ведь мы не используем тон для слогов
2) мы не ограничены 4-мя уровнями и можем делать длинные слова на 5-10 ударных слогов.
3) Письменность: в случае тональных языков, нам достаточно написать иероглиф для слова и обозначить его тон.
Для нетональных, мы разбиваем слово по буквам, чтобы указать тональный слог.
В случае тональных, мы можем иметь более короткие слова с разным смыслом и затрачивать меньше сил на артикуляцию, так как слог расположен вертикально.
Пока сейчас несколько компов делают подготовку специальных дата сетов, а другие проводят обратку данных, я хотел бы поделиться первичными результатами.
Посмотрите, закономерности простых данных.
Словно открыл сундук с сокровищами, которые лежали у всех на виду.
Я призываю всех, кто занимается LLM , синтезом и распознаванием быть среди первых.
Как будут рассчитаны данные и датасеты я выложу их в свободный доступ с исходниками. Чтобы каждый мог анализировать данные и их результаты.
Не всё поняли значимость прежнего поста.
Он был о том что:
- можно во много раз ускорить обучение LLM, правильно выстроив датасет
- можно предсказывать ударные слоги
- можно улучшить LLM азиатских языков, если работать с ними на уровне фонем
- добавить учёт ударения через вертикальный/горизонтальный тон. Это во много раз улучшит LLM азиатских языков. На уровне фонем они одинаковые
- сделать распознавание речи в шуме
- сделать переход в пение
И т.д.
Я призываю вместе, открыть этот сундук. Готов дать код для работы с речью
Посмотрите, закономерности простых данных.
Словно открыл сундук с сокровищами, которые лежали у всех на виду.
Я призываю всех, кто занимается LLM , синтезом и распознаванием быть среди первых.
Как будут рассчитаны данные и датасеты я выложу их в свободный доступ с исходниками. Чтобы каждый мог анализировать данные и их результаты.
Не всё поняли значимость прежнего поста.
Он был о том что:
- можно во много раз ускорить обучение LLM, правильно выстроив датасет
- можно предсказывать ударные слоги
- можно улучшить LLM азиатских языков, если работать с ними на уровне фонем
- добавить учёт ударения через вертикальный/горизонтальный тон. Это во много раз улучшит LLM азиатских языков. На уровне фонем они одинаковые
- сделать распознавание речи в шуме
- сделать переход в пение
И т.д.
Я призываю вместе, открыть этот сундук. Готов дать код для работы с речью
👍2