iFlexible
812 subscribers
2.17K photos
142 videos
65 files
54 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Первые плоды исследования градиентах речи.
После построения распределения скорости звуков, стало понятно что их скорость меняется очень в узком диапазоне.
Детальный анализ показал, что скорость речи меняется за счёт звуков с 0ым углом наклона частоты. Это логично, если угол наклона 0, ты мы можем бесконечно тянуть звук и его рисунок не изменится.
Поэтому каждые буквы имеют разный диапазон допустимого изменения скорости при произношении, иначе из рисунок измениться.

Если проще, то представьте баян. Его рёбра - это звуки с сильным углом углом наклона, поэтому при растяжении,форма рёбер не меняется.
А меха, это звуки где угол наклона равен 0. Они могут тянуться, сохраняя в целом свою форму.
Итог: тянуться могут звуки с углом наклона близким к 0, остальные, очень слабо,в пределах своего интервала.

В доказательство, я быстро написал код который правильно меняет скорость речи.

Плюс, я получил возможность создания любого пения.

Качество плохое, потому что решение быстрое в лоб, через мои старые функции
У человека есть два типа речи: эмоциональная и информативная.

Это два разных языка, но имеют одинаковые звуки.
Если человек настроен на один тип речи, а ему говорят на другом, то он не поймет, так как попытается интерпретировать неверно, так как звуки одинаковые, но задачи и смысл разный. В одних важна словесная структура, а в другом сигнальная и слова практически теряют свой смысл.

1) разная биология процесса.
2) разный алгоритм синтеза интонации, структуры, правил
3) в одном случае язык передается через форманты, в другом через тон.
4) разные задачи - передача логической структуры и передача сигнальной структуры (о внутренней процессах или внешней опасности).

Я сделал две модели вдох-выдох.
В одной главным было передать информацию через скорость - эмоциональная речь.

Вторая, привязка с сердцу и гормонам, точные расчеты дыхания - итог структурированная информационная речь.

Итог, надо:
- разделять синтез речи
- нужны две LLM, где одна будет для информационной, а другая для эмоциональной речи.
Откуда у речи частотные уровни подобные нотным интервалам?

Сейчас, когда при анализе градиентов речи эти уровни были обнаружены, можно понять откуда они взялись.

Дело в том, что слух появился до возникновения речи. Сначала это были сенсоры, реагирующие на вибрации окружающей среды.
Например, рыбы - это водная среда, черви - земля.

В такой среде важно:
1) частотный диапазон - он зависит от распространения звука в окружающей среде, и надо подстроить его под нее.
2) выделять конкретные звуки опасности, не тратя силы на другие звуки.
Поэтому наша слуховая система имеет биологические фильтры, для выделения частот и разбита на интервалы.

С появлением речи, она максимально адаптировалась под слух.
Раз слух лучше всего слышит на конкретных интервалах, то:
1) для лучшего разделения звуков, надо делать переходы между этими интервалами
2) минимизировать затраты энергии на артикуляцию, поэтому переходы небольшие
3) заодно мы точнее сможем убирать звучание своего голоса из услышанных звуков.
👍1