Я хотел бы поделиться еще одной моделью. На рисунке я изобразил - как она развивалась.
В комментариях я буду прикладывать ссылки на исследования.
Со своей стороны, я столкнулся с этим при:
1) модель дыхание-сердцебиение. Я думал что ЧСС, повышает тон у эмоций. Но оказалось, что не всегда. И не мог понять почему. До этого я разделял эмоции на группы - повышающие тон и понижающие, просто интуитивно.
2) при анализе данных начитанных эмоций и при анализе озвучек дубляжа фильмов, оказалось что тон зачастую повышается у любой эмоции (даже у гнева). Особенно это было заметно у начитки - человек начинает волноваться (его попросили озвучить) и это волнение повышает тон всех эмоций (получаются фальшивые).
3) я хотел добавить агента в модель, для определения размера собеседника (чтобы как то связать с синтезом ответных эмоций. но не знал как).
После написания методов анализа речи, мне удалось увидеть эту закономерность - она абсолютно всегда. И дальше, анализ исследований, не я тут первый.🤷♂️
В комментариях я буду прикладывать ссылки на исследования.
Со своей стороны, я столкнулся с этим при:
1) модель дыхание-сердцебиение. Я думал что ЧСС, повышает тон у эмоций. Но оказалось, что не всегда. И не мог понять почему. До этого я разделял эмоции на группы - повышающие тон и понижающие, просто интуитивно.
2) при анализе данных начитанных эмоций и при анализе озвучек дубляжа фильмов, оказалось что тон зачастую повышается у любой эмоции (даже у гнева). Особенно это было заметно у начитки - человек начинает волноваться (его попросили озвучить) и это волнение повышает тон всех эмоций (получаются фальшивые).
3) я хотел добавить агента в модель, для определения размера собеседника (чтобы как то связать с синтезом ответных эмоций. но не знал как).
После написания методов анализа речи, мне удалось увидеть эту закономерность - она абсолютно всегда. И дальше, анализ исследований, не я тут первый.🤷♂️
🔥4
1) сделал функции регулировки громкости речи. Через усиления параметров. Итог: роль играет только амплитуда, но у разных частот по разному. Сдвиг частоты - это уже усиление эмоций. Поэтому разделил эти два параметра.
Идеально вписывается в модель легкие-сердце. Амплитуда зависит от выдыхаемого воздуха, частота тона от чсс (гормоны).
2) мировые исследования об эмоциях идут в мусор. Я попытался достроить на них свою новую модель эмоций и она не работает (второй слайд). В исследованиях все притянуто за уши и на практике этого нет. Убита уйма времени.
3) новая модель эмоций - стал развивать свою через эволюцию. (Первый слайд).
Начал со слуховой зоны А1 и А2. Они распознают интенсивность, тон, темп речи и другие примитивные вещи.
На слайде зона А1. Она распознаёт интенсивность.
Я взял речь. Выпрямил тон. Попробовал наложить, что распознают зоны А1 и А2: интенсивность, наклон, скорость, период, ускорение.
Эмоции это смесь базы а1/а2 +текста.
Страх: что там? Можно сказать по-разному. Но он будет страхом.
Идеально вписывается в модель легкие-сердце. Амплитуда зависит от выдыхаемого воздуха, частота тона от чсс (гормоны).
2) мировые исследования об эмоциях идут в мусор. Я попытался достроить на них свою новую модель эмоций и она не работает (второй слайд). В исследованиях все притянуто за уши и на практике этого нет. Убита уйма времени.
3) новая модель эмоций - стал развивать свою через эволюцию. (Первый слайд).
Начал со слуховой зоны А1 и А2. Они распознают интенсивность, тон, темп речи и другие примитивные вещи.
На слайде зона А1. Она распознаёт интенсивность.
Я взял речь. Выпрямил тон. Попробовал наложить, что распознают зоны А1 и А2: интенсивность, наклон, скорость, период, ускорение.
Эмоции это смесь базы а1/а2 +текста.
Страх: что там? Можно сказать по-разному. Но он будет страхом.
🤯1
Один небольшой шаг вперед в понимании эмоции. Сейчас я разбираю слуховую кору.
Теперь это основа при формировании эмоций. Идея в том, что слуховая кора выделяет базовые вещи, изменение которых влияет на эмоции.
Но оказалось, что база не описывает эмоции, она задаёт их характер. Но их классификацию мы делаем по смыслу.
Выше эксперимент.
1) озвучил сбером позитивный и негативный текст
2) выровнял речь, чтобы убрать из нее эмоции
3) наложил на нее одинаковый паттерн: колебание тона тембр, наклон с ростом частоты, увеличение амплитуды, скорость (паузы, длительность).
Оказалось, наш мозг, сам придаёт окрас аудио по его смыслу! Наш мозг сам достраивает эмоции.
Но зная это, чем больше я слушая, тем порой мне кажется что вторая запись не страх (хотя там нервозность). Но когда я только сформировал ее (радости еще не слышал), я четко слышал страх.
Это яркий пример того, что наш мозг сам придаёт эмоциональный контекст исходя из общего смысла. И база (взятая из слуховой коры) формирует лишь ее основу и окрас.
Теперь это основа при формировании эмоций. Идея в том, что слуховая кора выделяет базовые вещи, изменение которых влияет на эмоции.
Но оказалось, что база не описывает эмоции, она задаёт их характер. Но их классификацию мы делаем по смыслу.
Выше эксперимент.
1) озвучил сбером позитивный и негативный текст
2) выровнял речь, чтобы убрать из нее эмоции
3) наложил на нее одинаковый паттерн: колебание тона тембр, наклон с ростом частоты, увеличение амплитуды, скорость (паузы, длительность).
Оказалось, наш мозг, сам придаёт окрас аудио по его смыслу! Наш мозг сам достраивает эмоции.
Но зная это, чем больше я слушая, тем порой мне кажется что вторая запись не страх (хотя там нервозность). Но когда я только сформировал ее (радости еще не слышал), я четко слышал страх.
Это яркий пример того, что наш мозг сам придаёт эмоциональный контекст исходя из общего смысла. И база (взятая из слуховой коры) формирует лишь ее основу и окрас.
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Сделал функцию усиления громкости речи и эмоции.
Усиление - это не обязательно громче. Если речь тише нормы или депрессия, то мы можем усилить тишину и эмоцию.
Сейчас надо сделать доработки, чтобы можно было зеркалить параметры речи. Была громкая, хотим чтобы была тише нормы.
Тут ещё предстоит доработать.
В целом, если речь зеркалится, то должна в основе быть другая эмоция (это по-хорошему). Но на всякий случай доработаю алгоритм.
Этот алгоритм учитывает особенности голоса при его усилении.
Обновил исходники модулей на Яндекс диске. Можно использовать. Модуль test_volume. Позже вынесу как отдельный пример по громкости речи.
Усиление - это не обязательно громче. Если речь тише нормы или депрессия, то мы можем усилить тишину и эмоцию.
Сейчас надо сделать доработки, чтобы можно было зеркалить параметры речи. Была громкая, хотим чтобы была тише нормы.
Тут ещё предстоит доработать.
В целом, если речь зеркалится, то должна в основе быть другая эмоция (это по-хорошему). Но на всякий случай доработаю алгоритм.
Этот алгоритм учитывает особенности голоса при его усилении.
Обновил исходники модулей на Яндекс диске. Можно использовать. Модуль test_volume. Позже вынесу как отдельный пример по громкости речи.
Хотелось вспомнить историю hololens.
В 2008 г Nokia разрабатывает свой первый дифракционный волновод. Боссы решили, что продукт сырой и улучшали технологию.
В 2011 году компания vuzix приобретает лицензию на их волноводы(на фото очки 2011). Крах nokia и покупка майками активов nokia. Тут стартует hololens.
Менеджеры не стали ждать, и решили выпускать продукт как есть, засунув оптику в своё железо и софт.
Да, holo был впереди, но забил на качество картинки, спешили. Вокруг шел чёрный PR magic leap и провал google Glass.
Проблемы holo:
- очень высокий брак оптики. Дикая себестоимость. Узкий рынок для такой громадины.
- мало софта и сложности работы с sdk. Высокая цена в 3,5-6 тыс $ сужает ЦА и разработчиков.
- качество изображения. DOE имеет ограничение на угол обзора компромисс качество/FOV. Цвета плывут, и калибруются софтом индивидуально как могут.
- контракт с армией, принёс убытки.
В итоге компания потратила сотни млн $, выпустила MVP.
Продукт сырой, а технология дорогая.
+строчка в истории AR.
В 2008 г Nokia разрабатывает свой первый дифракционный волновод. Боссы решили, что продукт сырой и улучшали технологию.
В 2011 году компания vuzix приобретает лицензию на их волноводы(на фото очки 2011). Крах nokia и покупка майками активов nokia. Тут стартует hololens.
Менеджеры не стали ждать, и решили выпускать продукт как есть, засунув оптику в своё железо и софт.
Да, holo был впереди, но забил на качество картинки, спешили. Вокруг шел чёрный PR magic leap и провал google Glass.
Проблемы holo:
- очень высокий брак оптики. Дикая себестоимость. Узкий рынок для такой громадины.
- мало софта и сложности работы с sdk. Высокая цена в 3,5-6 тыс $ сужает ЦА и разработчиков.
- качество изображения. DOE имеет ограничение на угол обзора компромисс качество/FOV. Цвета плывут, и калибруются софтом индивидуально как могут.
- контракт с армией, принёс убытки.
В итоге компания потратила сотни млн $, выпустила MVP.
Продукт сырой, а технология дорогая.
+строчка в истории AR.
👍5
Сделал gammatone фильтры. Это фильтры как у человека. Они выделяют центральные частоты. Пока что эти частоты статические, буду делать динамические, чтобы подстраивались под речь.
На аудио слышно, как фильтры приглушили звук авто, а на картинке видно что усилили частоты формант.
Данный фильтр, так же должен улучшить качество распознавания речи в whisper и других ASR.
Так же доделал изменение громкости речи.
1) надо вернуть отдельно ещё усиление глассных
2) оптимизировать код, сейчас в нём считается куча не нужной информации. Чтобы меня до громкость речи в реальном времени
Затем перенесу это в модель легкие-сердце для синтеза и управления эмоциями и на этом данную модель можно считать завершённой. Развивать её есть куда, но надо сделать первую её версию и устроить в синтез.
После этого, думаю попробовать опубликовать приложение, для общения с эмоциональным ассистентом без какого то смысла, как демо возможностей.
Пока делаю модель, слуховой коры для распознавания эмоций собеседника, спикера, смеха и тд
На аудио слышно, как фильтры приглушили звук авто, а на картинке видно что усилили частоты формант.
Данный фильтр, так же должен улучшить качество распознавания речи в whisper и других ASR.
Так же доделал изменение громкости речи.
1) надо вернуть отдельно ещё усиление глассных
2) оптимизировать код, сейчас в нём считается куча не нужной информации. Чтобы меня до громкость речи в реальном времени
Затем перенесу это в модель легкие-сердце для синтеза и управления эмоциями и на этом данную модель можно считать завершённой. Развивать её есть куда, но надо сделать первую её версию и устроить в синтез.
После этого, думаю попробовать опубликовать приложение, для общения с эмоциональным ассистентом без какого то смысла, как демо возможностей.
Пока делаю модель, слуховой коры для распознавания эмоций собеседника, спикера, смеха и тд
👍5
На днях попалась статья про Гроккинг.
https://habr.com/ru/articles/840136/
Для меня самое важное в ней:
- длительное обучение приводит к разделению информации на объекты и факты. Первое это как wiki описание объектов, второе это связи объектов. И там показано как это делал openAi (в разбираемой исходной статье).
До этого:
- я писал, про эксперименты в 2000ых по разделению канала левого и правого полушария у эпилептиков. Одно работает как ллм и собирает описание, грамматику, а второе отвечает за связи событий, фактов и тд. (Сейчас очень много исследований уже было).
- обучение ллм сильно отличается при разном порядке подачи одинаковых данных (результат разный), проводили эксперимент в чате Сбера по моей просьбе
- я проводил выше эксперимент с когда ллм были сами орбиторами, пытаясь симулировать связь фактов.
- эксперимент с пониманием времени большими моделями показал, что почти ни какие не справились. (У меня сейчас 5 бананов. Два банана я съел вчера. Сколько у меня бананов?) Я тогда предположил, что важен подход обучения. Где сначала надо подать описания разных объектов, и потом специально обучать фактам/связям на примере обучения понятию время.
- работа с моделью слуховой коры, подсказало на её примере, как можно динамически выстраивать модель, когда она из небольшой постепенно расширяет свой объем при обучении. Где в первую очередь идёт два дата сета: работа с частотами (как объекты) и признаками (связи частот как связи/факты) в разных слоях. Прослеживается аналогия с двумя полушариями.
- развитие модели заложено генетически (например, лекции Сапольского про шизофрению), на примере развития языков с нуля (когда люди с разных стран начинают общаться между собой где то, при миграции и тд) всегда приводит у появлению одной и той же грамматики. То есть развитие связей заложены и одинаковы у всех народов (там отдельно и религия, через тотемы расширяет язык и много всего, простой пример цвета). Вероятно, что сам подход общий и в других частях мозга.
На примере статьи openAi, видно что слои со связями объектов и объектами разделяются при обучении. Тоже самое наблюдается в слуховой коре в зоне А1.
Копать надо где то тут. Я не думаю что это случайность, когда два полушария разделили эти функции и слуховая кора.
Как я сейчас вижу на примере слуховой коры. Надо разделить ллм на две, связав их по аналогии с A1. Где при тренировке надо
1) тренировать проверяя во время тренировки первую на точность объектам, а вторую на точность связям.
2) подготовить специально дата сеты на примере учебников. По ним мы учимся определять объекты и связи между ними.
3) попробовать сделать динамические ллм. Где в процессе обучения, как только достигает переобучения, добавлять новые трансформеры к конкретной модели (словно это рост новых нейронов), чтобы модель не зацикливалась.
К третьему пункту пока вопросы.
После того как опробую обучение модели слуховой коры зоны A1 (в ней как раз такое разделение на частоты и закономерности временные), будет понятно, верна ли гипотеза и если да, то можно ли её перенести на ллм модели.
https://habr.com/ru/articles/840136/
Для меня самое важное в ней:
- длительное обучение приводит к разделению информации на объекты и факты. Первое это как wiki описание объектов, второе это связи объектов. И там показано как это делал openAi (в разбираемой исходной статье).
До этого:
- я писал, про эксперименты в 2000ых по разделению канала левого и правого полушария у эпилептиков. Одно работает как ллм и собирает описание, грамматику, а второе отвечает за связи событий, фактов и тд. (Сейчас очень много исследований уже было).
- обучение ллм сильно отличается при разном порядке подачи одинаковых данных (результат разный), проводили эксперимент в чате Сбера по моей просьбе
- я проводил выше эксперимент с когда ллм были сами орбиторами, пытаясь симулировать связь фактов.
- эксперимент с пониманием времени большими моделями показал, что почти ни какие не справились. (У меня сейчас 5 бананов. Два банана я съел вчера. Сколько у меня бананов?) Я тогда предположил, что важен подход обучения. Где сначала надо подать описания разных объектов, и потом специально обучать фактам/связям на примере обучения понятию время.
- работа с моделью слуховой коры, подсказало на её примере, как можно динамически выстраивать модель, когда она из небольшой постепенно расширяет свой объем при обучении. Где в первую очередь идёт два дата сета: работа с частотами (как объекты) и признаками (связи частот как связи/факты) в разных слоях. Прослеживается аналогия с двумя полушариями.
- развитие модели заложено генетически (например, лекции Сапольского про шизофрению), на примере развития языков с нуля (когда люди с разных стран начинают общаться между собой где то, при миграции и тд) всегда приводит у появлению одной и той же грамматики. То есть развитие связей заложены и одинаковы у всех народов (там отдельно и религия, через тотемы расширяет язык и много всего, простой пример цвета). Вероятно, что сам подход общий и в других частях мозга.
На примере статьи openAi, видно что слои со связями объектов и объектами разделяются при обучении. Тоже самое наблюдается в слуховой коре в зоне А1.
Копать надо где то тут. Я не думаю что это случайность, когда два полушария разделили эти функции и слуховая кора.
Как я сейчас вижу на примере слуховой коры. Надо разделить ллм на две, связав их по аналогии с A1. Где при тренировке надо
1) тренировать проверяя во время тренировки первую на точность объектам, а вторую на точность связям.
2) подготовить специально дата сеты на примере учебников. По ним мы учимся определять объекты и связи между ними.
3) попробовать сделать динамические ллм. Где в процессе обучения, как только достигает переобучения, добавлять новые трансформеры к конкретной модели (словно это рост новых нейронов), чтобы модель не зацикливалась.
К третьему пункту пока вопросы.
После того как опробую обучение модели слуховой коры зоны A1 (в ней как раз такое разделение на частоты и закономерности временные), будет понятно, верна ли гипотеза и если да, то можно ли её перенести на ллм модели.
Хабр
Могут ли трансформеры «думать»
Недавние исследования показывают, что модели трансформеров способны почти безошибочно решать задачи, требующие нескольких логических шагов. Например, из утверждения А вывести Б и дойти логически до В....
👍2
Ждал три месяца пока в МГУ пройдут вступительные экзамены, потом ремонт в лабораториях и отпуска сотрудников.
Теперь freeform оптику напылили.
На фото видны дефекты. Пока не ясно, чем они вызваны и повлияют ли на картинку.
На следующий неделе заберу и проверю. Если дефект вызван отливкой, то придется усложнить процесс, добавив дополнительные этапы.
Это оптика для непрозрачного монокуляра 40 гр.
Жду следующую неделю, чтобы оценить этот внешний дефект, отражается ли он на картинке. И дальше, либо скорректирую изготовление либо достаточно этого.
В целом, надо было ещё провести тесты напыления разных смол после отливки, но не подумал об этом. Может из за температурных ограничений, какие то деформировались.
Теперь freeform оптику напылили.
На фото видны дефекты. Пока не ясно, чем они вызваны и повлияют ли на картинку.
На следующий неделе заберу и проверю. Если дефект вызван отливкой, то придется усложнить процесс, добавив дополнительные этапы.
Это оптика для непрозрачного монокуляра 40 гр.
Жду следующую неделю, чтобы оценить этот внешний дефект, отражается ли он на картинке. И дальше, либо скорректирую изготовление либо достаточно этого.
В целом, надо было ещё провести тесты напыления разных смол после отливки, но не подумал об этом. Может из за температурных ограничений, какие то деформировались.
👍8🔥1
Дополняю модель. Речь идёт об изменении частоты тона. Я уже описывал этот паттерн.
https://t.me/greenruff/1851
Меня смущало, почему повышение частоты воспринимается как волнение. Это позволило бы понять, с чем ещё и как связывать повышение частоты речи.
Причина: боль.
Высокие частоты вызывают или граничат с болевыми ощущениями. Процесс боли в ушной улитке можно описать как:
Увеличение активности -> волнение -> болевые ощущения.
В реальности всё это одно и тоже, и просто разные описания стадий одного и того же процесса.
Реакция - активность организма, а выход за допустимые границы боль.
Поэтому крик - это использование данной механики, чтобы привлечь внимание. Так как это вызывает боль или на границе болевого порога слушателей.
Поэтому слушатель реально ощущает "боль" связывая её с кричащим. И может прекратить, только через кричащего.
Почему радость связана с повышением частоты? Во время боли выбрасывается эндорфин, опиод как обезболивающие. Но не доходит до сильной боли. Радость и боль очень рядом.
https://t.me/greenruff/1851
Меня смущало, почему повышение частоты воспринимается как волнение. Это позволило бы понять, с чем ещё и как связывать повышение частоты речи.
Причина: боль.
Высокие частоты вызывают или граничат с болевыми ощущениями. Процесс боли в ушной улитке можно описать как:
Увеличение активности -> волнение -> болевые ощущения.
В реальности всё это одно и тоже, и просто разные описания стадий одного и того же процесса.
Реакция - активность организма, а выход за допустимые границы боль.
Поэтому крик - это использование данной механики, чтобы привлечь внимание. Так как это вызывает боль или на границе болевого порога слушателей.
Поэтому слушатель реально ощущает "боль" связывая её с кричащим. И может прекратить, только через кричащего.
Почему радость связана с повышением частоты? Во время боли выбрасывается эндорфин, опиод как обезболивающие. Но не доходит до сильной боли. Радость и боль очень рядом.