iFlexible
812 subscribers
2.17K photos
142 videos
65 files
54 links
Все вопросы: https://t.me/proxy3d
Download Telegram
На днях попалась статья про Гроккинг.
https://habr.com/ru/articles/840136/
Для меня самое важное в ней:
- длительное обучение приводит к разделению информации на объекты и факты. Первое это как wiki описание объектов, второе это связи объектов. И там показано как это делал openAi (в разбираемой исходной статье).
До этого:
- я писал, про эксперименты в 2000ых по разделению канала левого и правого полушария у эпилептиков. Одно работает как ллм и собирает описание, грамматику, а второе отвечает за связи событий, фактов и тд. (Сейчас очень много исследований уже было).
- обучение ллм сильно отличается при разном порядке подачи одинаковых данных (результат разный), проводили эксперимент в чате Сбера по моей просьбе
- я проводил выше эксперимент с когда ллм были сами орбиторами, пытаясь симулировать связь фактов.
- эксперимент с пониманием времени большими моделями показал, что почти ни какие не справились. (У меня сейчас 5 бананов. Два банана я съел вчера. Сколько у меня бананов?) Я тогда предположил, что важен подход обучения. Где сначала надо подать описания разных объектов, и потом специально обучать фактам/связям на примере обучения понятию время.
- работа с моделью слуховой коры, подсказало на её примере, как можно динамически выстраивать модель, когда она из небольшой постепенно расширяет свой объем при обучении. Где в первую очередь идёт два дата сета: работа с частотами (как объекты) и признаками (связи частот как связи/факты) в разных слоях. Прослеживается аналогия с двумя полушариями.
- развитие модели заложено генетически (например, лекции Сапольского про шизофрению), на примере развития языков с нуля (когда люди с разных стран начинают общаться между собой где то, при миграции и тд) всегда приводит у появлению одной и той же грамматики. То есть развитие связей заложены и одинаковы у всех народов (там отдельно и религия, через тотемы расширяет язык и много всего, простой пример цвета). Вероятно, что сам подход общий и в других частях мозга.
На примере статьи openAi, видно что слои со связями объектов и объектами разделяются при обучении. Тоже самое наблюдается в слуховой коре в зоне А1.

Копать надо где то тут. Я не думаю что это случайность, когда два полушария разделили эти функции и слуховая кора.

Как я сейчас вижу на примере слуховой коры. Надо разделить ллм на две, связав их по аналогии с A1. Где при тренировке надо
1) тренировать проверяя во время тренировки первую на точность объектам, а вторую на точность связям.
2) подготовить специально дата сеты на примере учебников. По ним мы учимся определять объекты и связи между ними.
3) попробовать сделать динамические ллм. Где в процессе обучения, как только достигает переобучения, добавлять новые трансформеры к конкретной модели (словно это рост новых нейронов), чтобы модель не зацикливалась.
К третьему пункту пока вопросы.

После того как опробую обучение модели слуховой коры зоны A1 (в ней как раз такое разделение на частоты и закономерности временные), будет понятно, верна ли гипотеза и если да, то можно ли её перенести на ллм модели.
👍2
Ждал три месяца пока в МГУ пройдут вступительные экзамены, потом ремонт в лабораториях и отпуска сотрудников.
Теперь freeform оптику напылили.
На фото видны дефекты. Пока не ясно, чем они вызваны и повлияют ли на картинку.
На следующий неделе заберу и проверю. Если дефект вызван отливкой, то придется усложнить процесс, добавив дополнительные этапы.

Это оптика для непрозрачного монокуляра 40 гр.
Жду следующую неделю, чтобы оценить этот внешний дефект, отражается ли он на картинке. И дальше, либо скорректирую изготовление либо достаточно этого.
В целом, надо было ещё провести тесты напыления разных смол после отливки, но не подумал об этом. Может из за температурных ограничений, какие то деформировались.
👍8🔥1
Дополняю модель. Речь идёт об изменении частоты тона. Я уже описывал этот паттерн.
https://t.me/greenruff/1851

Меня смущало, почему повышение частоты воспринимается как волнение. Это позволило бы понять, с чем ещё и как связывать повышение частоты речи.
Причина: боль.
Высокие частоты вызывают или граничат с болевыми ощущениями. Процесс боли в ушной улитке можно описать как:
Увеличение активности -> волнение -> болевые ощущения.
В реальности всё это одно и тоже, и просто разные описания стадий одного и того же процесса.
Реакция - активность организма, а выход за допустимые границы боль.
Поэтому крик - это использование данной механики, чтобы привлечь внимание. Так как это вызывает боль или на границе болевого порога слушателей.
Поэтому слушатель реально ощущает "боль" связывая её с кричащим. И может прекратить, только через кричащего.

Почему радость связана с повышением частоты? Во время боли выбрасывается эндорфин, опиод как обезболивающие. Но не доходит до сильной боли. Радость и боль очень рядом.
Авто изменение громкости у синтеза речи, требует понимание процесса.
1) мы автоматически выравниваем свою громкости по внутреннему голосу
2) мы оцениваем внешнюю интенсивность (шумы, голоса и т.д.) для регулировки голоса
3) существует 2е эмоциональные реакции быстрая и медленная. Первая вызвана пептидными гормонами, а вторая стероидными. С голосом они связаны через два типа мышц.
4) расчет уровня громкости и саморегулировки, оказалась сложной задачей. Но удалось правильно сделать расчетную модель и решить.

Сама регулировка происходит через гормоны и регулирование скорости потока выдоха.
В расчетах есть, что улучшить. Но данная работа и так тянет на диссертацию. Поэтому улучшать расчеты буду только, если не хватит точности.
В целом тесты показали, что расчеты дают верный результат громкости с биологической точки зрения.

Буду встраивать. Без этого, громкость меняет скачками на коротких и длинных фразах.

Источники материалов на которые опирался приложу в комментариях.
Добавление громкости речи в модель легкие-сердце, объяснило скорость воздуха при выдохе. И я решил заменить абстрактное значение "сила эмоции" на гормоны и метаболизм.
Замените глюкозу на заряд батареи устройства, энергию на питание, метаболизм потребление. Гормоны на сообщения.
Это дало:
- не от O2, а от CO2 зависит скорость речи и дыхания
- время вдоха, зависит от обмена газов O2/CO2
- объём вдоха от нескольких параметров
- громкость речи от объёма и гормонов, а те на сердце
- группа эмоций от артериального давления
В целом всё процессы взаимосвязаны и влияют друг на друга. Но это позволяет посчитать их.
Я стараюсь отойти от модели эмоций к обобщённой системе. Эмоции это как цвета, вроде есть но длина волны лучше описывает цвет. И либо надо при синтезе уметь смешивать эмоции выдавая сразу несколько, либо формировать их на более низком уровне.
Данная модель не только помогает синтезировать эмоции речи, но и позволяет строить расчёт биологии. Чего нет ни в одном исследовании.
🔥6
Тесты напыления оптики показали, что вышел мусор.
При чем зеркало с внешней стороны есть, а с внутренней нет.
Договорились попробовать напылить хром вместо серебра.
Второе, есть подозрение что протирание оптики перед напылением могло негативно отразится.
Третье, дело в смоле.

Я склоняюсь большее к третьему варианту. Хотя не исключаю второй. Дело в том, что одна из ненапыленных оптик даже без напыления даёт сфокусированную точку.
На третьем фото как раз там где нет напыления, но луч сфокусирован в точку. Фото не удачная, на третьем фото точка.
Как итог на втором фото размытое пятно с напылением.
На третьем без напыления, другой образец.
Но у них разные смолы, не было отрывок оптики.

Дальнейшие шаги
1) попробовать напылить хром
2) предварительно ничего не делать с оптикой перед напылением
3) закрыть всё стороны кроме одной на случай если что то попало
4) изменить смолу.
👍2🔥1
Работы по голографическому HOE принтеру продолжаются.
Меня периодически спрашивают по голографическим волноводам. Это проект в долгую, с проб и ошибок с R&D в среднем 2 года.
Проект сам по себе дорогой. С учётом финансовых трудностей сложнее ещё в несколько раз.
Повезло что оптику я закупал несколько лет под лабораторию. Сейчас она пошла под стендовую сборку.
Нормальный SLM стоит несколько миллионов руб, сейчас же используется более дешёвый аналог чтобы откалибровать всё и сделать нормальный софт.
Сейчас жду стержни нужной длины и втулки для держания снизу.
Попав качестве шасси gcode шасси от лазерного гравёра с шагом 0,01 мм.

После получения, надо будет перепечатать конструкцию на фотополимерном принтере (тестовая из хлипкой смолы и сломалась и что ещё хуже - гнётся).
Затем прикрепить всё к гранитной плите, так как свою оптическую плитку пришлось продать. После этого откалибровать и отладить расчёты софта.
Думаю это займёт 2-4 месяца.
Качество будет плохое, но задача добиться первых результатов.
На прошлой неделе закончил расчёты вдоха. Сложное исследование с реальным R&D.

Надо ещё улучшить расчёты диффузии газов и учесть сердце.

Новая модель:
- учитывает метаболизм в качестве энергии работы
- артериальное давление, решает парасимпатическая или симпатическая система. Влияет на выбор эмоций
- гормоны, вместо силы эмоций

Это скачек в понимании процессов и паттернов эмоций речи.

Выше описаны расчёты вдоха. Они позволяют рассчитать часть паузы в речи.
В основном влияют O2/CO2, гормоны влияют через сопротивление (диаметр бронх и тд).
O2 отвечает за скорость речи.
CO2 за объём вдоха/выдоха.
Эти параметры нужны для расчёта выдоха.

Это даёт:
- моделирование поведения процессов для их изучения
- обобщение знаний для лучшего понимание процессов
- естественное создание паттернов эмоций.
- несколько эмоций одновременно, через смешивание их паттернов
- точный синтез речи

На слайдах показаны 3и шага развития расчётов
1) скорость постоянная
2) скорость изменяется
3) учитывается сопротивление воздуху