Флуктуация это одна из тех тем, которые еще предстоит исследовать.
На сегодня данные результаты получены экспериментальным путем. Не смотря на то, что они опираются на собственные исследования:
1) градиентов речи
2) пауз речи
3) теорию хаоса
4) асимметрию сигнала
цифры шума по умолчанию остаются эмпирическими, хотя и согласуются с множеством других исследований.
Думаю, что математическим доказательством физического смысла флуктуаций должно стать исследование асимметрии сигнала. Где начальная небольшая асимметрия порождает хаос.
Практическая сторона:
реализация флуктуации в функциях активации позволила избежать ям локальных минимумов. Система просто не может в них застрять. Всегда существует сигнал, который при наличии флуктуации способен вытащить ее из локальной ямы (шум зависит от уровня сигнала).
Благодаря этому, обучая на 1-10 примерах 1000-5000 раз, система никогда не застрянет на одном результате при продолжении обучения на других примеров.
В выложенных исходниках это: sk_func_active.py
На сегодня данные результаты получены экспериментальным путем. Не смотря на то, что они опираются на собственные исследования:
1) градиентов речи
2) пауз речи
3) теорию хаоса
4) асимметрию сигнала
цифры шума по умолчанию остаются эмпирическими, хотя и согласуются с множеством других исследований.
Думаю, что математическим доказательством физического смысла флуктуаций должно стать исследование асимметрии сигнала. Где начальная небольшая асимметрия порождает хаос.
Практическая сторона:
реализация флуктуации в функциях активации позволила избежать ям локальных минимумов. Система просто не может в них застрять. Всегда существует сигнал, который при наличии флуктуации способен вытащить ее из локальной ямы (шум зависит от уровня сигнала).
Благодаря этому, обучая на 1-10 примерах 1000-5000 раз, система никогда не застрянет на одном результате при продолжении обучения на других примеров.
В выложенных исходниках это: sk_func_active.py
👍2
Традиционное обучение нейросетей с использованием глобальной ошибки сталкивается с проблемами, такими как конфликты между блоками сети. Когда один блок генерирует ошибку, которая минимизирует глобальную ошибку, но на самом деле ухудшает результаты других блоков. Это приводит к внутренним противоречиям и снижению эффективности обучения.
Новый метод:
Каждый блок обучается независимо, что позволяет избегать конфликтов между блоками и ускоряет процесс.
Независимая коррекция ошибок: Каждый блок получает локальную ошибку и обновляется без влияния других блоков, что предотвращает «A против NOT A» конфликты.
Ускорение обучения: Распараллеливание блоков на разных GPU или машинах значительно увеличивает скорость обучения и улучшает качество, особенно для крупных моделей (LLM).
Устранение конфликтов: Блоки не зависят от друг друга, что повышает стабильность и уменьшает расхождения в обучении.
Метод идеально подходит для масштабируемого и эффективного обучения современных глубоких сетей.
Новый метод:
Каждый блок обучается независимо, что позволяет избегать конфликтов между блоками и ускоряет процесс.
Независимая коррекция ошибок: Каждый блок получает локальную ошибку и обновляется без влияния других блоков, что предотвращает «A против NOT A» конфликты.
Ускорение обучения: Распараллеливание блоков на разных GPU или машинах значительно увеличивает скорость обучения и улучшает качество, особенно для крупных моделей (LLM).
Устранение конфликтов: Блоки не зависят от друг друга, что повышает стабильность и уменьшает расхождения в обучении.
Метод идеально подходит для масштабируемого и эффективного обучения современных глубоких сетей.
👍2🔥1
Пока я готовлю следующий пост, хотел показать обобщение схемы саморефлексии нашего мозга.
1) саму схему разберу позже
2) здесь только аналог обработки текста
3) нет некоторых участков, которые косвенно связаны с саморефлексией
4) нет областей до таламуса
5) LLM сегодня - это STS область.
Зачем я тогда ее выкладываю?
Я хочу, чтобы вы постарались тоже увидеть эту матрёшку шестислойной модели на разных уровнях. А если точнее, их даже можно свести к 3ем функциям. Я обозначил из разным цветом.
Внутри каждого такая же матрёшка. Где то функция редуцирована, где то делиться.
Когда я дойду до разбора, то постараюсь показать, что она простая. А саморефлексия в мозге настолько оптимизирована, что я с восхищением смотрю на это.
Мысли циркулирует по петле, одновременно влияя на внешние сигналы и гоняя по кругу внутренние.
Конечно это не весь мозг, а только схема саморефлексии.
Я постепенно буду детализировать эту схему.
1) саму схему разберу позже
2) здесь только аналог обработки текста
3) нет некоторых участков, которые косвенно связаны с саморефлексией
4) нет областей до таламуса
5) LLM сегодня - это STS область.
Зачем я тогда ее выкладываю?
Я хочу, чтобы вы постарались тоже увидеть эту матрёшку шестислойной модели на разных уровнях. А если точнее, их даже можно свести к 3ем функциям. Я обозначил из разным цветом.
Внутри каждого такая же матрёшка. Где то функция редуцирована, где то делиться.
Когда я дойду до разбора, то постараюсь показать, что она простая. А саморефлексия в мозге настолько оптимизирована, что я с восхищением смотрю на это.
Мысли циркулирует по петле, одновременно влияя на внешние сигналы и гоняя по кругу внутренние.
Конечно это не весь мозг, а только схема саморефлексии.
Я постепенно буду детализировать эту схему.
👏1
Асимметрия сигнала, наверное самое важное, что надо понять для
1) понимания, как работает мозг от нейрона до зон мозга
2) как можно улучшить работу любой сети, так как любой сигнал имеющий признак/паттерн имеет асимметрию
3) как устроена асимметрия не только на уровне нейронной модели, но и как обобщенный инструмент при анализе любого сигнала: физика, химия, биология и так далее.
Асимметрию вероятности придумал не я. Она используется в биологических моделях, в инженерных при анализе дефектов или шума и автоматах (Symbolic Dynamic Filtering, PFSA, HMM-подходы).
Тогда что нового?
1) Унификация трёх типов асимметрии
2) Иерархия автоматов
3) Использование остаточного сигнала как локальной ошибки для саморегуляции без явного внешнего обучения
Таким образом, основная идея «выделения устойчивых асимметрий через вложенные автоматы» отлично ложится на уже существующие методы SDF/PFSA и higher-order спектральную аналитику, но при этом расширяет их.
1) понимания, как работает мозг от нейрона до зон мозга
2) как можно улучшить работу любой сети, так как любой сигнал имеющий признак/паттерн имеет асимметрию
3) как устроена асимметрия не только на уровне нейронной модели, но и как обобщенный инструмент при анализе любого сигнала: физика, химия, биология и так далее.
Асимметрию вероятности придумал не я. Она используется в биологических моделях, в инженерных при анализе дефектов или шума и автоматах (Symbolic Dynamic Filtering, PFSA, HMM-подходы).
Тогда что нового?
1) Унификация трёх типов асимметрии
2) Иерархия автоматов
3) Использование остаточного сигнала как локальной ошибки для саморегуляции без явного внешнего обучения
Таким образом, основная идея «выделения устойчивых асимметрий через вложенные автоматы» отлично ложится на уже существующие методы SDF/PFSA и higher-order спектральную аналитику, но при этом расширяет их.
👍1