Традиционное обучение нейросетей с использованием глобальной ошибки сталкивается с проблемами, такими как конфликты между блоками сети. Когда один блок генерирует ошибку, которая минимизирует глобальную ошибку, но на самом деле ухудшает результаты других блоков. Это приводит к внутренним противоречиям и снижению эффективности обучения.
Новый метод:
Каждый блок обучается независимо, что позволяет избегать конфликтов между блоками и ускоряет процесс.
Независимая коррекция ошибок: Каждый блок получает локальную ошибку и обновляется без влияния других блоков, что предотвращает «A против NOT A» конфликты.
Ускорение обучения: Распараллеливание блоков на разных GPU или машинах значительно увеличивает скорость обучения и улучшает качество, особенно для крупных моделей (LLM).
Устранение конфликтов: Блоки не зависят от друг друга, что повышает стабильность и уменьшает расхождения в обучении.
Метод идеально подходит для масштабируемого и эффективного обучения современных глубоких сетей.
Новый метод:
Каждый блок обучается независимо, что позволяет избегать конфликтов между блоками и ускоряет процесс.
Независимая коррекция ошибок: Каждый блок получает локальную ошибку и обновляется без влияния других блоков, что предотвращает «A против NOT A» конфликты.
Ускорение обучения: Распараллеливание блоков на разных GPU или машинах значительно увеличивает скорость обучения и улучшает качество, особенно для крупных моделей (LLM).
Устранение конфликтов: Блоки не зависят от друг друга, что повышает стабильность и уменьшает расхождения в обучении.
Метод идеально подходит для масштабируемого и эффективного обучения современных глубоких сетей.
👍2🔥1
Пока я готовлю следующий пост, хотел показать обобщение схемы саморефлексии нашего мозга.
1) саму схему разберу позже
2) здесь только аналог обработки текста
3) нет некоторых участков, которые косвенно связаны с саморефлексией
4) нет областей до таламуса
5) LLM сегодня - это STS область.
Зачем я тогда ее выкладываю?
Я хочу, чтобы вы постарались тоже увидеть эту матрёшку шестислойной модели на разных уровнях. А если точнее, их даже можно свести к 3ем функциям. Я обозначил из разным цветом.
Внутри каждого такая же матрёшка. Где то функция редуцирована, где то делиться.
Когда я дойду до разбора, то постараюсь показать, что она простая. А саморефлексия в мозге настолько оптимизирована, что я с восхищением смотрю на это.
Мысли циркулирует по петле, одновременно влияя на внешние сигналы и гоняя по кругу внутренние.
Конечно это не весь мозг, а только схема саморефлексии.
Я постепенно буду детализировать эту схему.
1) саму схему разберу позже
2) здесь только аналог обработки текста
3) нет некоторых участков, которые косвенно связаны с саморефлексией
4) нет областей до таламуса
5) LLM сегодня - это STS область.
Зачем я тогда ее выкладываю?
Я хочу, чтобы вы постарались тоже увидеть эту матрёшку шестислойной модели на разных уровнях. А если точнее, их даже можно свести к 3ем функциям. Я обозначил из разным цветом.
Внутри каждого такая же матрёшка. Где то функция редуцирована, где то делиться.
Когда я дойду до разбора, то постараюсь показать, что она простая. А саморефлексия в мозге настолько оптимизирована, что я с восхищением смотрю на это.
Мысли циркулирует по петле, одновременно влияя на внешние сигналы и гоняя по кругу внутренние.
Конечно это не весь мозг, а только схема саморефлексии.
Я постепенно буду детализировать эту схему.
👏1
Асимметрия сигнала, наверное самое важное, что надо понять для
1) понимания, как работает мозг от нейрона до зон мозга
2) как можно улучшить работу любой сети, так как любой сигнал имеющий признак/паттерн имеет асимметрию
3) как устроена асимметрия не только на уровне нейронной модели, но и как обобщенный инструмент при анализе любого сигнала: физика, химия, биология и так далее.
Асимметрию вероятности придумал не я. Она используется в биологических моделях, в инженерных при анализе дефектов или шума и автоматах (Symbolic Dynamic Filtering, PFSA, HMM-подходы).
Тогда что нового?
1) Унификация трёх типов асимметрии
2) Иерархия автоматов
3) Использование остаточного сигнала как локальной ошибки для саморегуляции без явного внешнего обучения
Таким образом, основная идея «выделения устойчивых асимметрий через вложенные автоматы» отлично ложится на уже существующие методы SDF/PFSA и higher-order спектральную аналитику, но при этом расширяет их.
1) понимания, как работает мозг от нейрона до зон мозга
2) как можно улучшить работу любой сети, так как любой сигнал имеющий признак/паттерн имеет асимметрию
3) как устроена асимметрия не только на уровне нейронной модели, но и как обобщенный инструмент при анализе любого сигнала: физика, химия, биология и так далее.
Асимметрию вероятности придумал не я. Она используется в биологических моделях, в инженерных при анализе дефектов или шума и автоматах (Symbolic Dynamic Filtering, PFSA, HMM-подходы).
Тогда что нового?
1) Унификация трёх типов асимметрии
2) Иерархия автоматов
3) Использование остаточного сигнала как локальной ошибки для саморегуляции без явного внешнего обучения
Таким образом, основная идея «выделения устойчивых асимметрий через вложенные автоматы» отлично ложится на уже существующие методы SDF/PFSA и higher-order спектральную аналитику, но при этом расширяет их.
👍1
Теперь мы можем применять понятие асимметрии вероятности сигнала к различным моделям. В нашем случае, это позволяет понять работу от нейрона до мозга.
В отличии от стандартной меры асимметрии из математики или автоматные методы выделения признаков:
- Symbolic Dynamic Filtering (SDF) с построением Probabilistic Finite State Automata (PFSA)
- Иерархические автоматные модели в когнитивных науках
Мы же рассматриваем динамику процесса, через:
- работы сразу с тремя видами асимметрии,
- динамической гистерезисной обработки,
- иерархической самоорганизации без внешнего сигнала ошибки.
- улавливает поведение сигнала во времени, а не просто его значения.
Часть автомата уже используются. Нейронаучные исследования («cycle-by-cycle» анализ) Scott R. Cole, Позволяют выявлять устойчивые формы волны, которые дают больше информации, чем обычный спектр
- метеорологии (модели климатических циклов)
- инженерии (вибрации и колебания)
Поэтому каждый участок мозга, можно рассматривать, как асимметричный автомат с вложенными.
В отличии от стандартной меры асимметрии из математики или автоматные методы выделения признаков:
- Symbolic Dynamic Filtering (SDF) с построением Probabilistic Finite State Automata (PFSA)
- Иерархические автоматные модели в когнитивных науках
Мы же рассматриваем динамику процесса, через:
- работы сразу с тремя видами асимметрии,
- динамической гистерезисной обработки,
- иерархической самоорганизации без внешнего сигнала ошибки.
- улавливает поведение сигнала во времени, а не просто его значения.
Часть автомата уже используются. Нейронаучные исследования («cycle-by-cycle» анализ) Scott R. Cole, Позволяют выявлять устойчивые формы волны, которые дают больше информации, чем обычный спектр
- метеорологии (модели климатических циклов)
- инженерии (вибрации и колебания)
Поэтому каждый участок мозга, можно рассматривать, как асимметричный автомат с вложенными.
👍3
Удалось обнаружить, что асимметрия сигнала лежит в основе иерархической структуры обработки информации в нейронных системах: от отдельного нейрона до крупных ассоциативных зон мозга. Каждому уровню соответствует своя степень асимметрии, и когда она становится неразличимой от шума, система переходит на следующий уровень абстракции — от букв к словам, от слов к синтагмам и далее. Эта иерархия формирует хаотичный, но ограниченный биологическими пределами фрактал признаков, в котором каждый уровень асимметрии выделяется специализированным блоком — аналогом слоя трансформера. Такая структура задаёт естественную инициализацию нейронной сети: каждый слой должен быть настроен на распознавание паттернов с определённой степенью асимметрии, что формирует базу для обучения и адаптации модели в условиях реального шума.
Это должно многократно повысить скорость обучения за счет того. что мы заранее инициализируем каждый блок на обобщенный признак. Обучение лишь детализирует его.
Сейчас тестирую обобщение признаков LLM.
Это должно многократно повысить скорость обучения за счет того. что мы заранее инициализируем каждый блок на обобщенный признак. Обучение лишь детализирует его.
Сейчас тестирую обобщение признаков LLM.
👍2