Чтобы немного распутать приведенную выше архитектуру.Я бы хотел, выделять несколько важных вещей:
1) она не упирается только в нейробиологию. Поэтому я специально описал ее обобщенно.
2) мозг использует одни и те же механизмы. Выше один из примеров на уровне слоев и блоков.
3) важную роль играет обратная связь. Именно она модулирует ранние блоки. Когда в позднем блоке найдена связь Маша ела яблоко, то через обратную связь будут усилены признаки на прежнем уровне маша/ела/яблоко.
Трансформеры через глобальный контекст реализуют это в неявном виде.
Глобальный контекст в трансформерах это аналог слоя 1, как если бы мы решили оценить его влияние на все признаки в каждом блоке. Он в явном виде не учитывает иерархию и является избыточным. Мы полагаемся, что он сам научиться этой иерархии и влиянию слоя 1.
Как мы видим, обратная связь идет только в обратном порядке.
Именно реализация этой обратной связи должна позволить избавиться от необходимости в гигантских контекстах и реализовать влияние на слой 5.
1) она не упирается только в нейробиологию. Поэтому я специально описал ее обобщенно.
2) мозг использует одни и те же механизмы. Выше один из примеров на уровне слоев и блоков.
3) важную роль играет обратная связь. Именно она модулирует ранние блоки. Когда в позднем блоке найдена связь Маша ела яблоко, то через обратную связь будут усилены признаки на прежнем уровне маша/ела/яблоко.
Трансформеры через глобальный контекст реализуют это в неявном виде.
Глобальный контекст в трансформерах это аналог слоя 1, как если бы мы решили оценить его влияние на все признаки в каждом блоке. Он в явном виде не учитывает иерархию и является избыточным. Мы полагаемся, что он сам научиться этой иерархии и влиянию слоя 1.
Как мы видим, обратная связь идет только в обратном порядке.
Именно реализация этой обратной связи должна позволить избавиться от необходимости в гигантских контекстах и реализовать влияние на слой 5.
👍2
Флуктуация это одна из тех тем, которые еще предстоит исследовать.
На сегодня данные результаты получены экспериментальным путем. Не смотря на то, что они опираются на собственные исследования:
1) градиентов речи
2) пауз речи
3) теорию хаоса
4) асимметрию сигнала
цифры шума по умолчанию остаются эмпирическими, хотя и согласуются с множеством других исследований.
Думаю, что математическим доказательством физического смысла флуктуаций должно стать исследование асимметрии сигнала. Где начальная небольшая асимметрия порождает хаос.
Практическая сторона:
реализация флуктуации в функциях активации позволила избежать ям локальных минимумов. Система просто не может в них застрять. Всегда существует сигнал, который при наличии флуктуации способен вытащить ее из локальной ямы (шум зависит от уровня сигнала).
Благодаря этому, обучая на 1-10 примерах 1000-5000 раз, система никогда не застрянет на одном результате при продолжении обучения на других примеров.
В выложенных исходниках это: sk_func_active.py
На сегодня данные результаты получены экспериментальным путем. Не смотря на то, что они опираются на собственные исследования:
1) градиентов речи
2) пауз речи
3) теорию хаоса
4) асимметрию сигнала
цифры шума по умолчанию остаются эмпирическими, хотя и согласуются с множеством других исследований.
Думаю, что математическим доказательством физического смысла флуктуаций должно стать исследование асимметрии сигнала. Где начальная небольшая асимметрия порождает хаос.
Практическая сторона:
реализация флуктуации в функциях активации позволила избежать ям локальных минимумов. Система просто не может в них застрять. Всегда существует сигнал, который при наличии флуктуации способен вытащить ее из локальной ямы (шум зависит от уровня сигнала).
Благодаря этому, обучая на 1-10 примерах 1000-5000 раз, система никогда не застрянет на одном результате при продолжении обучения на других примеров.
В выложенных исходниках это: sk_func_active.py
👍2
Традиционное обучение нейросетей с использованием глобальной ошибки сталкивается с проблемами, такими как конфликты между блоками сети. Когда один блок генерирует ошибку, которая минимизирует глобальную ошибку, но на самом деле ухудшает результаты других блоков. Это приводит к внутренним противоречиям и снижению эффективности обучения.
Новый метод:
Каждый блок обучается независимо, что позволяет избегать конфликтов между блоками и ускоряет процесс.
Независимая коррекция ошибок: Каждый блок получает локальную ошибку и обновляется без влияния других блоков, что предотвращает «A против NOT A» конфликты.
Ускорение обучения: Распараллеливание блоков на разных GPU или машинах значительно увеличивает скорость обучения и улучшает качество, особенно для крупных моделей (LLM).
Устранение конфликтов: Блоки не зависят от друг друга, что повышает стабильность и уменьшает расхождения в обучении.
Метод идеально подходит для масштабируемого и эффективного обучения современных глубоких сетей.
Новый метод:
Каждый блок обучается независимо, что позволяет избегать конфликтов между блоками и ускоряет процесс.
Независимая коррекция ошибок: Каждый блок получает локальную ошибку и обновляется без влияния других блоков, что предотвращает «A против NOT A» конфликты.
Ускорение обучения: Распараллеливание блоков на разных GPU или машинах значительно увеличивает скорость обучения и улучшает качество, особенно для крупных моделей (LLM).
Устранение конфликтов: Блоки не зависят от друг друга, что повышает стабильность и уменьшает расхождения в обучении.
Метод идеально подходит для масштабируемого и эффективного обучения современных глубоких сетей.
👍2🔥1