iFlexible

Чтобы немного распутать приведенную выше архитектуру.Я бы хотел, выделять несколько важных вещей:

1) она не упирается только в нейробиологию. Поэтому я специально описал ее обобщенно.

2) мозг использует одни и те же механизмы. Выше один из примеров на уровне слоев и блоков.

3) важную роль играет обратная связь. Именно она модулирует ранние блоки. Когда в позднем блоке найдена связь Маша ела яблоко, то через обратную связь будут усилены признаки на прежнем уровне маша/ела/яблоко.

Трансформеры через глобальный контекст реализуют это в неявном виде.

Глобальный контекст в трансформерах это аналог слоя 1, как если бы мы решили оценить его влияние на все признаки в каждом блоке. Он в явном виде не учитывает иерархию и является избыточным. Мы полагаемся, что он сам научиться этой иерархии и влиянию слоя 1.

Как мы видим, обратная связь идет только в обратном порядке.
Именно реализация этой обратной связи должна позволить избавиться от необходимости в гигантских контекстах и реализовать влияние на слой 5.

👍2

412 views22:53

iFlexible

Флуктуация это одна из тех тем, которые еще предстоит исследовать.

На сегодня данные результаты получены экспериментальным путем. Не смотря на то, что они опираются на собственные исследования:
1) градиентов речи
2) пауз речи
3) теорию хаоса
4) асимметрию сигнала

цифры шума по умолчанию остаются эмпирическими, хотя и согласуются с множеством других исследований.

Думаю, что математическим доказательством физического смысла флуктуаций должно стать исследование асимметрии сигнала. Где начальная небольшая асимметрия порождает хаос.

Практическая сторона:
реализация флуктуации в функциях активации позволила избежать ям локальных минимумов. Система просто не может в них застрять. Всегда существует сигнал, который при наличии флуктуации способен вытащить ее из локальной ямы (шум зависит от уровня сигнала).

Благодаря этому, обучая на 1-10 примерах 1000-5000 раз, система никогда не застрянет на одном результате при продолжении обучения на других примеров.
В выложенных исходниках это: sk_func_active.py

👍2

386 views12:48

iFlexible

Традиционное обучение нейросетей с использованием глобальной ошибки сталкивается с проблемами, такими как конфликты между блоками сети. Когда один блок генерирует ошибку, которая минимизирует глобальную ошибку, но на самом деле ухудшает результаты других блоков. Это приводит к внутренним противоречиям и снижению эффективности обучения.

Новый метод:
Каждый блок обучается независимо, что позволяет избегать конфликтов между блоками и ускоряет процесс.

Независимая коррекция ошибок: Каждый блок получает локальную ошибку и обновляется без влияния других блоков, что предотвращает «A против NOT A» конфликты.

Ускорение обучения: Распараллеливание блоков на разных GPU или машинах значительно увеличивает скорость обучения и улучшает качество, особенно для крупных моделей (LLM).

Устранение конфликтов: Блоки не зависят от друг друга, что повышает стабильность и уменьшает расхождения в обучении.

Метод идеально подходит для масштабируемого и эффективного обучения современных глубоких сетей.

👍2🔥1

375 views23:29

About

Blog

Apps

Platform