iFlexible
812 subscribers
2.16K photos
142 videos
65 files
53 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Очень сложно упростить.
Выше архитектура последней версии.
Не смотря на запутанность, сложного ничего нет.

Predictor - это просто блок предсказания сигнала из других областей мозга (блоков) для исходного сигнала

Слой 1 - это просто иерархия, обычный хаб. Мы даже можем не использовать его, заменив на аналог Predictor. Тот же DeepMind например использует в этом месте латеральное пространство, аналог предсказания сигнала.

Слой 2/3 находит будущие связи, затем разбивает на головы (кластеры).

Разница с трансформерами в том, что:

1) мы четко разделяем кластер на последовательные и пространственные признаки, а не просто через одну матрицу

2) явно задает влияние пространственных признаков на последовательные признаки.

3) В трансформерах слой 1 - заменен на упрощенный вариант Predictor, который прогнозирует сигнал только для слоя 2/3 (B_global и B_23).

Других особенностей нет.
MambaBlock - ради SMM (улавливает временную компоненту). Его можно заменить на другие решения.

Дальше предстоит оптимизация модели.
👍4
Чтобы немного распутать приведенную выше архитектуру.Я бы хотел, выделять несколько важных вещей:

1) она не упирается только в нейробиологию. Поэтому я специально описал ее обобщенно.

2) мозг использует одни и те же механизмы. Выше один из примеров на уровне слоев и блоков.

3) важную роль играет обратная связь. Именно она модулирует ранние блоки. Когда в позднем блоке найдена связь Маша ела яблоко, то через обратную связь будут усилены признаки на прежнем уровне маша/ела/яблоко.

Трансформеры через глобальный контекст реализуют это в неявном виде.

Глобальный контекст в трансформерах это аналог слоя 1, как если бы мы решили оценить его влияние на все признаки в каждом блоке. Он в явном виде не учитывает иерархию и является избыточным. Мы полагаемся, что он сам научиться этой иерархии и влиянию слоя 1.

Как мы видим, обратная связь идет только в обратном порядке.
Именно реализация этой обратной связи должна позволить избавиться от необходимости в гигантских контекстах и реализовать влияние на слой 5.
👍2
Флуктуация это одна из тех тем, которые еще предстоит исследовать.

На сегодня данные результаты получены экспериментальным путем. Не смотря на то, что они опираются на собственные исследования:
1) градиентов речи
2) пауз речи
3) теорию хаоса
4) асимметрию сигнала

цифры шума по умолчанию остаются эмпирическими, хотя и согласуются с множеством других исследований.

Думаю, что математическим доказательством физического смысла флуктуаций должно стать исследование асимметрии сигнала. Где начальная небольшая асимметрия порождает хаос.

Практическая сторона:
реализация флуктуации в функциях активации позволила избежать ям локальных минимумов. Система просто не может в них застрять. Всегда существует сигнал, который при наличии флуктуации способен вытащить ее из локальной ямы (шум зависит от уровня сигнала).

Благодаря этому, обучая на 1-10 примерах 1000-5000 раз, система никогда не застрянет на одном результате при продолжении обучения на других примеров.
В выложенных исходниках это: sk_func_active.py
👍2
Традиционное обучение нейросетей с использованием глобальной ошибки сталкивается с проблемами, такими как конфликты между блоками сети. Когда один блок генерирует ошибку, которая минимизирует глобальную ошибку, но на самом деле ухудшает результаты других блоков. Это приводит к внутренним противоречиям и снижению эффективности обучения.

Новый метод:
Каждый блок обучается независимо, что позволяет избегать конфликтов между блоками и ускоряет процесс.

Независимая коррекция ошибок: Каждый блок получает локальную ошибку и обновляется без влияния других блоков, что предотвращает «A против NOT A» конфликты.

Ускорение обучения: Распараллеливание блоков на разных GPU или машинах значительно увеличивает скорость обучения и улучшает качество, особенно для крупных моделей (LLM).

Устранение конфликтов: Блоки не зависят от друг друга, что повышает стабильность и уменьшает расхождения в обучении.

Метод идеально подходит для масштабируемого и эффективного обучения современных глубоких сетей.
👍2🔥1