iFlexible

Наконец я дошел до объяснения трансформеров.

Начать я хотел бы с работы механизма Self-attanion в рамках трансформера (пока без упоминания голов и остального).
Далее мы рассмотрим, что реализует каждый элемент трансформера, на сколько сильно упрощены в нем реальные механизмы. И затем разберём, как это исправить.

И так self-attanion (трансформеры):

Слои II и III коры участвуют в обработке и интеграции информации, формируя локальные и глобальные представления сигналов.

Слой II состоит преимущественно из звёздчатых нейронов, которые выделяют первичные признаки и передают их дальше.

Слой III, обладая горизонтальными связями, объединяет информацию из различных областей, создавая контекстные ассоциации. Он также оказывает обратное модулирующее влияние на слой II, регулируя его активность и выделяя наиболее значимые признаки.

В посте видно, как self-attanion трансформеров упрощённо реализует биологию слоев II/III. Мы ещё разберём, что он не учитывает. А пока продолжим разбор трансформера.

👍1🔥1

500 views19:04

iFlexible

Когда, главные моменты нейробиологии я уже описывал ранее (клетки слоев, их связи, модуляция и так далее), становится очень просто разбирать трансформеры.

И так, Transformer Multi-head

Головы self‑attention в трансформерах могут быть интерпретированы как параллельные блоки, каждый из которых выполняет функции, схожие с работой слоёв II и III.

Слой II отвечает за локальное выделение признаков (знаковое представление, фильтрация входного сигнала), а

Слой III – за формирование глобальных ассоциаций и контекстной модуляции, что реализуется через нормализацию softmax.

Итоговая интеграция происходит в слое V, который консолидирует информацию от всех голов.

Да, трансформеры случайно описали упрошенную шестислойную модель неокортекса ассоциативных областей и поэтому попали в точку.
Осталось немного до окончания их разбора.

После этого мы улучшим трансформер, чтобы он не был таким сильным упрощением нейробиологических процессов. Что значительно улучшит их качество и скорость обучения.

439 views23:00

iFlexible

FFN в трансформерах vs слоя V неокортекса:

В FFN используется двухслойная нелинейная трансформация, подобно обработке в пирамидальных нейронах слоя V.

Слой V неокортекса получает информацию из разных слоёв и преобразует её перед отправкой в подкорковые структуры.
В FFN информация преобразуется в новое представление перед передачей.

Слой V получает модулирующие сигналы от слоёв VI и подкорковых структур, что влияет на его активность. В трансформерах FFN этого нет.

Слой V получает информацию от слоёв II/III, которые выявляют локальные и пространственные связи. Он обобщает эти признаки.
Хотя FFN может участвовать в выделении длинных зависимостей, полагаться только на него неэффективно, так как он не учитывает пространственную структуру входных данных.

Прежде чем изменить его и улучшить обучение и качество, я хочу рассмотреть:
1) почему такая упрощённая модель вообще работает
2) к каким заболеваниям (проявлениям) приводит данный подход в мозге (повреждений не учтенных механизмов)
3) затем мы учтем их

462 views18:00

iFlexible

Почему трансформеры работают в LLM, несмотря на упрощения по сравнению с шестислойной моделью неокортекса?

LLM в первую очередь реализуют ассоциативные области, где формируются абстрактные связи и смысловые последовательности, лежащие в основе речи и текста. Однако, как и другие зоны неокортекса, ассоциативные области обладают своими особенностями, связанными со специализацией и выполняемыми задачами.

Ранее мы рассматривали, что трансформеры способны воспроизводить ключевые механизмы шестислойной модели, характерные для ассоциативных областей.

Однако упрощение архитектуры сказывается на качестве обучения. В частности, ослабленная версия слоя V и отсутствие слоя VI приводят к галлюцинациям и бреду (что не одно и то же).

Далее мы разберем реальные примеры нарушений в ассоциативных областях мозга, где аналогичные механизмы ослаблены или отсутствуют (как в трансформерах). Это позволит понять, к каким проблемам приводят и почему.

А затем исправим эти проблемы в архитектуре трансформеров.

642 views09:26

About

Blog

Apps

Platform