iFlexible
812 subscribers
2.16K photos
142 videos
65 files
53 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Когда, главные моменты нейробиологии я уже описывал ранее (клетки слоев, их связи, модуляция и так далее), становится очень просто разбирать трансформеры.

И так, Transformer Multi-head

Головы self‑attention в трансформерах могут быть интерпретированы как параллельные блоки, каждый из которых выполняет функции, схожие с работой слоёв II и III.

Слой II отвечает за локальное выделение признаков (знаковое представление, фильтрация входного сигнала), а

Слой III – за формирование глобальных ассоциаций и контекстной модуляции, что реализуется через нормализацию softmax.

Итоговая интеграция происходит в слое V, который консолидирует информацию от всех голов.

Да, трансформеры случайно описали упрошенную шестислойную модель неокортекса ассоциативных областей и поэтому попали в точку.
Осталось немного до окончания их разбора.

После этого мы улучшим трансформер, чтобы он не был таким сильным упрощением нейробиологических процессов. Что значительно улучшит их качество и скорость обучения.
FFN в трансформерах vs слоя V неокортекса:

В FFN используется двухслойная нелинейная трансформация, подобно обработке в пирамидальных нейронах слоя V.

Слой V неокортекса получает информацию из разных слоёв и преобразует её перед отправкой в подкорковые структуры.
В FFN информация преобразуется в новое представление перед передачей.

Слой V получает модулирующие сигналы от слоёв VI и подкорковых структур, что влияет на его активность. В трансформерах FFN этого нет.

Слой V получает информацию от слоёв II/III, которые выявляют локальные и пространственные связи. Он обобщает эти признаки.
Хотя FFN может участвовать в выделении длинных зависимостей, полагаться только на него неэффективно, так как он не учитывает пространственную структуру входных данных.

Прежде чем изменить его и улучшить обучение и качество, я хочу рассмотреть:
1) почему такая упрощённая модель вообще работает
2) к каким заболеваниям (проявлениям) приводит данный подход в мозге (повреждений не учтенных механизмов)
3) затем мы учтем их
Почему трансформеры работают в LLM, несмотря на упрощения по сравнению с шестислойной моделью неокортекса?

LLM в первую очередь реализуют ассоциативные области, где формируются абстрактные связи и смысловые последовательности, лежащие в основе речи и текста. Однако, как и другие зоны неокортекса, ассоциативные области обладают своими особенностями, связанными со специализацией и выполняемыми задачами.

Ранее мы рассматривали, что трансформеры способны воспроизводить ключевые механизмы шестислойной модели, характерные для ассоциативных областей.

Однако упрощение архитектуры сказывается на качестве обучения. В частности, ослабленная версия слоя V и отсутствие слоя VI приводят к галлюцинациям и бреду (что не одно и то же).

Далее мы разберем реальные примеры нарушений в ассоциативных областях мозга, где аналогичные механизмы ослаблены или отсутствуют (как в трансформерах). Это позволит понять, к каким проблемам приводят и почему.

А затем исправим эти проблемы в архитектуре трансформеров.
Прежде чем вносить изменения и менять трансформеры, мы должны рассмотреть наиболее слабые места.

Для этого:
1) Соотнесем части трансформера и шестислойной модели в ассоциативных зонах мозга отвечающих за абстрактное мышление

2) Посмотрим к каким проблемам приводит отсутствие у трансформеров биологических аналогий . Проследив эти нарушения на примере исследований повреждения или нарушения работы этих слоев и их механизмов.

Это позволит нам исправить в трансформерах конкретные места, чтобы убрать данные проблемы.

Дисбаланс обратной связи (слой VI → IV) → галлюцинации.

Дисфункция слоя V → бред, нарушение речи.

Нарушение межслойных связей (II–III → V) → когнитивная дезорганизация.

Дисбаланс нейромодуляции (дофамин) → усиление бредовых идей.
🔥2