Наконец я дошел до объяснения трансформеров.
Начать я хотел бы с работы механизма Self-attanion в рамках трансформера (пока без упоминания голов и остального).
Далее мы рассмотрим, что реализует каждый элемент трансформера, на сколько сильно упрощены в нем реальные механизмы. И затем разберём, как это исправить.
И так self-attanion (трансформеры):
Слои II и III коры участвуют в обработке и интеграции информации, формируя локальные и глобальные представления сигналов.
Слой II состоит преимущественно из звёздчатых нейронов, которые выделяют первичные признаки и передают их дальше.
Слой III, обладая горизонтальными связями, объединяет информацию из различных областей, создавая контекстные ассоциации. Он также оказывает обратное модулирующее влияние на слой II, регулируя его активность и выделяя наиболее значимые признаки.
В посте видно, как self-attanion трансформеров упрощённо реализует биологию слоев II/III. Мы ещё разберём, что он не учитывает. А пока продолжим разбор трансформера.
Начать я хотел бы с работы механизма Self-attanion в рамках трансформера (пока без упоминания голов и остального).
Далее мы рассмотрим, что реализует каждый элемент трансформера, на сколько сильно упрощены в нем реальные механизмы. И затем разберём, как это исправить.
И так self-attanion (трансформеры):
Слои II и III коры участвуют в обработке и интеграции информации, формируя локальные и глобальные представления сигналов.
Слой II состоит преимущественно из звёздчатых нейронов, которые выделяют первичные признаки и передают их дальше.
Слой III, обладая горизонтальными связями, объединяет информацию из различных областей, создавая контекстные ассоциации. Он также оказывает обратное модулирующее влияние на слой II, регулируя его активность и выделяя наиболее значимые признаки.
В посте видно, как self-attanion трансформеров упрощённо реализует биологию слоев II/III. Мы ещё разберём, что он не учитывает. А пока продолжим разбор трансформера.
👍1🔥1
Когда, главные моменты нейробиологии я уже описывал ранее (клетки слоев, их связи, модуляция и так далее), становится очень просто разбирать трансформеры.
И так, Transformer Multi-head
Головы self‑attention в трансформерах могут быть интерпретированы как параллельные блоки, каждый из которых выполняет функции, схожие с работой слоёв II и III.
Слой II отвечает за локальное выделение признаков (знаковое представление, фильтрация входного сигнала), а
Слой III – за формирование глобальных ассоциаций и контекстной модуляции, что реализуется через нормализацию softmax.
Итоговая интеграция происходит в слое V, который консолидирует информацию от всех голов.
Да, трансформеры случайно описали упрошенную шестислойную модель неокортекса ассоциативных областей и поэтому попали в точку.
Осталось немного до окончания их разбора.
После этого мы улучшим трансформер, чтобы он не был таким сильным упрощением нейробиологических процессов. Что значительно улучшит их качество и скорость обучения.
И так, Transformer Multi-head
Головы self‑attention в трансформерах могут быть интерпретированы как параллельные блоки, каждый из которых выполняет функции, схожие с работой слоёв II и III.
Слой II отвечает за локальное выделение признаков (знаковое представление, фильтрация входного сигнала), а
Слой III – за формирование глобальных ассоциаций и контекстной модуляции, что реализуется через нормализацию softmax.
Итоговая интеграция происходит в слое V, который консолидирует информацию от всех голов.
Да, трансформеры случайно описали упрошенную шестислойную модель неокортекса ассоциативных областей и поэтому попали в точку.
Осталось немного до окончания их разбора.
После этого мы улучшим трансформер, чтобы он не был таким сильным упрощением нейробиологических процессов. Что значительно улучшит их качество и скорость обучения.
FFN в трансформерах vs слоя V неокортекса:
В FFN используется двухслойная нелинейная трансформация, подобно обработке в пирамидальных нейронах слоя V.
Слой V неокортекса получает информацию из разных слоёв и преобразует её перед отправкой в подкорковые структуры.
В FFN информация преобразуется в новое представление перед передачей.
Слой V получает модулирующие сигналы от слоёв VI и подкорковых структур, что влияет на его активность. В трансформерах FFN этого нет.
Слой V получает информацию от слоёв II/III, которые выявляют локальные и пространственные связи. Он обобщает эти признаки.
Хотя FFN может участвовать в выделении длинных зависимостей, полагаться только на него неэффективно, так как он не учитывает пространственную структуру входных данных.
Прежде чем изменить его и улучшить обучение и качество, я хочу рассмотреть:
1) почему такая упрощённая модель вообще работает
2) к каким заболеваниям (проявлениям) приводит данный подход в мозге (повреждений не учтенных механизмов)
3) затем мы учтем их
В FFN используется двухслойная нелинейная трансформация, подобно обработке в пирамидальных нейронах слоя V.
Слой V неокортекса получает информацию из разных слоёв и преобразует её перед отправкой в подкорковые структуры.
В FFN информация преобразуется в новое представление перед передачей.
Слой V получает модулирующие сигналы от слоёв VI и подкорковых структур, что влияет на его активность. В трансформерах FFN этого нет.
Слой V получает информацию от слоёв II/III, которые выявляют локальные и пространственные связи. Он обобщает эти признаки.
Хотя FFN может участвовать в выделении длинных зависимостей, полагаться только на него неэффективно, так как он не учитывает пространственную структуру входных данных.
Прежде чем изменить его и улучшить обучение и качество, я хочу рассмотреть:
1) почему такая упрощённая модель вообще работает
2) к каким заболеваниям (проявлениям) приводит данный подход в мозге (повреждений не учтенных механизмов)
3) затем мы учтем их
Почему трансформеры работают в LLM, несмотря на упрощения по сравнению с шестислойной моделью неокортекса?
LLM в первую очередь реализуют ассоциативные области, где формируются абстрактные связи и смысловые последовательности, лежащие в основе речи и текста. Однако, как и другие зоны неокортекса, ассоциативные области обладают своими особенностями, связанными со специализацией и выполняемыми задачами.
Ранее мы рассматривали, что трансформеры способны воспроизводить ключевые механизмы шестислойной модели, характерные для ассоциативных областей.
Однако упрощение архитектуры сказывается на качестве обучения. В частности, ослабленная версия слоя V и отсутствие слоя VI приводят к галлюцинациям и бреду (что не одно и то же).
Далее мы разберем реальные примеры нарушений в ассоциативных областях мозга, где аналогичные механизмы ослаблены или отсутствуют (как в трансформерах). Это позволит понять, к каким проблемам приводят и почему.
А затем исправим эти проблемы в архитектуре трансформеров.
LLM в первую очередь реализуют ассоциативные области, где формируются абстрактные связи и смысловые последовательности, лежащие в основе речи и текста. Однако, как и другие зоны неокортекса, ассоциативные области обладают своими особенностями, связанными со специализацией и выполняемыми задачами.
Ранее мы рассматривали, что трансформеры способны воспроизводить ключевые механизмы шестислойной модели, характерные для ассоциативных областей.
Однако упрощение архитектуры сказывается на качестве обучения. В частности, ослабленная версия слоя V и отсутствие слоя VI приводят к галлюцинациям и бреду (что не одно и то же).
Далее мы разберем реальные примеры нарушений в ассоциативных областях мозга, где аналогичные механизмы ослаблены или отсутствуют (как в трансформерах). Это позволит понять, к каким проблемам приводят и почему.
А затем исправим эти проблемы в архитектуре трансформеров.