iFlexible
812 subscribers
2.16K photos
142 videos
65 files
53 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Селективность нейронов

это их способность избирательно реагировать на определённые стимулы или паттерны, что лежит в основе обработки информации в нервной системе.

Этот механизм обеспечивается комбинацией факторов: латеральным торможением (соседние нейроны подавляют друг друга, усиливая контраст), специализированными рецептивными полями (например, нейроны зрительной коры, реагирующие на ориентацию линий), синаптической пластичностью (LTP/LTD, усиливающей значимые сигналы) и модуляцией со стороны высших отделов мозга (внимание, память). Например, в слуховой коре нейроны тонко настраиваются на конкретные частоты звука, а в гиппокампе «клетки места» активируются только в определённых локациях.

Такая избирательность позволяет мозгу эффективно фильтровать шум, выделять ключевые сигналы и адаптироваться к изменчивой среде, формируя основу восприятия, обучения и принятия решений.

Этот пост важен для понимания разных видов модуляции сигнала.

Теперь, мы дошли до трансформеров и сможем детально разобрать их.
👍1
Наконец я дошел до объяснения трансформеров.

Начать я хотел бы с работы механизма Self-attanion в рамках трансформера (пока без упоминания голов и остального).
Далее мы рассмотрим, что реализует каждый элемент трансформера, на сколько сильно упрощены в нем реальные механизмы. И затем разберём, как это исправить.

И так self-attanion (трансформеры):

Слои II и III коры участвуют в обработке и интеграции информации, формируя локальные и глобальные представления сигналов.

Слой II состоит преимущественно из звёздчатых нейронов, которые выделяют первичные признаки и передают их дальше.

Слой III, обладая горизонтальными связями, объединяет информацию из различных областей, создавая контекстные ассоциации. Он также оказывает обратное модулирующее влияние на слой II, регулируя его активность и выделяя наиболее значимые признаки.

В посте видно, как self-attanion трансформеров упрощённо реализует биологию слоев II/III. Мы ещё разберём, что он не учитывает. А пока продолжим разбор трансформера.
👍1🔥1
Когда, главные моменты нейробиологии я уже описывал ранее (клетки слоев, их связи, модуляция и так далее), становится очень просто разбирать трансформеры.

И так, Transformer Multi-head

Головы self‑attention в трансформерах могут быть интерпретированы как параллельные блоки, каждый из которых выполняет функции, схожие с работой слоёв II и III.

Слой II отвечает за локальное выделение признаков (знаковое представление, фильтрация входного сигнала), а

Слой III – за формирование глобальных ассоциаций и контекстной модуляции, что реализуется через нормализацию softmax.

Итоговая интеграция происходит в слое V, который консолидирует информацию от всех голов.

Да, трансформеры случайно описали упрошенную шестислойную модель неокортекса ассоциативных областей и поэтому попали в точку.
Осталось немного до окончания их разбора.

После этого мы улучшим трансформер, чтобы он не был таким сильным упрощением нейробиологических процессов. Что значительно улучшит их качество и скорость обучения.
FFN в трансформерах vs слоя V неокортекса:

В FFN используется двухслойная нелинейная трансформация, подобно обработке в пирамидальных нейронах слоя V.

Слой V неокортекса получает информацию из разных слоёв и преобразует её перед отправкой в подкорковые структуры.
В FFN информация преобразуется в новое представление перед передачей.

Слой V получает модулирующие сигналы от слоёв VI и подкорковых структур, что влияет на его активность. В трансформерах FFN этого нет.

Слой V получает информацию от слоёв II/III, которые выявляют локальные и пространственные связи. Он обобщает эти признаки.
Хотя FFN может участвовать в выделении длинных зависимостей, полагаться только на него неэффективно, так как он не учитывает пространственную структуру входных данных.

Прежде чем изменить его и улучшить обучение и качество, я хочу рассмотреть:
1) почему такая упрощённая модель вообще работает
2) к каким заболеваниям (проявлениям) приводит данный подход в мозге (повреждений не учтенных механизмов)
3) затем мы учтем их
Почему трансформеры работают в LLM, несмотря на упрощения по сравнению с шестислойной моделью неокортекса?

LLM в первую очередь реализуют ассоциативные области, где формируются абстрактные связи и смысловые последовательности, лежащие в основе речи и текста. Однако, как и другие зоны неокортекса, ассоциативные области обладают своими особенностями, связанными со специализацией и выполняемыми задачами.

Ранее мы рассматривали, что трансформеры способны воспроизводить ключевые механизмы шестислойной модели, характерные для ассоциативных областей.

Однако упрощение архитектуры сказывается на качестве обучения. В частности, ослабленная версия слоя V и отсутствие слоя VI приводят к галлюцинациям и бреду (что не одно и то же).

Далее мы разберем реальные примеры нарушений в ассоциативных областях мозга, где аналогичные механизмы ослаблены или отсутствуют (как в трансформерах). Это позволит понять, к каким проблемам приводят и почему.

А затем исправим эти проблемы в архитектуре трансформеров.