iFlexible

Почему трансформеры работают в LLM, несмотря на упрощения по сравнению с шестислойной моделью неокортекса?

LLM в первую очередь реализуют ассоциативные области, где формируются абстрактные связи и смысловые последовательности, лежащие в основе речи и текста. Однако, как и другие зоны неокортекса, ассоциативные области обладают своими особенностями, связанными со специализацией и выполняемыми задачами.

Ранее мы рассматривали, что трансформеры способны воспроизводить ключевые механизмы шестислойной модели, характерные для ассоциативных областей.

Однако упрощение архитектуры сказывается на качестве обучения. В частности, ослабленная версия слоя V и отсутствие слоя VI приводят к галлюцинациям и бреду (что не одно и то же).

Далее мы разберем реальные примеры нарушений в ассоциативных областях мозга, где аналогичные механизмы ослаблены или отсутствуют (как в трансформерах). Это позволит понять, к каким проблемам приводят и почему.

А затем исправим эти проблемы в архитектуре трансформеров.

642 views09:26

iFlexible

Прежде чем вносить изменения и менять трансформеры, мы должны рассмотреть наиболее слабые места.

Для этого:
1) Соотнесем части трансформера и шестислойной модели в ассоциативных зонах мозга отвечающих за абстрактное мышление

2) Посмотрим к каким проблемам приводит отсутствие у трансформеров биологических аналогий . Проследив эти нарушения на примере исследований повреждения или нарушения работы этих слоев и их механизмов.

Это позволит нам исправить в трансформерах конкретные места, чтобы убрать данные проблемы.

Дисбаланс обратной связи (слой VI → IV) → галлюцинации.

Дисфункция слоя V → бред, нарушение речи.

Нарушение межслойных связей (II–III → V) → когнитивная дезорганизация.

Дисбаланс нейромодуляции (дофамин) → усиление бредовых идей.

🔥2

696 views17:28

iFlexible

Пока я готовлю пост по трансформерам, немного практики эмоционального управлением LLM через добавление характера.
Метод демонстрирует важность связи нейробиологии и современных LLM.

Метод управления стилем общения LLM через микродиалоги основан на принципах работы мозга: лимбическая система формирует эмоциональный фон, а лобные доли направляют поведенческие паттерны. В LLM аналогично: вставляя скрытые микродиалоги, мы активируем нужные языковые маршруты, влияя на предсказание токенов. Это позволяет задать устойчивый характер модели, менять её реакцию на эмоции пользователя и контролировать стиль общения. В отличие от системного промпта, метод сохраняет влияние в длинных диалогах и не требует модификации модели.

Новизна подхода в том, что он использует "слепоту" LLM к источнику контекста, заставляя её интуитивно следовать заданному поведению.

Этот подход небольшая часть общей эмоциональной модели. Который описывает, как управлять стилем общения и характером LLM с учётом их архитектурных ограничений.

🔥8👍2

946 views23:51

About

Blog

Apps

Platform