Механизм внимания, как в мозге, так и в нейронных сетях, выполняет ключевую функцию управления информационными потоками. В биологии он возник как способ взаимодействия одних зон мозга с другими через модуляцию сигналов: усиливая или ослабляя их, зоны не нарушают уже сформированные связи, но гибко адаптируются к текущим задачам. Аналогично в нейронных сетях self-attention позволяет моделям выбирать, какие части входных данных наиболее важны, воздействуя на маршруты внутри слоя. Однако современные подходы не учитывают многие аспекты, присущие биологическому вниманию, такие как временные ритмы, иерархия глобального и локального внимания, а также влияние "эмоционального контекста" через аналоги нейромедиаторов.
Для преодоления ограничений перспективными является SSM модели или ритмическая модуляция, создание глобально-локальной иерархии внимания, где глобальные задачи направляют локальную обработку, и разработка "нейромедиаторных" модулей, способных адаптировать сеть под текущие условия.
Для преодоления ограничений перспективными является SSM модели или ритмическая модуляция, создание глобально-локальной иерархии внимания, где глобальные задачи направляют локальную обработку, и разработка "нейромедиаторных" модулей, способных адаптировать сеть под текущие условия.
🔥2👍1
Чего очень не хватает в искусственных нейронных сетях?
Таламус — ключевой узел в мозге, выполняющий роль релейного центра, фильтрующего и модулирующего потоки информации между сенсорными областями и корой. Его релейные клетки работают в двух режимах: передающем, когда сигналы проходят в неизменном виде, и осцилляторном, когда формируются ритмические паттерны, влияющие на внимание и восприятие. Генерируя глобальные ритмы, таламус синхронизирует активность корковых областей, регулируя когнитивные процессы. В частности, при формировании речи он участвует в выборе следующего слова, модулируя активность лобной коры, которая оперирует множеством возможных вариантов, например, ["плохо", "идиот"], и направляет выбор в соответствии с контекстом и внутренними состояниями.
Именно это, один из главных факторов галлюцинаций LLM.
Таламус — ключевой узел в мозге, выполняющий роль релейного центра, фильтрующего и модулирующего потоки информации между сенсорными областями и корой. Его релейные клетки работают в двух режимах: передающем, когда сигналы проходят в неизменном виде, и осцилляторном, когда формируются ритмические паттерны, влияющие на внимание и восприятие. Генерируя глобальные ритмы, таламус синхронизирует активность корковых областей, регулируя когнитивные процессы. В частности, при формировании речи он участвует в выборе следующего слова, модулируя активность лобной коры, которая оперирует множеством возможных вариантов, например, ["плохо", "идиот"], и направляет выбор в соответствии с контекстом и внутренними состояниями.
Именно это, один из главных факторов галлюцинаций LLM.
Прошлый пост про таламус. плавно подвел к теме, почему LLM галлюцинируют. Этот пост про это.
Почему LLM выбирают слова случайно, а мозг – осознанно?
Современные языковые модели (LLM) предсказывают слова на основе вероятностей. Они строят список возможных вариантов и выбирают одно из них случайно (с учетом температуры и других параметров). В отличие от этого, мозг использует динамическое внимание: выбор слова зависит от сенсорных сигналов, эмоций, памяти и глобального контекста. Например, если человек видит перед собой стол, вероятность выбрать слово "стол" возрастает.
Эта разница объясняет, почему LLM иногда допускают нелепые ошибки или галлюцинируют. Они не фильтруют слова осмысленно, а просто выбирают их по статистике. Если добавить к LLM механизм модуляции выбора слов, как в мозге, модели станут более осмысленными,
Ошибка возникает из-за случайного выбора в top-k/nucleus sampling — если бы механизм выбора учитывал глобальный контекст, таких ошибок было бы меньше.
LLM не модулирует свое внимание.
Почему LLM выбирают слова случайно, а мозг – осознанно?
Современные языковые модели (LLM) предсказывают слова на основе вероятностей. Они строят список возможных вариантов и выбирают одно из них случайно (с учетом температуры и других параметров). В отличие от этого, мозг использует динамическое внимание: выбор слова зависит от сенсорных сигналов, эмоций, памяти и глобального контекста. Например, если человек видит перед собой стол, вероятность выбрать слово "стол" возрастает.
Эта разница объясняет, почему LLM иногда допускают нелепые ошибки или галлюцинируют. Они не фильтруют слова осмысленно, а просто выбирают их по статистике. Если добавить к LLM механизм модуляции выбора слов, как в мозге, модели станут более осмысленными,
Ошибка возникает из-за случайного выбора в top-k/nucleus sampling — если бы механизм выбора учитывал глобальный контекст, таких ошибок было бы меньше.
LLM не модулирует свое внимание.
👍3👏1
То что речь оказалась последовательным графом, где паузы являются узлами. Позволило увидеть такие вещи, как различные уровни детализации и переключение по ним механизма внимания. В свою очередь это позволило понять, что когнитивными способности разных существ имеют свой максимальный уровень узлов (в плане их интерпретации). Для кошки это например эмоциональные фразы или звуки, для людей смысловые узлы, для более развитых существ это смысловые блоки длиной 1 минута (как абстрактный пример).
Это позволило, построить мат. модель, которая утверждает:
- имея двух Носителей разного языка, где хотя бы один из них понимает второго
- на большом множестве диалогов, мы получаем систему конвертирующую языковой контекст между Носителями двух разных языков.
Контекст ≠ смысл. Для кошки возможно максимальным уровнем речевых узлов - будет эмоциональный уровень фраз. А для крокодила - эмоциональный уровень звуков или просто звуки.
Путешественник говорит "прилетел на самолете" - житель племени понимает "пришел из-за горы".
Это позволило, построить мат. модель, которая утверждает:
- имея двух Носителей разного языка, где хотя бы один из них понимает второго
- на большом множестве диалогов, мы получаем систему конвертирующую языковой контекст между Носителями двух разных языков.
Контекст ≠ смысл. Для кошки возможно максимальным уровнем речевых узлов - будет эмоциональный уровень фраз. А для крокодила - эмоциональный уровень звуков или просто звуки.
Путешественник говорит "прилетел на самолете" - житель племени понимает "пришел из-за горы".
🤔3🔥1