iFlexible
814 subscribers
2.16K photos
142 videos
65 files
53 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Этот пост для того, чтобы на него можно было ссылаться. Он показывает, как математически была расширена SSM.

Сначала были взяты формулы расчета асимметрии, которые до этого использовались в гистерезис. Задача была сделать нормально учет частотной асимметрии. Но формулы оказались очень похожи на SMM.

Поэтому за основу была взята LinOSS-IM (разновидность SSM с матрицей из комплексных чисел, учитывающий затухания).

Она была математически доработана, чтобы правильно учитывать как амплитудную, так и частотную асимметрию.

Так же, была добавлена модуляция внешним сигналом. В посте, чтобы не перегружать математикой, опущена часть, как это было обосновано и встроено.

Так же, был добавлен частотный и амплитудный гистерезис.

Сейчас в конечном автомате асимметрии, данный вариант SSM используется в "головах" (ранках - кластерах) и в обобщении.

Пока необходимо понять, обосновано ли выстраивать на нем всю иерархию асимметрии. Дело в том, что SSM обходит все токены через цикл. Это pамедляет работу - и для иерархии SSM это накладно. В CUDA в новых версиях есть оптимизация, через специальную функцию распараллеливания этой операции. Но она работает только в Linux и в последних версиях CUDA, поэтому оптимизация под нее подходит для конечной версии SSM.

Данная SSM версия стабильна и быстро обучается, но в рамках описанной модели автомата асимметрии. Как она поведет себя в других архитектурах, сказать сложно. Надо применять механизм ScaleIn → SSM → ScaleOut, описанный ранее.

Таким образом эта SSM, которая учитывает:
- осцилляции и затухания
- частотную и амплитудную асимметрию
- гистерезис
- модуляцию


Можно ли сделать лучше? Да можно через полином N-степени (для производных), но это повлияет только на ее точность и существенно замедлит вычисления.

Пока не понятно, как встроить в SSM временные ранки (амплитудные встроены на уровне ScaleIn-ScaleOut). Сначала надо будет правильно рассчитать математически и лишь потом уже встраивать их. Возможно временные ранки тоже можно вынести в раздел ScaleIn-ScaleOut, который был описан ранее.

На самом деле, все что делает данный SMM - это учитывает асимметрию (амплитудную и частотную), гистерезис, внешнюю модуляцию.

В комментариях будет выложен ее код. Поэтому можно посмотреть и попробовать.
👍4
В этом посте рассмотрены такие темы как:

Бифуркация: когда система не может больше различать признаки на данном уровне, она расширяет свою размерность. Прибавляется ещё один ранк.

Новый ранк приводит к тому, что энтропия растет в целом, но уменьшается внутри ранка, так как перераспределяется между новым ранком и текущими. Это может привести к хаосу, чтобы возник новый порядок либо к деградации.
Это приводит к тому, что на верхнем уровне может тоже возникнуть бифуркация.

Бифуркация не происходит в обратную сторону, вместо этого может возникнуть "забвение". Это когда данные ранки больше не выделяют новых признаков, или даже не задействуются.


Мы видим, что трансформеры на уровне блока реализуют двух уровневую иерархию асимметрии.
В то время как классические SSM/Mamba/H3 реализуют только обобщающий уровень ранков, но зато включают в себя временные ранки.

Исследования показали, что лучший результат достигается на расширенной SSM модели. При условии, что мы организуем иерархии таких SSM.

Важным фактом является то, что невозможно одновременно обучить llm модель всем существующим данным, так чтобы она улавила все детали. Есть предел, за которым модель начинает обобщать и терять детали. Это приводит к абстрагированию (сжатию информации).
Ярким примером является мозг, который так же имеет ограничения связанные не столько с биологией, сколько с невозможностью получить одновременно детальную систему и обобщенную. Чем меньше обобщение, тем больше деталей она улавливает. Чем больше обобщение, тем меньше деталей. Поэтому скармливания модели больше данных, они вытесняют старые и модель из неизбежно забывает.

Единственный выход, это мульти "мозг", то есть искусственно верхний уровень иерархии. Поэтому живая система приходит к множеству мозгов "разных особей одного вида", которые обеспечивают верхний уровень иерархии ранков.

Идеальным решением является разработать универсальную иерархическую SSM (описанную ранее), которая могла бы расширяться и иметь множество вложенных уровней SSM.
Но пока, важно получить хотя бы расширяющуюся модель на основе бифуркации, где ее архитектура зашита изначально. И расширяются размеры этой этой архитектуры, через бифуркацию.

Мозг, до неокортекса имеет меньше уровней иерархии. Но например в слуховой зоне (неокортекс), уже есть все три уровня. При этом нижний (слой 2), явно имеет сильные ограничения на кол-во ранков. В то время как в ассоциативных областях, кол-во ранков в слое 2 возрастает, так как колонки начинают быть связаны друг с другом на уровне слоя 2.

Ручные вычисления бифуркации показали, что после трёх уровней она почему-то не происходит. Это ещё предстоит исследовать. Связано ли это с математически ограничениями энтропии? Или же просто неудачными тестовыми параметрами чувствительности, пока не ясно. Но именно три уровня иерархии имеет каждая область неокортекса. Связанно ли это с этим наблюдением , пока не ясно.

Хорошая новость в том, что не нужно делать уничтожение ранков. Так как в мозге такого процесса нет. И если исходить, что мозг старается минимизировать затраты энергии, возможно это оптимальная стратегия. Поэтому нужно только расширение.

Блоки, так же являются ранками иерархии верхнего уровне. Формально, самый низкий уровень иерархии ранков неокортекса это слой 2, на уровне цепочек колонок нейронов. Дальше идёт лишь расширение иерархии вверх.

В качестве бифуркации используется расширенная модель правила трёх сигма. Вместо десятого правила трёх, используется ln(N) , где N кол-во ранков на текущем уровне. Это эмпермическое правило из теории вероятности, как и взятие ее за основу для расчета точки бифуркации.

На одном слайде показано, как при бифуркации энтропия внутри структуры уменьшается. Это не значит, что энтропия уменьшается в целом. Она просто перераспределяется между новыми уровнями и ранками и продолжает расти. Поэтому в рамках глобальной системы, она растет. В рамках одного ранка она может временно уменьшиться.
👍6
ЧАСТОТНО-ВРЕМЕННАЯ АСИММЕТРИЯ В РЕЧИ: СРАВНЕНИЕ СИГНАЛЬНОЙ И ИНФОРМАЦИОННОЙ РЕЧИ

Рассмотрим частотно-временную асимметрию на примере речи.

В данном посте мы не будем подробно останавливаться на механизмах речеобразования, классификации речи или биологических основах. Введём три обобщённых типа речи: сигнальная, информационная и пение. Каждый из них отражает определённые биологические функции и особенности управления физиологией, построения пауз и речевой модуляции.

1. Общее описание
Сигнальная речь не несёт полноценного информационного смысла (в смысле передачи знаний вне контекста). Её задача — быстро передать внутреннее или внешнее состояние, чаще всего связанное с эмоциями (например, страх, тревога, печаль).

Информационная речь, напротив, ориентирована на устойчивую передачу знаний, не привязанных к текущему эмоциональному состоянию.


В реальности эти формы неразделимы: они могут чередоваться в одном диалоге. Отличие заключается в степени вовлечённости лимбической системы в процесс дыхания, что напрямую влияет на речь.

2. Физиологические различия
Сигнальная речь:
Цель — передать состояние, а не информацию.

Влияет лимбическая система, вызывая ускоренное или замедленное дыхание.

Длительность вдохов и выдохов может сильно различаться, в зависимости от эмоции.

Это отражается на тональности и темпе речи.


Информационная речь:
Цель — точная передача информации.

Дыхание управляется автономно ЦНС, стабильно и ритмично.

Мозг переключается на сборку синтагм, а не на управление дыханием.

Благодаря равным временным интервалам, мозг лучше справляется с модуляцией и синтаксисом.


3. Речевая структура и top-down модуляция
Сигнальная речь:
Время выдоха нестабильно ⇒ синтагмы различной длины.

Это нарушает top-down модуляцию: сигнал не успевает вернуться назад и скорректировать генерацию следующего фрагмента.

Особенно страдают поздние (абстрактные) области мозга.

Информационная речь:
Равномерные интервалы позволяют сигналу пройти через поздние области и вернуться.

Обеспечивается иерархическая координация между областями мозга.


4. Происхождение автономного дыхания и моторика
Развитие информационной речи стало возможным благодаря автоматизации моторных процессов, особенно связанных с дыханием:

Повторяющиеся движения (ходьба, полёт, плавание) → автоматизация моторики → стабилизация дыхательных циклов.

Например:

Приматы, активно ходящие на двух ногах, демонстрируют автоматические дыхательные ритмы.

Птицы синхронизируют дыхание с движением крыльев.

Скаты — с волнообразными движениями плавников.

Это создаёт физиологическую основу для временной синхронизации, необходимой для информационной речи.

Пример: у бонобо, часто передвигающихся на двух ногах, зафиксирована развитая вокализация с элементами нетривиальной композиционности.

5. Иерархия признаков и частотно-временная асимметрия
Иерархия признаков (rank-based структура) требует временной синхронизации между уровнями:

Rank i на уровне A должен модулировать тот же rank i на уровне B.

Нарушение синхронизации ⇒ разрушение иерархии.

Математически это можно выразить через Softmax:

Если рассматривать вероятности в Softmax как ранки, то температура T — это β чувствительность.

Пусть X — сила сигнала, N — число признаков, тогда:
Xmax = T * N, отсюда rank = X / T
Это означает, что один ранк охватывает диапазон в X/T.

6. Проблемы LLM с временными интервалами
Современные LLM, при обучении обобщают временные интервалы, и используются при статической температуре. Это создаёт проблемы:

В реальной речи синтагмы: 2.4 сек, 2.3 сек, 1.8 сек, 2.2 сек → ср. 2.175 сек

В LLM — обобщённо: 2.4 сек, 2.4 сек, 2.4 сек, 2.4 сек → ср. 2.4 сек

Это небольшое смещение накапливается по мере продвижения по SEQ_LEN, что:

нарушает top-down модуляцию внутри модели,

ухудшает долгосрочную координацию признаков,

особенно заметно на длинных диалогах (LLM начинает упускать детали и связи).


Заключение
Сигнальная и информационная речь различаются не только функцией, но и временной организацией. Эти различия критичны при построении LLM.
👍1
Для любых теорий, даже которые были строго доказаны, требуется демонстрация на практике. Сравнение обучения гаммато-фильтрам не настолько понятный пример.

И так, тестирование LLM на базе трансформеров VS иерархии ранков (асимметрии).

Это потрясающий прорыв! Новая архитектура LLM показала уникальное свойство: даже без обучения она генерирует связные последовательности реальных слов (напр., "Вследствие", "укреплённый", "микробиологии"), а не бессмыслицу.

В отличие от трансформера, склонного к переобучению на статистике шума (например, генерации случайных слов вроде «the ofds...»), новая модель формирует реальные слова и имена собственные даже без предварительного обучения.

Ключ — в ранковой иерархии архитектуры, где "устойчивая асимметрия вероятности" формирует признаки (слова). Модель спонтанно комбинирует их в структуры (Прил+Сущ, Глагол+Объект), имитируя базовые языковые законы. Это объясняет, почему на микро-датасетах (1К примеров) она избегает переобучения в шум (в отличие от трансформеров) и генерирует семантически насыщенные, но пока несвязные блоки.

Трансформер: Выдает "мусор" - бессвязные буквы, слоги, повторяющиеся частые слова/фрагменты. Типичное поведение очень недообученной LLM.

На слайдах показана лишь маленькая часть, так как не удалось вставлять символы на некоторых других языка, поэтому добавлю результаты в комментариях текстом.

Покажите, хотя бы одну архитектуру или теорию, которая могла бы продемонстрировать подобный результат.
🔥4