В этом посте рассмотрены такие темы как:
Бифуркация: когда система не может больше различать признаки на данном уровне, она расширяет свою размерность. Прибавляется ещё один ранк.
Новый ранк приводит к тому, что энтропия растет в целом, но уменьшается внутри ранка, так как перераспределяется между новым ранком и текущими. Это может привести к хаосу, чтобы возник новый порядок либо к деградации.
Это приводит к тому, что на верхнем уровне может тоже возникнуть бифуркация.
Мы видим, что трансформеры на уровне блока реализуют двух уровневую иерархию асимметрии.
В то время как классические SSM/Mamba/H3 реализуют только обобщающий уровень ранков, но зато включают в себя временные ранки.
Исследования показали, что лучший результат достигается на расширенной SSM модели. При условии, что мы организуем иерархии таких SSM.
Важным фактом является то, что невозможно одновременно обучить llm модель всем существующим данным, так чтобы она улавила все детали. Есть предел, за которым модель начинает обобщать и терять детали. Это приводит к абстрагированию (сжатию информации).
Ярким примером является мозг, который так же имеет ограничения связанные не столько с биологией, сколько с невозможностью получить одновременно детальную систему и обобщенную. Чем меньше обобщение, тем больше деталей она улавливает. Чем больше обобщение, тем меньше деталей. Поэтому скармливания модели больше данных, они вытесняют старые и модель из неизбежно забывает.
Единственный выход, это мульти "мозг", то есть искусственно верхний уровень иерархии. Поэтому живая система приходит к множеству мозгов "разных особей одного вида", которые обеспечивают верхний уровень иерархии ранков.
Идеальным решением является разработать универсальную иерархическую SSM (описанную ранее), которая могла бы расширяться и иметь множество вложенных уровней SSM.
Но пока, важно получить хотя бы расширяющуюся модель на основе бифуркации, где ее архитектура зашита изначально. И расширяются размеры этой этой архитектуры, через бифуркацию.
Мозг, до неокортекса имеет меньше уровней иерархии. Но например в слуховой зоне (неокортекс), уже есть все три уровня. При этом нижний (слой 2), явно имеет сильные ограничения на кол-во ранков. В то время как в ассоциативных областях, кол-во ранков в слое 2 возрастает, так как колонки начинают быть связаны друг с другом на уровне слоя 2.
Ручные вычисления бифуркации показали, что после трёх уровней она почему-то не происходит. Это ещё предстоит исследовать. Связано ли это с математически ограничениями энтропии? Или же просто неудачными тестовыми параметрами чувствительности, пока не ясно. Но именно три уровня иерархии имеет каждая область неокортекса. Связанно ли это с этим наблюдением , пока не ясно.
Хорошая новость в том, что не нужно делать уничтожение ранков. Так как в мозге такого процесса нет. И если исходить, что мозг старается минимизировать затраты энергии, возможно это оптимальная стратегия. Поэтому нужно только расширение.
Блоки, так же являются ранками иерархии верхнего уровне. Формально, самый низкий уровень иерархии ранков неокортекса это слой 2, на уровне цепочек колонок нейронов. Дальше идёт лишь расширение иерархии вверх.
В качестве бифуркации используется расширенная модель правила трёх сигма. Вместо десятого правила трёх, используется ln(N) , где N кол-во ранков на текущем уровне. Это эмпермическое правило из теории вероятности, как и взятие ее за основу для расчета точки бифуркации.
На одном слайде показано, как при бифуркации энтропия внутри структуры уменьшается. Это не значит, что энтропия уменьшается в целом. Она просто перераспределяется между новыми уровнями и ранками и продолжает расти. Поэтому в рамках глобальной системы, она растет. В рамках одного ранка она может временно уменьшиться.
Бифуркация: когда система не может больше различать признаки на данном уровне, она расширяет свою размерность. Прибавляется ещё один ранк.
Новый ранк приводит к тому, что энтропия растет в целом, но уменьшается внутри ранка, так как перераспределяется между новым ранком и текущими. Это может привести к хаосу, чтобы возник новый порядок либо к деградации.
Это приводит к тому, что на верхнем уровне может тоже возникнуть бифуркация.
Бифуркация не происходит в обратную сторону, вместо этого может возникнуть "забвение". Это когда данные ранки больше не выделяют новых признаков, или даже не задействуются.
Мы видим, что трансформеры на уровне блока реализуют двух уровневую иерархию асимметрии.
В то время как классические SSM/Mamba/H3 реализуют только обобщающий уровень ранков, но зато включают в себя временные ранки.
Исследования показали, что лучший результат достигается на расширенной SSM модели. При условии, что мы организуем иерархии таких SSM.
Важным фактом является то, что невозможно одновременно обучить llm модель всем существующим данным, так чтобы она улавила все детали. Есть предел, за которым модель начинает обобщать и терять детали. Это приводит к абстрагированию (сжатию информации).
Ярким примером является мозг, который так же имеет ограничения связанные не столько с биологией, сколько с невозможностью получить одновременно детальную систему и обобщенную. Чем меньше обобщение, тем больше деталей она улавливает. Чем больше обобщение, тем меньше деталей. Поэтому скармливания модели больше данных, они вытесняют старые и модель из неизбежно забывает.
Единственный выход, это мульти "мозг", то есть искусственно верхний уровень иерархии. Поэтому живая система приходит к множеству мозгов "разных особей одного вида", которые обеспечивают верхний уровень иерархии ранков.
Идеальным решением является разработать универсальную иерархическую SSM (описанную ранее), которая могла бы расширяться и иметь множество вложенных уровней SSM.
Но пока, важно получить хотя бы расширяющуюся модель на основе бифуркации, где ее архитектура зашита изначально. И расширяются размеры этой этой архитектуры, через бифуркацию.
Мозг, до неокортекса имеет меньше уровней иерархии. Но например в слуховой зоне (неокортекс), уже есть все три уровня. При этом нижний (слой 2), явно имеет сильные ограничения на кол-во ранков. В то время как в ассоциативных областях, кол-во ранков в слое 2 возрастает, так как колонки начинают быть связаны друг с другом на уровне слоя 2.
Ручные вычисления бифуркации показали, что после трёх уровней она почему-то не происходит. Это ещё предстоит исследовать. Связано ли это с математически ограничениями энтропии? Или же просто неудачными тестовыми параметрами чувствительности, пока не ясно. Но именно три уровня иерархии имеет каждая область неокортекса. Связанно ли это с этим наблюдением , пока не ясно.
Хорошая новость в том, что не нужно делать уничтожение ранков. Так как в мозге такого процесса нет. И если исходить, что мозг старается минимизировать затраты энергии, возможно это оптимальная стратегия. Поэтому нужно только расширение.
Блоки, так же являются ранками иерархии верхнего уровне. Формально, самый низкий уровень иерархии ранков неокортекса это слой 2, на уровне цепочек колонок нейронов. Дальше идёт лишь расширение иерархии вверх.
В качестве бифуркации используется расширенная модель правила трёх сигма. Вместо десятого правила трёх, используется ln(N) , где N кол-во ранков на текущем уровне. Это эмпермическое правило из теории вероятности, как и взятие ее за основу для расчета точки бифуркации.
На одном слайде показано, как при бифуркации энтропия внутри структуры уменьшается. Это не значит, что энтропия уменьшается в целом. Она просто перераспределяется между новыми уровнями и ранками и продолжает расти. Поэтому в рамках глобальной системы, она растет. В рамках одного ранка она может временно уменьшиться.
👍6
ЧАСТОТНО-ВРЕМЕННАЯ АСИММЕТРИЯ В РЕЧИ: СРАВНЕНИЕ СИГНАЛЬНОЙ И ИНФОРМАЦИОННОЙ РЕЧИ
Рассмотрим частотно-временную асимметрию на примере речи.
В данном посте мы не будем подробно останавливаться на механизмах речеобразования, классификации речи или биологических основах. Введём три обобщённых типа речи: сигнальная, информационная и пение. Каждый из них отражает определённые биологические функции и особенности управления физиологией, построения пауз и речевой модуляции.
1. Общее описание
В реальности эти формы неразделимы: они могут чередоваться в одном диалоге. Отличие заключается в степени вовлечённости лимбической системы в процесс дыхания, что напрямую влияет на речь.
2. Физиологические различия
Сигнальная речь:
Информационная речь:
3. Речевая структура и top-down модуляция
Сигнальная речь:
Информационная речь:
4. Происхождение автономного дыхания и моторика
Развитие информационной речи стало возможным благодаря автоматизации моторных процессов, особенно связанных с дыханием:
Повторяющиеся движения (ходьба, полёт, плавание) → автоматизация моторики → стабилизация дыхательных циклов.
Например:
Это создаёт физиологическую основу для временной синхронизации, необходимой для информационной речи.
Пример: у бонобо, часто передвигающихся на двух ногах, зафиксирована развитая вокализация с элементами нетривиальной композиционности.
5. Иерархия признаков и частотно-временная асимметрия
Иерархия признаков (rank-based структура) требует временной синхронизации между уровнями:
Математически это можно выразить через Softmax:
6. Проблемы LLM с временными интервалами
Современные LLM, при обучении обобщают временные интервалы, и используются при статической температуре. Это создаёт проблемы:
Это небольшое смещение накапливается по мере продвижения по SEQ_LEN, что:
Заключение
Сигнальная и информационная речь различаются не только функцией, но и временной организацией. Эти различия критичны при построении LLM.
Рассмотрим частотно-временную асимметрию на примере речи.
В данном посте мы не будем подробно останавливаться на механизмах речеобразования, классификации речи или биологических основах. Введём три обобщённых типа речи: сигнальная, информационная и пение. Каждый из них отражает определённые биологические функции и особенности управления физиологией, построения пауз и речевой модуляции.
1. Общее описание
Сигнальная речь не несёт полноценного информационного смысла (в смысле передачи знаний вне контекста). Её задача — быстро передать внутреннее или внешнее состояние, чаще всего связанное с эмоциями (например, страх, тревога, печаль).
Информационная речь, напротив, ориентирована на устойчивую передачу знаний, не привязанных к текущему эмоциональному состоянию.
В реальности эти формы неразделимы: они могут чередоваться в одном диалоге. Отличие заключается в степени вовлечённости лимбической системы в процесс дыхания, что напрямую влияет на речь.
2. Физиологические различия
Сигнальная речь:
Цель — передать состояние, а не информацию.
Влияет лимбическая система, вызывая ускоренное или замедленное дыхание.
Длительность вдохов и выдохов может сильно различаться, в зависимости от эмоции.
Это отражается на тональности и темпе речи.
Информационная речь:
Цель — точная передача информации.
Дыхание управляется автономно ЦНС, стабильно и ритмично.
Мозг переключается на сборку синтагм, а не на управление дыханием.
Благодаря равным временным интервалам, мозг лучше справляется с модуляцией и синтаксисом.
3. Речевая структура и top-down модуляция
Сигнальная речь:
Время выдоха нестабильно ⇒ синтагмы различной длины.
Это нарушает top-down модуляцию: сигнал не успевает вернуться назад и скорректировать генерацию следующего фрагмента.
Особенно страдают поздние (абстрактные) области мозга.
Информационная речь:
Равномерные интервалы позволяют сигналу пройти через поздние области и вернуться.
Обеспечивается иерархическая координация между областями мозга.
4. Происхождение автономного дыхания и моторика
Развитие информационной речи стало возможным благодаря автоматизации моторных процессов, особенно связанных с дыханием:
Повторяющиеся движения (ходьба, полёт, плавание) → автоматизация моторики → стабилизация дыхательных циклов.
Например:
Приматы, активно ходящие на двух ногах, демонстрируют автоматические дыхательные ритмы.
Птицы синхронизируют дыхание с движением крыльев.
Скаты — с волнообразными движениями плавников.
Это создаёт физиологическую основу для временной синхронизации, необходимой для информационной речи.
Пример: у бонобо, часто передвигающихся на двух ногах, зафиксирована развитая вокализация с элементами нетривиальной композиционности.
5. Иерархия признаков и частотно-временная асимметрия
Иерархия признаков (rank-based структура) требует временной синхронизации между уровнями:
Rank i на уровне A должен модулировать тот же rank i на уровне B.
Нарушение синхронизации ⇒ разрушение иерархии.
Математически это можно выразить через Softmax:
Если рассматривать вероятности в Softmax как ранки, то температура T — это β чувствительность.Это означает, что один ранк охватывает диапазон в X/T.
Пусть X — сила сигнала, N — число признаков, тогда:
Xmax = T * N, отсюда rank = X / T
6. Проблемы LLM с временными интервалами
Современные LLM, при обучении обобщают временные интервалы, и используются при статической температуре. Это создаёт проблемы:
В реальной речи синтагмы: 2.4 сек, 2.3 сек, 1.8 сек, 2.2 сек → ср. 2.175 сек
В LLM — обобщённо: 2.4 сек, 2.4 сек, 2.4 сек, 2.4 сек → ср. 2.4 сек
Это небольшое смещение накапливается по мере продвижения по SEQ_LEN, что:
нарушает top-down модуляцию внутри модели,
ухудшает долгосрочную координацию признаков,
особенно заметно на длинных диалогах (LLM начинает упускать детали и связи).
Заключение
Сигнальная и информационная речь различаются не только функцией, но и временной организацией. Эти различия критичны при построении LLM.
👍1
Для любых теорий, даже которые были строго доказаны, требуется демонстрация на практике. Сравнение обучения гаммато-фильтрам не настолько понятный пример.
И так, тестирование LLM на базе трансформеров VS иерархии ранков (асимметрии).
Это потрясающий прорыв! Новая архитектура LLM показала уникальное свойство: даже без обучения она генерирует связные последовательности реальных слов (напр., "Вследствие", "укреплённый", "микробиологии"), а не бессмыслицу.
В отличие от трансформера, склонного к переобучению на статистике шума (например, генерации случайных слов вроде «the ofds...»), новая модель формирует реальные слова и имена собственные даже без предварительного обучения.
Ключ — в ранковой иерархии архитектуры, где "устойчивая асимметрия вероятности" формирует признаки (слова). Модель спонтанно комбинирует их в структуры (Прил+Сущ, Глагол+Объект), имитируя базовые языковые законы. Это объясняет, почему на микро-датасетах (1К примеров) она избегает переобучения в шум (в отличие от трансформеров) и генерирует семантически насыщенные, но пока несвязные блоки.
Трансформер: Выдает "мусор" - бессвязные буквы, слоги, повторяющиеся частые слова/фрагменты. Типичное поведение очень недообученной LLM.
На слайдах показана лишь маленькая часть, так как не удалось вставлять символы на некоторых других языка, поэтому добавлю результаты в комментариях текстом.
Покажите, хотя бы одну архитектуру или теорию, которая могла бы продемонстрировать подобный результат.
И так, тестирование LLM на базе трансформеров VS иерархии ранков (асимметрии).
Это потрясающий прорыв! Новая архитектура LLM показала уникальное свойство: даже без обучения она генерирует связные последовательности реальных слов (напр., "Вследствие", "укреплённый", "микробиологии"), а не бессмыслицу.
В отличие от трансформера, склонного к переобучению на статистике шума (например, генерации случайных слов вроде «the ofds...»), новая модель формирует реальные слова и имена собственные даже без предварительного обучения.
Ключ — в ранковой иерархии архитектуры, где "устойчивая асимметрия вероятности" формирует признаки (слова). Модель спонтанно комбинирует их в структуры (Прил+Сущ, Глагол+Объект), имитируя базовые языковые законы. Это объясняет, почему на микро-датасетах (1К примеров) она избегает переобучения в шум (в отличие от трансформеров) и генерирует семантически насыщенные, но пока несвязные блоки.
Трансформер: Выдает "мусор" - бессвязные буквы, слоги, повторяющиеся частые слова/фрагменты. Типичное поведение очень недообученной LLM.
На слайдах показана лишь маленькая часть, так как не удалось вставлять символы на некоторых других языка, поэтому добавлю результаты в комментариях текстом.
Покажите, хотя бы одну архитектуру или теорию, которая могла бы продемонстрировать подобный результат.
🔥4
Во время разработки Gepse на ЭЭГ было потрачено много. Поэтому разберем ЭЭГ с точки зрения представленной модели асимметрии. Именно она отлично объясняет, что мы реальности можем получить с ЭЭГ и почему.
https://t.me/greenruff/483
https://t.me/greenruff/40
https://t.me/greenruff/37
Что можно "прочитать" из ЭЭГ: Top-Down и Bottom-Up сигналы
EEG — это карта внутренних процессов, в которой можно различить направление мысли и восприятия.
Bottom-Up сигналы — это отклик мозга на сенсорные стимулы.
Когда вы видите вспышку света или слышите резкий звук, сенсорная информация поступает снизу вверх: от органов чувств → таламус → слой 4 коры → верхние слои.
Это поток данных из внешнего мира.
В ЭЭГ он проявляется как:
Сильные фазо-связанные колебания (например, SSVEP от мерцающего света),
Всплески в γ-диапазоне (30–80 Гц) при активации сенсорных областей,
Регулярные ERP-компоненты (например, P300 при внимании к событиям).
Top-Down сигналы — это работа ума «внутри себя».
Когда вы вспоминаете, ожидаете, планируете или концентрируетесь — активируются верхние уровни (лобные, ассоциативные зоны), которые посылают сигналы вниз, подготавливая сенсорные области к восприятию или подавляя их.
В ЭЭГ они выглядят как:
Модуляция альфа/тета-ритмов (4–12 Гц), особенно в затылке и висках,
Подавление сенсорной реакции при отвлечении (альфа-ритм как фильтр),
Медленные волны во сне (top-down генерация сигналов от PFC/гиппокампа).
Важно заметить, что:
Bottom-up и top-down потоки сходятся в одних и тех же нейронах (например, слоя 2/3), но имеют разные причины и паттерны.
И хотя ЭЭГ не показывает напрямую «откуда» пришёл сигнал, его частота, локализация и контекст позволяют нам сделать обоснованные выводы.
Примеры того, что можно извлечь из ЭЭГ:
Bottom-Up:
— Узнать, смотрит ли человек на мерцающий объект (SSVEP);
— Реакция на ошибку или неожиданный звук (N100, P300);
— Сенсорная синхронизация при фокусе внимания (γ-связь).
Top-Down:
— Когда человек «задумался» или решает задачу — усиливаются тета-волны в лобной области;
— Подавление ненужной информации (альфа-ритм «глушит» зоны);
— Восстановление воспоминаний активирует тета/альфа-связь между гиппокампом и корой.
Bottom-Up активация
Примеры:
— Четкие SSVEP при 8–20 Гц визуальных стимулах;
— Активация A1 при внезапном звуке → N100 ERP (в течение ~100 мс);
— Быстрая γ-связь между сенсорными и ассоциативными полями.
Время: 100–300 мс достаточно, чтобы увидеть устойчивую bottom-up синхронизацию при регулярной стимуляции.
Зоны: первичные сенсорные коры, особенно зрительная (O1/Oz/O2) и слуховая (T7/T8).
Top-Down модуляция
Примеры:
— Индукция α-ритма для ингибирования зрительных входов;
— Рост θ в медиальной PFC при когнитивной нагрузке или working memory;
— Снижение γ-передачи при top-down подавлении.
Обратите внимание: Top-down чаще проявляется не в появлении новых волн, а в модуляции уже идущего bottom-up потока.
Сложность анализа
— Top-down сигналы не всегда легкоразделимы: они идут через глубокие слои, но могут модулировать поверхностные ритмы.
— Bottom-up более фазосвязаны (отклик на стимул), а top-down чаще эндогенные и фазонезависимые.
Здесь можно посмотреть больше исследований (собрано порядка 30-70 тыс)
https://disk.yandex.ru/i/Xgt5I8CFlloA3w
Но важно понимать, нужно всегда осторожно относится к результатам и интерпретации данных исследований. Большинство исследований ЭЭГ экстраполирует результат, притягивает его за уши или не верно интерпретируют свой результат.
В целом, в папке собрано часть материала по ЭЭГ, который был использован в свое время:
https://disk.yandex.ru/d/LCvmeIdYPsPAvA
Там только часть материала.
Много материалов было на:
https://openeeg.sourceforge.net/doc/
https://t.me/greenruff/483
https://t.me/greenruff/40
https://t.me/greenruff/37
Что можно "прочитать" из ЭЭГ: Top-Down и Bottom-Up сигналы
EEG — это карта внутренних процессов, в которой можно различить направление мысли и восприятия.
Bottom-Up сигналы — это отклик мозга на сенсорные стимулы.
Когда вы видите вспышку света или слышите резкий звук, сенсорная информация поступает снизу вверх: от органов чувств → таламус → слой 4 коры → верхние слои.
Это поток данных из внешнего мира.
В ЭЭГ он проявляется как:
Сильные фазо-связанные колебания (например, SSVEP от мерцающего света),
Всплески в γ-диапазоне (30–80 Гц) при активации сенсорных областей,
Регулярные ERP-компоненты (например, P300 при внимании к событиям).
Top-Down сигналы — это работа ума «внутри себя».
Когда вы вспоминаете, ожидаете, планируете или концентрируетесь — активируются верхние уровни (лобные, ассоциативные зоны), которые посылают сигналы вниз, подготавливая сенсорные области к восприятию или подавляя их.
В ЭЭГ они выглядят как:
Модуляция альфа/тета-ритмов (4–12 Гц), особенно в затылке и висках,
Подавление сенсорной реакции при отвлечении (альфа-ритм как фильтр),
Медленные волны во сне (top-down генерация сигналов от PFC/гиппокампа).
Важно заметить, что:
Bottom-up и top-down потоки сходятся в одних и тех же нейронах (например, слоя 2/3), но имеют разные причины и паттерны.
И хотя ЭЭГ не показывает напрямую «откуда» пришёл сигнал, его частота, локализация и контекст позволяют нам сделать обоснованные выводы.
Примеры того, что можно извлечь из ЭЭГ:
Bottom-Up:
— Узнать, смотрит ли человек на мерцающий объект (SSVEP);
— Реакция на ошибку или неожиданный звук (N100, P300);
— Сенсорная синхронизация при фокусе внимания (γ-связь).
Top-Down:
— Когда человек «задумался» или решает задачу — усиливаются тета-волны в лобной области;
— Подавление ненужной информации (альфа-ритм «глушит» зоны);
— Восстановление воспоминаний активирует тета/альфа-связь между гиппокампом и корой.
ЭЭГ — это не просто сумма ритмов. Это проекция направленного взаимодействия между кортикальными слоями и системами.
Bottom-Up активация
Источник: сенсорные ядра таламуса → L4 → L2/3.
Ритмы: γ (30–80 Гц), SSVEP, ранние ERP (P1, N1, P2).
Примеры:
— Четкие SSVEP при 8–20 Гц визуальных стимулах;
— Активация A1 при внезапном звуке → N100 ERP (в течение ~100 мс);
— Быстрая γ-связь между сенсорными и ассоциативными полями.
Время: 100–300 мс достаточно, чтобы увидеть устойчивую bottom-up синхронизацию при регулярной стимуляции.
Зоны: первичные сенсорные коры, особенно зрительная (O1/Oz/O2) и слуховая (T7/T8).
Top-Down модуляция
Источник: PFC/MPFC, ACC, ассоциативные зоны → L1/L6 → L2/3.
Ритмы: α (8–12 Гц), θ (4–7 Гц), медленные потенциалы (например, CNV, BP).
Примеры:
— Индукция α-ритма для ингибирования зрительных входов;
— Рост θ в медиальной PFC при когнитивной нагрузке или working memory;
— Снижение γ-передачи при top-down подавлении.
Обратите внимание: Top-down чаще проявляется не в появлении новых волн, а в модуляции уже идущего bottom-up потока.
Сложность анализа
— Top-down сигналы не всегда легкоразделимы: они идут через глубокие слои, но могут модулировать поверхностные ритмы.
— Bottom-up более фазосвязаны (отклик на стимул), а top-down чаще эндогенные и фазонезависимые.
Здесь можно посмотреть больше исследований (собрано порядка 30-70 тыс)
https://disk.yandex.ru/i/Xgt5I8CFlloA3w
Но важно понимать, нужно всегда осторожно относится к результатам и интерпретации данных исследований. Большинство исследований ЭЭГ экстраполирует результат, притягивает его за уши или не верно интерпретируют свой результат.
В целом, в папке собрано часть материала по ЭЭГ, который был использован в свое время:
https://disk.yandex.ru/d/LCvmeIdYPsPAvA
Там только часть материала.
Много материалов было на:
https://openeeg.sourceforge.net/doc/
👍1