iFlexible

Для любых теорий, даже которые были строго доказаны, требуется демонстрация на практике. Сравнение обучения гаммато-фильтрам не настолько понятный пример.

И так, тестирование LLM на базе трансформеров VS иерархии ранков (асимметрии).

Это потрясающий прорыв! Новая архитектура LLM показала уникальное свойство: даже без обучения она генерирует связные последовательности реальных слов (напр., "Вследствие", "укреплённый", "микробиологии"), а не бессмыслицу.

В отличие от трансформера, склонного к переобучению на статистике шума (например, генерации случайных слов вроде «the ofds...»), новая модель формирует реальные слова и имена собственные даже без предварительного обучения.

Ключ — в ранковой иерархии архитектуры, где "устойчивая асимметрия вероятности" формирует признаки (слова). Модель спонтанно комбинирует их в структуры (Прил+Сущ, Глагол+Объект), имитируя базовые языковые законы. Это объясняет, почему на микро-датасетах (1К примеров) она избегает переобучения в шум (в отличие от трансформеров) и генерирует семантически насыщенные, но пока несвязные блоки.

Трансформер: Выдает "мусор" - бессвязные буквы, слоги, повторяющиеся частые слова/фрагменты. Типичное поведение очень недообученной LLM.

На слайдах показана лишь маленькая часть, так как не удалось вставлять символы на некоторых других языка, поэтому добавлю результаты в комментариях текстом.

Покажите, хотя бы одну архитектуру или теорию, которая могла бы продемонстрировать подобный результат.

🔥4

337 views10:56

iFlexible

Во время разработки Gepse на ЭЭГ было потрачено много. Поэтому разберем ЭЭГ с точки зрения представленной модели асимметрии. Именно она отлично объясняет, что мы реальности можем получить с ЭЭГ и почему.
https://t.me/greenruff/483
https://t.me/greenruff/40
https://t.me/greenruff/37

Что можно "прочитать" из ЭЭГ: Top-Down и Bottom-Up сигналы

EEG — это карта внутренних процессов, в которой можно различить направление мысли и восприятия.

Bottom-Up сигналы — это отклик мозга на сенсорные стимулы.
Когда вы видите вспышку света или слышите резкий звук, сенсорная информация поступает снизу вверх: от органов чувств → таламус → слой 4 коры → верхние слои.
Это поток данных из внешнего мира.

В ЭЭГ он проявляется как:

Сильные фазо-связанные колебания (например, SSVEP от мерцающего света),

Всплески в γ-диапазоне (30–80 Гц) при активации сенсорных областей,

Регулярные ERP-компоненты (например, P300 при внимании к событиям).

Top-Down сигналы — это работа ума «внутри себя».
Когда вы вспоминаете, ожидаете, планируете или концентрируетесь — активируются верхние уровни (лобные, ассоциативные зоны), которые посылают сигналы вниз, подготавливая сенсорные области к восприятию или подавляя их.

В ЭЭГ они выглядят как:

Модуляция альфа/тета-ритмов (4–12 Гц), особенно в затылке и висках,

Подавление сенсорной реакции при отвлечении (альфа-ритм как фильтр),

Медленные волны во сне (top-down генерация сигналов от PFC/гиппокампа).

Важно заметить, что:
Bottom-up и top-down потоки сходятся в одних и тех же нейронах (например, слоя 2/3), но имеют разные причины и паттерны.
И хотя ЭЭГ не показывает напрямую «откуда» пришёл сигнал, его частота, локализация и контекст позволяют нам сделать обоснованные выводы.

Примеры того, что можно извлечь из ЭЭГ:

Bottom-Up:
— Узнать, смотрит ли человек на мерцающий объект (SSVEP);
— Реакция на ошибку или неожиданный звук (N100, P300);
— Сенсорная синхронизация при фокусе внимания (γ-связь).

Top-Down:
— Когда человек «задумался» или решает задачу — усиливаются тета-волны в лобной области;
— Подавление ненужной информации (альфа-ритм «глушит» зоны);
— Восстановление воспоминаний активирует тета/альфа-связь между гиппокампом и корой.

ЭЭГ — это не просто сумма ритмов. Это проекция направленного взаимодействия между кортикальными слоями и системами.

Bottom-Up активация

Источник: сенсорные ядра таламуса → L4 → L2/3.
Ритмы: γ (30–80 Гц), SSVEP, ранние ERP (P1, N1, P2).

Примеры:
— Четкие SSVEP при 8–20 Гц визуальных стимулах;
— Активация A1 при внезапном звуке → N100 ERP (в течение ~100 мс);
— Быстрая γ-связь между сенсорными и ассоциативными полями.

Время: 100–300 мс достаточно, чтобы увидеть устойчивую bottom-up синхронизацию при регулярной стимуляции.
Зоны: первичные сенсорные коры, особенно зрительная (O1/Oz/O2) и слуховая (T7/T8).

Top-Down модуляция

Источник: PFC/MPFC, ACC, ассоциативные зоны → L1/L6 → L2/3.
Ритмы: α (8–12 Гц), θ (4–7 Гц), медленные потенциалы (например, CNV, BP).

Примеры:
— Индукция α-ритма для ингибирования зрительных входов;
— Рост θ в медиальной PFC при когнитивной нагрузке или working memory;
— Снижение γ-передачи при top-down подавлении.

Обратите внимание: Top-down чаще проявляется не в появлении новых волн, а в модуляции уже идущего bottom-up потока.

Сложность анализа
— Top-down сигналы не всегда легкоразделимы: они идут через глубокие слои, но могут модулировать поверхностные ритмы.
— Bottom-up более фазосвязаны (отклик на стимул), а top-down чаще эндогенные и фазонезависимые.

Здесь можно посмотреть больше исследований (собрано порядка 30-70 тыс)

https://disk.yandex.ru/i/Xgt5I8CFlloA3w

Но важно понимать, нужно всегда осторожно относится к результатам и интерпретации данных исследований. Большинство исследований ЭЭГ экстраполирует результат, притягивает его за уши или не верно интерпретируют свой результат.

В целом, в папке собрано часть материала по ЭЭГ, который был использован в свое время:
https://disk.yandex.ru/d/LCvmeIdYPsPAvA
Там только часть материала.

Много материалов было на:
https://openeeg.sourceforge.net/doc/

👍1

419 views10:54

iFlexible

На примере выше, показано, затем нужна модель бифуркации системы. Когда она сама на основе внешних сигналов разворачивается исходя из выделенных в сигнале признаков. Потому что изначально мы не можем сказать точно, сколько признаков надо выделить, глубина иерархии и так далее.
Поэтому пока тестирование проходит на LLM.
Бифуркация сложна в инженерном плане. При расширении архитектуры входы и выходы меняются динамически и их надо согласовывать как с соседними слоями/блоками, так и с модулирующими сигналами.
Но ещё одна сложность, это адаптация багажа современных нейронных сетей: оптимизаторов и других частей, которые заточены под статическую архитектуру. С этим пока приходится решать проблемы и смотреть как их доработать.

Выше разбор ранков на примере кохлеарного ядра.
Слуховая система человека представляет собой сложный сенсорный механизм, обеспечивающий восприятие, фильтрацию и интерпретацию звуковых сигналов. Одним из первых этапов обработки звука в центральной нервной системе является "кохлеарное ядро" (Cochlear Nucleus, CN), расположенное в стволе мозга. Оно принимает информацию от волосковых клеток внутреннего уха через "слуховой нерв" и начинает её обработку, прежде чем передать в более высокие отделы слуховой системы.

pVCN обеспечивает точное временное кодирование звуковой информации, что критично для распознавания речи и музыки.

aVCN участвует в формировании представления о громкости, тембре и пространственном положении источника звука.

DCN играет ключевую роль в обработке слуховой информации, особенно в анализе спектральных характеристик звука и пространственной локализации источников. Оно участвует в распознавании формы звукового сигнала, адаптации к фоновому шуму и интеграции сенсорной информации из других систем (например, соматосенсорной), что помогает определить положение звука в пространстве.

Цель поста показать, как иерархия ранков ложиться на пример одной из зон мозга. А так же на примере проиллюстрировать конечный автомат асимметрии.

Это показывает, как ветвится и детализируются признаки и области мозга.

В свое время, казалось что мозг не оптимально развил эти области. Дело в том, что VCN хорошо справляется с речью, а DCN с эхолокацией. Казалось, затем такое усложнение, почему одна область не вместила в себя обе функции. С учётом ранковой модели ответ просто. Один ранк отвечает за речь как признак, другой ближе к эхолокации как признак. И дальше они уже по своему детализируют информацию, создавая свою иерархию признаков.

👍1

494 views13:27

iFlexible

Главное различие в «Softmax»

Классический Softmax
Для входного вектора x=[x1, x2,...,xN]:

Softmax( x(i) ) = e^x(i) / { j = 1...N } ∑ e^x(j)

- Основан на абсолютных значениях x(i).
- Усиливает различия: большие x(i) получают экспоненциально большие вероятности.
- Не учитывает структурную близость к устойчивым признакам.

Новый Ранковый Softmax вычисляет Z независимо от самих входов X, а лишь по заранее заданным рангам j=1…N:

Ranked(x)= e^(−x / β) / Z , Z = {k=1..N} ∑ e ^ (−k / β)

Вероятность зависит только от собственного x(i), а не от всего вектора x.

Входной сигнал x ∈ [1, N] трактуется как непрерывное значение между дискретными рангами признаков.

x —это позиция в шкале рангов признаков.
N — максимальное число различимых признаков.
β — параметр плавности восприятия различий.

Затем e^(-x/β) даёт вероятность того, насколько этот ранг значим.

Здесь нормировка через Z (сумма e^(-j/β), j=1..N) — это аналог нормировочной меры пространства признаков.

P(i) - это абсолютная вероятность попадания в ранг, вычисленная в рамках шкалы признаков, а не других x(j).

β ↑ → система менее чувствительна: воспринимает большие диапазоны X как один и тот же ранг → обобщение

β ↓ → система более чувствительна: различает даже небольшие изменения X → детализация

Это аналогично ширине рецептивного поля в биологической системе: чем шире, тем больше охват, но хуже различение.

Классический Softmax: глобальная нормировка по всем признакам.

Новый Ранковый Softmax: интерпретирует вход, как сигнал принадлежности к признакам.

👍4🔥2

650 views21:17

About

Blog

Apps

Platform