Для любых теорий, даже которые были строго доказаны, требуется демонстрация на практике. Сравнение обучения гаммато-фильтрам не настолько понятный пример.
И так, тестирование LLM на базе трансформеров VS иерархии ранков (асимметрии).
Это потрясающий прорыв! Новая архитектура LLM показала уникальное свойство: даже без обучения она генерирует связные последовательности реальных слов (напр., "Вследствие", "укреплённый", "микробиологии"), а не бессмыслицу.
В отличие от трансформера, склонного к переобучению на статистике шума (например, генерации случайных слов вроде «the ofds...»), новая модель формирует реальные слова и имена собственные даже без предварительного обучения.
Ключ — в ранковой иерархии архитектуры, где "устойчивая асимметрия вероятности" формирует признаки (слова). Модель спонтанно комбинирует их в структуры (Прил+Сущ, Глагол+Объект), имитируя базовые языковые законы. Это объясняет, почему на микро-датасетах (1К примеров) она избегает переобучения в шум (в отличие от трансформеров) и генерирует семантически насыщенные, но пока несвязные блоки.
Трансформер: Выдает "мусор" - бессвязные буквы, слоги, повторяющиеся частые слова/фрагменты. Типичное поведение очень недообученной LLM.
На слайдах показана лишь маленькая часть, так как не удалось вставлять символы на некоторых других языка, поэтому добавлю результаты в комментариях текстом.
Покажите, хотя бы одну архитектуру или теорию, которая могла бы продемонстрировать подобный результат.
И так, тестирование LLM на базе трансформеров VS иерархии ранков (асимметрии).
Это потрясающий прорыв! Новая архитектура LLM показала уникальное свойство: даже без обучения она генерирует связные последовательности реальных слов (напр., "Вследствие", "укреплённый", "микробиологии"), а не бессмыслицу.
В отличие от трансформера, склонного к переобучению на статистике шума (например, генерации случайных слов вроде «the ofds...»), новая модель формирует реальные слова и имена собственные даже без предварительного обучения.
Ключ — в ранковой иерархии архитектуры, где "устойчивая асимметрия вероятности" формирует признаки (слова). Модель спонтанно комбинирует их в структуры (Прил+Сущ, Глагол+Объект), имитируя базовые языковые законы. Это объясняет, почему на микро-датасетах (1К примеров) она избегает переобучения в шум (в отличие от трансформеров) и генерирует семантически насыщенные, но пока несвязные блоки.
Трансформер: Выдает "мусор" - бессвязные буквы, слоги, повторяющиеся частые слова/фрагменты. Типичное поведение очень недообученной LLM.
На слайдах показана лишь маленькая часть, так как не удалось вставлять символы на некоторых других языка, поэтому добавлю результаты в комментариях текстом.
Покажите, хотя бы одну архитектуру или теорию, которая могла бы продемонстрировать подобный результат.
🔥4
Во время разработки Gepse на ЭЭГ было потрачено много. Поэтому разберем ЭЭГ с точки зрения представленной модели асимметрии. Именно она отлично объясняет, что мы реальности можем получить с ЭЭГ и почему.
https://t.me/greenruff/483
https://t.me/greenruff/40
https://t.me/greenruff/37
Что можно "прочитать" из ЭЭГ: Top-Down и Bottom-Up сигналы
EEG — это карта внутренних процессов, в которой можно различить направление мысли и восприятия.
Bottom-Up сигналы — это отклик мозга на сенсорные стимулы.
Когда вы видите вспышку света или слышите резкий звук, сенсорная информация поступает снизу вверх: от органов чувств → таламус → слой 4 коры → верхние слои.
Это поток данных из внешнего мира.
В ЭЭГ он проявляется как:
Сильные фазо-связанные колебания (например, SSVEP от мерцающего света),
Всплески в γ-диапазоне (30–80 Гц) при активации сенсорных областей,
Регулярные ERP-компоненты (например, P300 при внимании к событиям).
Top-Down сигналы — это работа ума «внутри себя».
Когда вы вспоминаете, ожидаете, планируете или концентрируетесь — активируются верхние уровни (лобные, ассоциативные зоны), которые посылают сигналы вниз, подготавливая сенсорные области к восприятию или подавляя их.
В ЭЭГ они выглядят как:
Модуляция альфа/тета-ритмов (4–12 Гц), особенно в затылке и висках,
Подавление сенсорной реакции при отвлечении (альфа-ритм как фильтр),
Медленные волны во сне (top-down генерация сигналов от PFC/гиппокампа).
Важно заметить, что:
Bottom-up и top-down потоки сходятся в одних и тех же нейронах (например, слоя 2/3), но имеют разные причины и паттерны.
И хотя ЭЭГ не показывает напрямую «откуда» пришёл сигнал, его частота, локализация и контекст позволяют нам сделать обоснованные выводы.
Примеры того, что можно извлечь из ЭЭГ:
Bottom-Up:
— Узнать, смотрит ли человек на мерцающий объект (SSVEP);
— Реакция на ошибку или неожиданный звук (N100, P300);
— Сенсорная синхронизация при фокусе внимания (γ-связь).
Top-Down:
— Когда человек «задумался» или решает задачу — усиливаются тета-волны в лобной области;
— Подавление ненужной информации (альфа-ритм «глушит» зоны);
— Восстановление воспоминаний активирует тета/альфа-связь между гиппокампом и корой.
Bottom-Up активация
Примеры:
— Четкие SSVEP при 8–20 Гц визуальных стимулах;
— Активация A1 при внезапном звуке → N100 ERP (в течение ~100 мс);
— Быстрая γ-связь между сенсорными и ассоциативными полями.
Время: 100–300 мс достаточно, чтобы увидеть устойчивую bottom-up синхронизацию при регулярной стимуляции.
Зоны: первичные сенсорные коры, особенно зрительная (O1/Oz/O2) и слуховая (T7/T8).
Top-Down модуляция
Примеры:
— Индукция α-ритма для ингибирования зрительных входов;
— Рост θ в медиальной PFC при когнитивной нагрузке или working memory;
— Снижение γ-передачи при top-down подавлении.
Обратите внимание: Top-down чаще проявляется не в появлении новых волн, а в модуляции уже идущего bottom-up потока.
Сложность анализа
— Top-down сигналы не всегда легкоразделимы: они идут через глубокие слои, но могут модулировать поверхностные ритмы.
— Bottom-up более фазосвязаны (отклик на стимул), а top-down чаще эндогенные и фазонезависимые.
Здесь можно посмотреть больше исследований (собрано порядка 30-70 тыс)
https://disk.yandex.ru/i/Xgt5I8CFlloA3w
Но важно понимать, нужно всегда осторожно относится к результатам и интерпретации данных исследований. Большинство исследований ЭЭГ экстраполирует результат, притягивает его за уши или не верно интерпретируют свой результат.
В целом, в папке собрано часть материала по ЭЭГ, который был использован в свое время:
https://disk.yandex.ru/d/LCvmeIdYPsPAvA
Там только часть материала.
Много материалов было на:
https://openeeg.sourceforge.net/doc/
https://t.me/greenruff/483
https://t.me/greenruff/40
https://t.me/greenruff/37
Что можно "прочитать" из ЭЭГ: Top-Down и Bottom-Up сигналы
EEG — это карта внутренних процессов, в которой можно различить направление мысли и восприятия.
Bottom-Up сигналы — это отклик мозга на сенсорные стимулы.
Когда вы видите вспышку света или слышите резкий звук, сенсорная информация поступает снизу вверх: от органов чувств → таламус → слой 4 коры → верхние слои.
Это поток данных из внешнего мира.
В ЭЭГ он проявляется как:
Сильные фазо-связанные колебания (например, SSVEP от мерцающего света),
Всплески в γ-диапазоне (30–80 Гц) при активации сенсорных областей,
Регулярные ERP-компоненты (например, P300 при внимании к событиям).
Top-Down сигналы — это работа ума «внутри себя».
Когда вы вспоминаете, ожидаете, планируете или концентрируетесь — активируются верхние уровни (лобные, ассоциативные зоны), которые посылают сигналы вниз, подготавливая сенсорные области к восприятию или подавляя их.
В ЭЭГ они выглядят как:
Модуляция альфа/тета-ритмов (4–12 Гц), особенно в затылке и висках,
Подавление сенсорной реакции при отвлечении (альфа-ритм как фильтр),
Медленные волны во сне (top-down генерация сигналов от PFC/гиппокампа).
Важно заметить, что:
Bottom-up и top-down потоки сходятся в одних и тех же нейронах (например, слоя 2/3), но имеют разные причины и паттерны.
И хотя ЭЭГ не показывает напрямую «откуда» пришёл сигнал, его частота, локализация и контекст позволяют нам сделать обоснованные выводы.
Примеры того, что можно извлечь из ЭЭГ:
Bottom-Up:
— Узнать, смотрит ли человек на мерцающий объект (SSVEP);
— Реакция на ошибку или неожиданный звук (N100, P300);
— Сенсорная синхронизация при фокусе внимания (γ-связь).
Top-Down:
— Когда человек «задумался» или решает задачу — усиливаются тета-волны в лобной области;
— Подавление ненужной информации (альфа-ритм «глушит» зоны);
— Восстановление воспоминаний активирует тета/альфа-связь между гиппокампом и корой.
ЭЭГ — это не просто сумма ритмов. Это проекция направленного взаимодействия между кортикальными слоями и системами.
Bottom-Up активация
Источник: сенсорные ядра таламуса → L4 → L2/3.
Ритмы: γ (30–80 Гц), SSVEP, ранние ERP (P1, N1, P2).
Примеры:
— Четкие SSVEP при 8–20 Гц визуальных стимулах;
— Активация A1 при внезапном звуке → N100 ERP (в течение ~100 мс);
— Быстрая γ-связь между сенсорными и ассоциативными полями.
Время: 100–300 мс достаточно, чтобы увидеть устойчивую bottom-up синхронизацию при регулярной стимуляции.
Зоны: первичные сенсорные коры, особенно зрительная (O1/Oz/O2) и слуховая (T7/T8).
Top-Down модуляция
Источник: PFC/MPFC, ACC, ассоциативные зоны → L1/L6 → L2/3.
Ритмы: α (8–12 Гц), θ (4–7 Гц), медленные потенциалы (например, CNV, BP).
Примеры:
— Индукция α-ритма для ингибирования зрительных входов;
— Рост θ в медиальной PFC при когнитивной нагрузке или working memory;
— Снижение γ-передачи при top-down подавлении.
Обратите внимание: Top-down чаще проявляется не в появлении новых волн, а в модуляции уже идущего bottom-up потока.
Сложность анализа
— Top-down сигналы не всегда легкоразделимы: они идут через глубокие слои, но могут модулировать поверхностные ритмы.
— Bottom-up более фазосвязаны (отклик на стимул), а top-down чаще эндогенные и фазонезависимые.
Здесь можно посмотреть больше исследований (собрано порядка 30-70 тыс)
https://disk.yandex.ru/i/Xgt5I8CFlloA3w
Но важно понимать, нужно всегда осторожно относится к результатам и интерпретации данных исследований. Большинство исследований ЭЭГ экстраполирует результат, притягивает его за уши или не верно интерпретируют свой результат.
В целом, в папке собрано часть материала по ЭЭГ, который был использован в свое время:
https://disk.yandex.ru/d/LCvmeIdYPsPAvA
Там только часть материала.
Много материалов было на:
https://openeeg.sourceforge.net/doc/
👍1
На примере выше, показано, затем нужна модель бифуркации системы. Когда она сама на основе внешних сигналов разворачивается исходя из выделенных в сигнале признаков. Потому что изначально мы не можем сказать точно, сколько признаков надо выделить, глубина иерархии и так далее.
Поэтому пока тестирование проходит на LLM.
Бифуркация сложна в инженерном плане. При расширении архитектуры входы и выходы меняются динамически и их надо согласовывать как с соседними слоями/блоками, так и с модулирующими сигналами.
Но ещё одна сложность, это адаптация багажа современных нейронных сетей: оптимизаторов и других частей, которые заточены под статическую архитектуру. С этим пока приходится решать проблемы и смотреть как их доработать.
Выше разбор ранков на примере кохлеарного ядра.
Слуховая система человека представляет собой сложный сенсорный механизм, обеспечивающий восприятие, фильтрацию и интерпретацию звуковых сигналов. Одним из первых этапов обработки звука в центральной нервной системе является "кохлеарное ядро" (Cochlear Nucleus, CN), расположенное в стволе мозга. Оно принимает информацию от волосковых клеток внутреннего уха через "слуховой нерв" и начинает её обработку, прежде чем передать в более высокие отделы слуховой системы.
pVCN обеспечивает точное временное кодирование звуковой информации, что критично для распознавания речи и музыки.
aVCN участвует в формировании представления о громкости, тембре и пространственном положении источника звука.
DCN играет ключевую роль в обработке слуховой информации, особенно в анализе спектральных характеристик звука и пространственной локализации источников. Оно участвует в распознавании формы звукового сигнала, адаптации к фоновому шуму и интеграции сенсорной информации из других систем (например, соматосенсорной), что помогает определить положение звука в пространстве.
Цель поста показать, как иерархия ранков ложиться на пример одной из зон мозга. А так же на примере проиллюстрировать конечный автомат асимметрии.
Это показывает, как ветвится и детализируются признаки и области мозга.
В свое время, казалось что мозг не оптимально развил эти области. Дело в том, что VCN хорошо справляется с речью, а DCN с эхолокацией. Казалось, затем такое усложнение, почему одна область не вместила в себя обе функции. С учётом ранковой модели ответ просто. Один ранк отвечает за речь как признак, другой ближе к эхолокации как признак. И дальше они уже по своему детализируют информацию, создавая свою иерархию признаков.
Поэтому пока тестирование проходит на LLM.
Бифуркация сложна в инженерном плане. При расширении архитектуры входы и выходы меняются динамически и их надо согласовывать как с соседними слоями/блоками, так и с модулирующими сигналами.
Но ещё одна сложность, это адаптация багажа современных нейронных сетей: оптимизаторов и других частей, которые заточены под статическую архитектуру. С этим пока приходится решать проблемы и смотреть как их доработать.
Выше разбор ранков на примере кохлеарного ядра.
Слуховая система человека представляет собой сложный сенсорный механизм, обеспечивающий восприятие, фильтрацию и интерпретацию звуковых сигналов. Одним из первых этапов обработки звука в центральной нервной системе является "кохлеарное ядро" (Cochlear Nucleus, CN), расположенное в стволе мозга. Оно принимает информацию от волосковых клеток внутреннего уха через "слуховой нерв" и начинает её обработку, прежде чем передать в более высокие отделы слуховой системы.
pVCN обеспечивает точное временное кодирование звуковой информации, что критично для распознавания речи и музыки.
aVCN участвует в формировании представления о громкости, тембре и пространственном положении источника звука.
DCN играет ключевую роль в обработке слуховой информации, особенно в анализе спектральных характеристик звука и пространственной локализации источников. Оно участвует в распознавании формы звукового сигнала, адаптации к фоновому шуму и интеграции сенсорной информации из других систем (например, соматосенсорной), что помогает определить положение звука в пространстве.
Цель поста показать, как иерархия ранков ложиться на пример одной из зон мозга. А так же на примере проиллюстрировать конечный автомат асимметрии.
Это показывает, как ветвится и детализируются признаки и области мозга.
В свое время, казалось что мозг не оптимально развил эти области. Дело в том, что VCN хорошо справляется с речью, а DCN с эхолокацией. Казалось, затем такое усложнение, почему одна область не вместила в себя обе функции. С учётом ранковой модели ответ просто. Один ранк отвечает за речь как признак, другой ближе к эхолокации как признак. И дальше они уже по своему детализируют информацию, создавая свою иерархию признаков.
👍1
Главное различие в «Softmax»
Классический Softmax
Для входного вектора x=[x1, x2,...,xN]:
- Основан на абсолютных значениях x(i).
- Усиливает различия: большие x(i) получают экспоненциально большие вероятности.
- Не учитывает структурную близость к устойчивым признакам.
Новый Ранковый Softmax вычисляет Z независимо от самих входов X, а лишь по заранее заданным рангам j=1…N:
Вероятность зависит только от собственного x(i), а не от всего вектора x.
Входной сигнал x ∈ [1, N] трактуется как непрерывное значение между дискретными рангами признаков.
Затем e^(-x/β) даёт вероятность того, насколько этот ранг значим.
Здесь нормировка через Z (сумма e^(-j/β), j=1..N) — это аналог нормировочной меры пространства признаков.
P(i) - это абсолютная вероятность попадания в ранг, вычисленная в рамках шкалы признаков, а не других x(j).
β ↑ → система менее чувствительна: воспринимает большие диапазоны X как один и тот же ранг → обобщение
β ↓ → система более чувствительна: различает даже небольшие изменения X → детализация
Это аналогично ширине рецептивного поля в биологической системе: чем шире, тем больше охват, но хуже различение.
Классический Softmax: глобальная нормировка по всем признакам.
Новый Ранковый Softmax: интерпретирует вход, как сигнал принадлежности к признакам.
Классический Softmax
Для входного вектора x=[x1, x2,...,xN]:
Softmax( x(i) ) = e^x(i) / { j = 1...N } ∑ e^x(j)
- Основан на абсолютных значениях x(i).
- Усиливает различия: большие x(i) получают экспоненциально большие вероятности.
- Не учитывает структурную близость к устойчивым признакам.
Новый Ранковый Softmax вычисляет Z независимо от самих входов X, а лишь по заранее заданным рангам j=1…N:
Ranked(x)= e^(−x / β) / Z , Z = {k=1..N} ∑ e ^ (−k / β)
Вероятность зависит только от собственного x(i), а не от всего вектора x.
Входной сигнал x ∈ [1, N] трактуется как непрерывное значение между дискретными рангами признаков.
x —это позиция в шкале рангов признаков.
N — максимальное число различимых признаков.
β — параметр плавности восприятия различий.
Затем e^(-x/β) даёт вероятность того, насколько этот ранг значим.
Здесь нормировка через Z (сумма e^(-j/β), j=1..N) — это аналог нормировочной меры пространства признаков.
P(i) - это абсолютная вероятность попадания в ранг, вычисленная в рамках шкалы признаков, а не других x(j).
β ↑ → система менее чувствительна: воспринимает большие диапазоны X как один и тот же ранг → обобщение
β ↓ → система более чувствительна: различает даже небольшие изменения X → детализация
Это аналогично ширине рецептивного поля в биологической системе: чем шире, тем больше охват, но хуже различение.
Классический Softmax: глобальная нормировка по всем признакам.
Новый Ранковый Softmax: интерпретирует вход, как сигнал принадлежности к признакам.
👍4🔥2