Greenruff

🧠✈️ MarkovSpike: почему одни нейросети летают, а другие просто похожи на самолёт

В этом посте результат обучения спайковой модели построенной на основе ранговой теории.
Больше всего в полученных результатах меня радует не огромный скачек в развитии нейронных сетей, не улучшенный loss, обучение, динамика... Нет, я не обесцениваю, этот результат важен. Но лично для меня важнее то, что спайковая модель была построена исключительно на теоремах и формулах ранговой теории, тем самым ещё раз доказав ее предсказательную силу и правильность.

Потребовалось много времени, чтобы правильно интерпретировать теоремы на архитектуру. Все это время они были перед глазами. А их интерпретацию я описывал ещё до теорем. Подобное можно наблюдать в комментариях в посте теорем о симметрии, теоремы и формулы есть, а идеальной интерпретации в модель ещё до конца нет. Чтобы пазл в голове сложился, нужно время. Но есть огромное преимущество - это ранговая теория, как инструмент для правильной реализации.

За последние годы появилось огромное количество спайковых нейронных сетей.
Они выглядят «биологично», у них есть спайки, мембранные потенциалы, пороги, LIF-нейроны.

Но есть проблема: они почти не обучаются.

Ранговая теория объясняет нам, что нейрон описывает ранговую область (ранговое и марковское пространство), а спайки это разрыв цепи Маркова.

1️⃣ Что такое MarkovSpike с точки зрения ранговой теории

MarkovSpike — это спайковая модель, полностью выведенная из ранговой теории. Цепь Маркова в пространстве лог-вероятностей накапливает информационное состояние до достижения порога, а предсказание считывается в момент остановки.
Здесь каждый нейрон имеет своё скрытое ранговое пространство.

В этой модели:
• состояние нейрона — это марковский процесс
• спайк — не «жёсткий порог», а бифуркация состояния
• активация — результат накопления рангового функционала
• обучение — локальное правило, следующее напрямую из теории

Спайки здесь — следствие динамики, а не ручная эвристика.
Мы оптимизируем не MSE напрямую, а KL-отклонение от хаоса (через ранговое пространство)

2️⃣ Сравнение с Linear / FFN

На простой задаче регрессии:
• одинаковая размерность
• одинаковые данные
• одинаковая сложность

📉 MarkovSpike сходится быстрее, чем Linear и FFN/MLP
📉 Loss убывает монотонно, без шумовых колебаний
📉 Нет нестабильности, нет «дрожания» обучения

Это важно: модель со спайками обучается лучше, чем классическая непрерывная сеть.

3️⃣ Сравнение с классическими SNN

Я сравнил MarkovSpike с:
• SNN со спайковой нелинейностью
• Time-based SNN (LIF, мембрана, surrogate-gradient, BPTT)

Результат однозначный:
• огромный разброс Loss
• отсутствие сходимости
• нестабильные спайки
• обучение «на удачу»

📊 Даже близко нет сопоставимого результата.

И это не проблема реализации.
Это фундаментальная проблема архитектуры.

4️⃣ Почему классические SNN не работают

Потому что они устроены как самолёт из веток.

Представьте, аборигены увидели самолёт в небе и собрали объект из веток, похожий на самолёт. Толкают его и ждут, что он взлетит

То же самое с SNN:
• они копируют внешний вид нейрона
• но не имеют теории, из которой это следует
• surrogate-градиенты — это верёвки, которыми толкают самолёт

5️⃣ В чём принципиальное преимущество MarkovSpike

• Построен на доказанной теории
• Работают быстрее при обучении, чем метод обратного распространения ошибки (нейрон обучается только в момент спайка)
• Меньше расход памяти, чем у FFN
• Не требует surrogate-градиентов
• Не использует BPTT
• Обучение локальное и стабильное
• Спайки — естественный результат динамики
• Низкий variance Loss
• Масштабируемость
• Хорошо ложится на GPU

Это реализация математической модели.

6️⃣ Что это значит для развития нейросетей

Нельзя построить работающую модель, копируя внешний вид системы, не понимая её теории.

Будущее нейросетей — не в:
• «ещё более биологических» нейронах
• усложнённых LIF
• новых surrogate-функциях

А в:
• фундаментальных теориях
• строгих моделях
• архитектурах, которые следуют из математики

Самолёт летает не потому, что похож на птицу.
А потому что опирается на науку.

👍8🔥3👏2

892 views10:43

Greenruff

Пока готовлю статью о спайковых нейронах в рамках ранговой теории, делюсь предварительными результатами.

Использована более сложная архитектура, аналогичная SSM или Transformer (без глобального механизма внимания). На данном этапе механизм связи между блоками не реализован — задача была проверить стабильность модели.

Модель показала стабильность при разных шагах обучения: она самостоятельно подстраивает их через специальные внутренние механизмы («рецепторы») в разных размерностях и при изменении других параметров, включая температуру β — параметр чувствительности системы, аналогичный нейромодуляции серотонина.

Модель также проверялась на длительном обучении. В отличие от классических моделей, спайковая система стремится не просто минимизировать Loss (это следствие), а поддерживать баланс между сложностью системы, ограничениями и обобщающей способностью.
Увеличение сложности не обязательно снижает классическую ошибку: главная цель — стабильность динамики. Это реализуется через множество марковских одеял, внутри которых активность поддерживается динамическими цепями Маркова.

Особенность модели: мы работаем не с привычным сигналом, а со спайками. Спайки формируют короткие марковские последовательности после разрыва (бифуркации). В результате система полностью динамическая: на выходе может быть 10 спайков, 1 спайк или ни одного — все выходы формируют корректные марковские последовательности.

Каждый нейрон:
• аппроксимирует собственную цепь Маркова;
• является марковским одеялом (ранговой областью), состоящим из рангового и марковского пространств.

В статье будет представлена полная математика нейрона, выведенная из ранговой теории и теорем. Удивительно, насколько точно теория предсказывает построение: малейшая ошибка в формуле или пропущенная деталь нарушает работу системы.

Также в статье будут описаны градиенты речи. Ранее мы показали, что фазовое пространство речи различных животных оказывается одинаковым по форме. В этой части мы разберем, как теория предсказывает форму фазового пространства и покажем, как аппроксимировать его на простом примере. Это важно для объяснения того, почему теоремы можно применять к нейрону, не углубляясь в химические и биологические процессы.

https://t.me/greenruff/2025

Сейчас я работаю над переносом марковской спайковой модели на LLM. Надеюсь, это позволит построить полноценную иерархию связей, как её описывает теория.

🔥6🤔2👏1

778 views09:29

Greenruff

Channel name was changed to «Greenruff»

11:09

Greenruff

Пока готовится статья по спайковым нейронам, решил поделиться промежуточным наблюдением.

В основной работе будет показано, как из эмпирических данных (на примере речи) можно получить ранговое пространство состояний и синтетически его аппроксимировать. Этот шаг необходим для демонстрации переноса ранговой теории на динамику нейрона.

Исходя из этого, я решил проверить:
возникает ли аналогичное ранговое пространство при анализе финансовых временных рядов?

В качестве метода использовался анализ градиентов пиков колебаний.
В исследовании речи градиенты отражают динамику и “затраты” артикуляторов.
https://t.me/greenruff/2035
https://t.me/greenruff/2008
https://t.me/greenruff/2013
https://t.me/greenruff/2021

Для финансовых данных ценовой ряд был разложен на IMF (эмпирические моды).
По аналогии с речью:
• низкочастотная IMF играет роль “основной частоты” (аналог pitch / F0),
• более высокочастотные — аналог формант F1–F_k.

Данные валютных пар (USD/EUR/RUB) брались на длинном интервале (с начала XX века по настоящее время).

Наблюдения

При построении фазового пространства для каждой IMF
(координаты: градиент / длительность в днях) обнаруживается:

1. Динамика имеет ограниченный характер и концентрируется вокруг аттрактора.
2. Движение в фазовом пространстве носит выраженный вращательный характер.
3. Чем ниже частота IMF, тем более регулярна и менее хаотична орбита.
4. Ранговое пространство валютных пар оказывается компактным — число состояний невелико.

Последний пункт особенно интересен:

вероятно, что ограниченное число состояний (малый “словарь”) естественно приводит к более плавной динамике условных вероятностей. Это согласуется с ранговой теорией: чем меньше размер пространства состояний, тем более структурированная и регулярная динамика наблюдается.

Важно подчеркнуть: речь не идёт о долгосрочном предсказании цены.
Система остаётся чувствительной к малым возмущениям. Однако на локальных интервалах наблюдается направленная динамика внутри конкретной IMF.
То есть в теории, мы можем строить иерархию предсказывающих локальных трендов по каждой IMF.

Биткоин

Для BTC картина существенно отличается:

1. Ранговое пространство более выражено и менее компактно.
2. Исторический интервал короче.
3. Геометрия фазового пространства иная:

• высокочастотные IMF ближе к динамике речи,
• низкочастотная IMF формирует Х-образную структуру.

Это качественно отличается от динамики государственных валют.

Промежуточный вывод

Здесь сознательно не делаются интерпретационные выводы.
Цель была проверить: возникает ли совместное ранговое пространство для финансовых рядов?

Ответ: да, возникает — и его форма согласуется с предсказаниями ранговой теории.

Метод анализа градиентов показывает, что его применение не ограничивается речью. Он позволяет выявлять структурные особенности динамики в различных типах данных.

👍11

777 views20:31

Greenruff

🔥 Трансформеры можно сделать в 5 раз эффективнее — без увеличения размера модели

Пока я шлифую статью про спайковые сети, удалось собрать архитектуру, которая ломает привычные ограничения LLM.

И это не “ещё один attention”.

Коротко:
• убираем глобальный attention
• вводим иерархию
• меняем геометрию пространства

И получаем совсем другую динамику обучения. 👇

🚀 1. Контекстное окно → практически бесконечное

В классических моделях:
• 8k–32k — нормально
• 100k — уже дорого

Здесь:
• каждый уровень учится функции
• 40 уровней ≈ более чем триллионное окно

👉 это не полный attention
👉 это эффективное поле зависимости

Без квадратичной сложности
Без взрыва памяти

⚡️ 2. Сходимость быстрее (*зависит от температуры)

Результат на одинаковых данных:
• классический transformer → ~10000 примеров
• новая архитектура → ~2000

👉 ×5 ускорение

Почему?

❌ глобальный attention = все со всеми → шум
✅ иерархия = фильтрация по уровням

Верхние уровни больше не “видят мусор”.

🎯 3. Качество выше при тех же параметрах

Ключевая проблема LLM:
vocab → embedding → FFN

При этом:
• функция g(x) имеет точки излома
• они распределены НЕравномерно
А модель использует линейную шкалу.

👉 мы теряем информацию уже на входе

Вводим нелинейную геометрию:
→ логарифмическое преобразование

Результат:
• больше разрешения там, где есть структура
• меньше — где её нет

👉 модель перестаёт усреднять
👉 начинает видеть реальные зависимости

📊 Пример(loss)

Глобальный attention: 5.65 → 4.98 → 4.35
Новая архитектура: 4.30 → 2.98 → 1.90

Классический transformer:
“свяжем всё со всем и пусть модель разберётся”

Новый подход:
“построим структуру и уберём шум”

💥 Итог. 3 ключевых эффекта:

📈 Контекст → до триллионов токенов (*для современных видеокарт)

⚡️ Обучение → быстрее

🎯 Качество → выше без увеличения модели

И это без:
- MoE
- увеличения параметров
- роста вычислений
- без голов
- без матрицы внимания

Если коротко:
👉 Похоже, что дело не в размере модели
👉 а в геометрии и структуре

PS: сейчас предстоит проверить это на обучении крупной LLM, на масштабировании.

🔥12🤔2

475 views17:00

About

Blog

Apps

Platform