🧠✈️ MarkovSpike: почему одни нейросети летают, а другие просто похожи на самолёт
В этом посте результат обучения спайковой модели построенной на основе ранговой теории.
Больше всего в полученных результатах меня радует не огромный скачек в развитии нейронных сетей, не улучшенный loss, обучение, динамика... Нет, я не обесцениваю, этот результат важен. Но лично для меня важнее то, что спайковая модель была построена исключительно на теоремах и формулах ранговой теории, тем самым ещё раз доказав ее предсказательную силу и правильность.
Потребовалось много времени, чтобы правильно интерпретировать теоремы на архитектуру. Все это время они были перед глазами. А их интерпретацию я описывал ещё до теорем. Подобное можно наблюдать в комментариях в посте теорем о симметрии, теоремы и формулы есть, а идеальной интерпретации в модель ещё до конца нет. Чтобы пазл в голове сложился, нужно время. Но есть огромное преимущество - это ранговая теория, как инструмент для правильной реализации.
За последние годы появилось огромное количество спайковых нейронных сетей.
Они выглядят «биологично», у них есть спайки, мембранные потенциалы, пороги, LIF-нейроны.
Но есть проблема: они почти не обучаются.
Ранговая теория объясняет нам, что нейрон описывает ранговую область (ранговое и марковское пространство), а спайки это разрыв цепи Маркова.
1️⃣ Что такое MarkovSpike с точки зрения ранговой теории
MarkovSpike — это спайковая модель, полностью выведенная из ранговой теории. Цепь Маркова в пространстве лог-вероятностей накапливает информационное состояние до достижения порога, а предсказание считывается в момент остановки.
Здесь каждый нейрон имеет своё скрытое ранговое пространство.
В этой модели:
• состояние нейрона — это марковский процесс
• спайк — не «жёсткий порог», а бифуркация состояния
• активация — результат накопления рангового функционала
• обучение — локальное правило, следующее напрямую из теории
Спайки здесь — следствие динамики, а не ручная эвристика.
Мы оптимизируем не MSE напрямую, а KL-отклонение от хаоса (через ранговое пространство)
2️⃣ Сравнение с Linear / FFN
На простой задаче регрессии:
• одинаковая размерность
• одинаковые данные
• одинаковая сложность
📉 MarkovSpike сходится быстрее, чем Linear и FFN/MLP
📉 Loss убывает монотонно, без шумовых колебаний
📉 Нет нестабильности, нет «дрожания» обучения
Это важно: модель со спайками обучается лучше, чем классическая непрерывная сеть.
3️⃣ Сравнение с классическими SNN
Я сравнил MarkovSpike с:
• SNN со спайковой нелинейностью
• Time-based SNN (LIF, мембрана, surrogate-gradient, BPTT)
Результат однозначный:
• огромный разброс Loss
• отсутствие сходимости
• нестабильные спайки
• обучение «на удачу»
📊 Даже близко нет сопоставимого результата.
И это не проблема реализации.
Это фундаментальная проблема архитектуры.
4️⃣ Почему классические SNN не работают
Потому что они устроены как самолёт из веток.
То же самое с SNN:
• они копируют внешний вид нейрона
• но не имеют теории, из которой это следует
• surrogate-градиенты — это верёвки, которыми толкают самолёт
5️⃣ В чём принципиальное преимущество MarkovSpike
• Построен на доказанной теории
• Работают быстрее при обучении, чем метод обратного распространения ошибки (нейрон обучается только в момент спайка)
• Меньше расход памяти, чем у FFN
• Не требует surrogate-градиентов
• Не использует BPTT
• Обучение локальное и стабильное
• Спайки — естественный результат динамики
• Низкий variance Loss
• Масштабируемость
• Хорошо ложится на GPU
Это реализация математической модели.
6️⃣ Что это значит для развития нейросетей
Нельзя построить работающую модель, копируя внешний вид системы, не понимая её теории.
Будущее нейросетей — не в:
• «ещё более биологических» нейронах
• усложнённых LIF
• новых surrogate-функциях
А в:
• фундаментальных теориях
• строгих моделях
• архитектурах, которые следуют из математики
Самолёт летает не потому, что похож на птицу.
А потому что опирается на науку.
В этом посте результат обучения спайковой модели построенной на основе ранговой теории.
Больше всего в полученных результатах меня радует не огромный скачек в развитии нейронных сетей, не улучшенный loss, обучение, динамика... Нет, я не обесцениваю, этот результат важен. Но лично для меня важнее то, что спайковая модель была построена исключительно на теоремах и формулах ранговой теории, тем самым ещё раз доказав ее предсказательную силу и правильность.
Потребовалось много времени, чтобы правильно интерпретировать теоремы на архитектуру. Все это время они были перед глазами. А их интерпретацию я описывал ещё до теорем. Подобное можно наблюдать в комментариях в посте теорем о симметрии, теоремы и формулы есть, а идеальной интерпретации в модель ещё до конца нет. Чтобы пазл в голове сложился, нужно время. Но есть огромное преимущество - это ранговая теория, как инструмент для правильной реализации.
За последние годы появилось огромное количество спайковых нейронных сетей.
Они выглядят «биологично», у них есть спайки, мембранные потенциалы, пороги, LIF-нейроны.
Но есть проблема: они почти не обучаются.
Ранговая теория объясняет нам, что нейрон описывает ранговую область (ранговое и марковское пространство), а спайки это разрыв цепи Маркова.
1️⃣ Что такое MarkovSpike с точки зрения ранговой теории
MarkovSpike — это спайковая модель, полностью выведенная из ранговой теории. Цепь Маркова в пространстве лог-вероятностей накапливает информационное состояние до достижения порога, а предсказание считывается в момент остановки.
Здесь каждый нейрон имеет своё скрытое ранговое пространство.
В этой модели:
• состояние нейрона — это марковский процесс
• спайк — не «жёсткий порог», а бифуркация состояния
• активация — результат накопления рангового функционала
• обучение — локальное правило, следующее напрямую из теории
Спайки здесь — следствие динамики, а не ручная эвристика.
Мы оптимизируем не MSE напрямую, а KL-отклонение от хаоса (через ранговое пространство)
2️⃣ Сравнение с Linear / FFN
На простой задаче регрессии:
• одинаковая размерность
• одинаковые данные
• одинаковая сложность
📉 MarkovSpike сходится быстрее, чем Linear и FFN/MLP
📉 Loss убывает монотонно, без шумовых колебаний
📉 Нет нестабильности, нет «дрожания» обучения
Это важно: модель со спайками обучается лучше, чем классическая непрерывная сеть.
3️⃣ Сравнение с классическими SNN
Я сравнил MarkovSpike с:
• SNN со спайковой нелинейностью
• Time-based SNN (LIF, мембрана, surrogate-gradient, BPTT)
Результат однозначный:
• огромный разброс Loss
• отсутствие сходимости
• нестабильные спайки
• обучение «на удачу»
📊 Даже близко нет сопоставимого результата.
И это не проблема реализации.
Это фундаментальная проблема архитектуры.
4️⃣ Почему классические SNN не работают
Потому что они устроены как самолёт из веток.
Представьте, аборигены увидели самолёт в небе и собрали объект из веток, похожий на самолёт. Толкают его и ждут, что он взлетит
То же самое с SNN:
• они копируют внешний вид нейрона
• но не имеют теории, из которой это следует
• surrogate-градиенты — это верёвки, которыми толкают самолёт
5️⃣ В чём принципиальное преимущество MarkovSpike
• Построен на доказанной теории
• Работают быстрее при обучении, чем метод обратного распространения ошибки (нейрон обучается только в момент спайка)
• Меньше расход памяти, чем у FFN
• Не требует surrogate-градиентов
• Не использует BPTT
• Обучение локальное и стабильное
• Спайки — естественный результат динамики
• Низкий variance Loss
• Масштабируемость
• Хорошо ложится на GPU
Это реализация математической модели.
6️⃣ Что это значит для развития нейросетей
Нельзя построить работающую модель, копируя внешний вид системы, не понимая её теории.
Будущее нейросетей — не в:
• «ещё более биологических» нейронах
• усложнённых LIF
• новых surrogate-функциях
А в:
• фундаментальных теориях
• строгих моделях
• архитектурах, которые следуют из математики
Самолёт летает не потому, что похож на птицу.
А потому что опирается на науку.
👍8🔥3👏2
Пока готовлю статью о спайковых нейронах в рамках ранговой теории, делюсь предварительными результатами.
Использована более сложная архитектура, аналогичная SSM или Transformer (без глобального механизма внимания). На данном этапе механизм связи между блоками не реализован — задача была проверить стабильность модели.
Модель показала стабильность при разных шагах обучения: она самостоятельно подстраивает их через специальные внутренние механизмы («рецепторы») в разных размерностях и при изменении других параметров, включая температуру β — параметр чувствительности системы, аналогичный нейромодуляции серотонина.
Модель также проверялась на длительном обучении. В отличие от классических моделей, спайковая система стремится не просто минимизировать Loss (это следствие), а поддерживать баланс между сложностью системы, ограничениями и обобщающей способностью.
Увеличение сложности не обязательно снижает классическую ошибку: главная цель — стабильность динамики. Это реализуется через множество марковских одеял, внутри которых активность поддерживается динамическими цепями Маркова.
Особенность модели: мы работаем не с привычным сигналом, а со спайками. Спайки формируют короткие марковские последовательности после разрыва (бифуркации). В результате система полностью динамическая: на выходе может быть 10 спайков, 1 спайк или ни одного — все выходы формируют корректные марковские последовательности.
Каждый нейрон:
• аппроксимирует собственную цепь Маркова;
• является марковским одеялом (ранговой областью), состоящим из рангового и марковского пространств.
Также в статье будут описаны градиенты речи. Ранее мы показали, что фазовое пространство речи различных животных оказывается одинаковым по форме. В этой части мы разберем, как теория предсказывает форму фазового пространства и покажем, как аппроксимировать его на простом примере. Это важно для объяснения того, почему теоремы можно применять к нейрону, не углубляясь в химические и биологические процессы.
https://t.me/greenruff/2025
Сейчас я работаю над переносом марковской спайковой модели на LLM. Надеюсь, это позволит построить полноценную иерархию связей, как её описывает теория.
Использована более сложная архитектура, аналогичная SSM или Transformer (без глобального механизма внимания). На данном этапе механизм связи между блоками не реализован — задача была проверить стабильность модели.
Модель показала стабильность при разных шагах обучения: она самостоятельно подстраивает их через специальные внутренние механизмы («рецепторы») в разных размерностях и при изменении других параметров, включая температуру β — параметр чувствительности системы, аналогичный нейромодуляции серотонина.
Модель также проверялась на длительном обучении. В отличие от классических моделей, спайковая система стремится не просто минимизировать Loss (это следствие), а поддерживать баланс между сложностью системы, ограничениями и обобщающей способностью.
Увеличение сложности не обязательно снижает классическую ошибку: главная цель — стабильность динамики. Это реализуется через множество марковских одеял, внутри которых активность поддерживается динамическими цепями Маркова.
Особенность модели: мы работаем не с привычным сигналом, а со спайками. Спайки формируют короткие марковские последовательности после разрыва (бифуркации). В результате система полностью динамическая: на выходе может быть 10 спайков, 1 спайк или ни одного — все выходы формируют корректные марковские последовательности.
Каждый нейрон:
• аппроксимирует собственную цепь Маркова;
• является марковским одеялом (ранговой областью), состоящим из рангового и марковского пространств.
В статье будет представлена полная математика нейрона, выведенная из ранговой теории и теорем. Удивительно, насколько точно теория предсказывает построение: малейшая ошибка в формуле или пропущенная деталь нарушает работу системы.
Также в статье будут описаны градиенты речи. Ранее мы показали, что фазовое пространство речи различных животных оказывается одинаковым по форме. В этой части мы разберем, как теория предсказывает форму фазового пространства и покажем, как аппроксимировать его на простом примере. Это важно для объяснения того, почему теоремы можно применять к нейрону, не углубляясь в химические и биологические процессы.
https://t.me/greenruff/2025
Сейчас я работаю над переносом марковской спайковой модели на LLM. Надеюсь, это позволит построить полноценную иерархию связей, как её описывает теория.
🔥6🤔2👏1
Пока готовится статья по спайковым нейронам, решил поделиться промежуточным наблюдением.
В основной работе будет показано, как из эмпирических данных (на примере речи) можно получить ранговое пространство состояний и синтетически его аппроксимировать. Этот шаг необходим для демонстрации переноса ранговой теории на динамику нейрона.
Исходя из этого, я решил проверить:
возникает ли аналогичное ранговое пространство при анализе финансовых временных рядов?
В качестве метода использовался анализ градиентов пиков колебаний.
В исследовании речи градиенты отражают динамику и “затраты” артикуляторов.
https://t.me/greenruff/2035
https://t.me/greenruff/2008
https://t.me/greenruff/2013
https://t.me/greenruff/2021
Для финансовых данных ценовой ряд был разложен на IMF (эмпирические моды).
По аналогии с речью:
• низкочастотная IMF играет роль “основной частоты” (аналог pitch / F0),
• более высокочастотные — аналог формант F1–F_k.
Данные валютных пар (USD/EUR/RUB) брались на длинном интервале (с начала XX века по настоящее время).
Наблюдения
При построении фазового пространства для каждой IMF
(координаты: градиент / длительность в днях) обнаруживается:
1. Динамика имеет ограниченный характер и концентрируется вокруг аттрактора.
2. Движение в фазовом пространстве носит выраженный вращательный характер.
3. Чем ниже частота IMF, тем более регулярна и менее хаотична орбита.
4. Ранговое пространство валютных пар оказывается компактным — число состояний невелико.
Последний пункт особенно интересен:
Важно подчеркнуть: речь не идёт о долгосрочном предсказании цены.
Система остаётся чувствительной к малым возмущениям. Однако на локальных интервалах наблюдается направленная динамика внутри конкретной IMF.
То есть в теории, мы можем строить иерархию предсказывающих локальных трендов по каждой IMF.
Биткоин
Для BTC картина существенно отличается:
1. Ранговое пространство более выражено и менее компактно.
2. Исторический интервал короче.
3. Геометрия фазового пространства иная:
• высокочастотные IMF ближе к динамике речи,
• низкочастотная IMF формирует Х-образную структуру.
Это качественно отличается от динамики государственных валют.
Промежуточный вывод
Здесь сознательно не делаются интерпретационные выводы.
Цель была проверить: возникает ли совместное ранговое пространство для финансовых рядов?
Метод анализа градиентов показывает, что его применение не ограничивается речью. Он позволяет выявлять структурные особенности динамики в различных типах данных.
В основной работе будет показано, как из эмпирических данных (на примере речи) можно получить ранговое пространство состояний и синтетически его аппроксимировать. Этот шаг необходим для демонстрации переноса ранговой теории на динамику нейрона.
Исходя из этого, я решил проверить:
возникает ли аналогичное ранговое пространство при анализе финансовых временных рядов?
В качестве метода использовался анализ градиентов пиков колебаний.
В исследовании речи градиенты отражают динамику и “затраты” артикуляторов.
https://t.me/greenruff/2035
https://t.me/greenruff/2008
https://t.me/greenruff/2013
https://t.me/greenruff/2021
Для финансовых данных ценовой ряд был разложен на IMF (эмпирические моды).
По аналогии с речью:
• низкочастотная IMF играет роль “основной частоты” (аналог pitch / F0),
• более высокочастотные — аналог формант F1–F_k.
Данные валютных пар (USD/EUR/RUB) брались на длинном интервале (с начала XX века по настоящее время).
Наблюдения
При построении фазового пространства для каждой IMF
(координаты: градиент / длительность в днях) обнаруживается:
1. Динамика имеет ограниченный характер и концентрируется вокруг аттрактора.
2. Движение в фазовом пространстве носит выраженный вращательный характер.
3. Чем ниже частота IMF, тем более регулярна и менее хаотична орбита.
4. Ранговое пространство валютных пар оказывается компактным — число состояний невелико.
Последний пункт особенно интересен:
вероятно, что ограниченное число состояний (малый “словарь”) естественно приводит к более плавной динамике условных вероятностей. Это согласуется с ранговой теорией: чем меньше размер пространства состояний, тем более структурированная и регулярная динамика наблюдается.
Важно подчеркнуть: речь не идёт о долгосрочном предсказании цены.
Система остаётся чувствительной к малым возмущениям. Однако на локальных интервалах наблюдается направленная динамика внутри конкретной IMF.
То есть в теории, мы можем строить иерархию предсказывающих локальных трендов по каждой IMF.
Биткоин
Для BTC картина существенно отличается:
1. Ранговое пространство более выражено и менее компактно.
2. Исторический интервал короче.
3. Геометрия фазового пространства иная:
• высокочастотные IMF ближе к динамике речи,
• низкочастотная IMF формирует Х-образную структуру.
Это качественно отличается от динамики государственных валют.
Промежуточный вывод
Здесь сознательно не делаются интерпретационные выводы.
Цель была проверить: возникает ли совместное ранговое пространство для финансовых рядов?
Ответ: да, возникает — и его форма согласуется с предсказаниями ранговой теории.
Метод анализа градиентов показывает, что его применение не ограничивается речью. Он позволяет выявлять структурные особенности динамики в различных типах данных.
👍11
🔥 Трансформеры можно сделать в 5 раз эффективнее — без увеличения размера модели
Пока я шлифую статью про спайковые сети, удалось собрать архитектуру, которая ломает привычные ограничения LLM.
И это не “ещё один attention”.
Коротко:
• убираем глобальный attention
• вводим иерархию
• меняем геометрию пространства
И получаем совсем другую динамику обучения. 👇
🚀 1. Контекстное окно → практически бесконечное
В классических моделях:
• 8k–32k — нормально
• 100k — уже дорого
Здесь:
• каждый уровень учится функции
• 40 уровней ≈ более чем триллионное окно
👉 это не полный attention
👉 это эффективное поле зависимости
Без квадратичной сложности
Без взрыва памяти
⚡️ 2. Сходимость быстрее (*зависит от температуры)
Результат на одинаковых данных:
• классический transformer → ~10000 примеров
• новая архитектура → ~2000
👉 ×5 ускорение
Почему?
Верхние уровни больше не “видят мусор”.
🎯 3. Качество выше при тех же параметрах
Ключевая проблема LLM:
vocab → embedding → FFN
При этом:
• функция g(x) имеет точки излома
• они распределены НЕравномерно
А модель использует линейную шкалу.
👉 мы теряем информацию уже на входе
Вводим нелинейную геометрию:
→ логарифмическое преобразование
Результат:
• больше разрешения там, где есть структура
• меньше — где её нет
👉 модель перестаёт усреднять
👉 начинает видеть реальные зависимости
📊 Пример(loss)
Глобальный attention: 5.65 → 4.98 → 4.35
Новая архитектура: 4.30 → 2.98 → 1.90
Классический transformer:
“свяжем всё со всем и пусть модель разберётся”
Новый подход:
“построим структуру и уберём шум”
💥 Итог. 3 ключевых эффекта:
И это без:
- MoE
- увеличения параметров
- роста вычислений
- без голов
- без матрицы внимания
Если коротко:
👉 Похоже, что дело не в размере модели
👉 а в геометрии и структуре
PS: сейчас предстоит проверить это на обучении крупной LLM, на масштабировании.
Пока я шлифую статью про спайковые сети, удалось собрать архитектуру, которая ломает привычные ограничения LLM.
И это не “ещё один attention”.
Коротко:
• убираем глобальный attention
• вводим иерархию
• меняем геометрию пространства
И получаем совсем другую динамику обучения. 👇
🚀 1. Контекстное окно → практически бесконечное
В классических моделях:
• 8k–32k — нормально
• 100k — уже дорого
Здесь:
• каждый уровень учится функции
• 40 уровней ≈ более чем триллионное окно
👉 это не полный attention
👉 это эффективное поле зависимости
Без квадратичной сложности
Без взрыва памяти
⚡️ 2. Сходимость быстрее (*зависит от температуры)
Результат на одинаковых данных:
• классический transformer → ~10000 примеров
• новая архитектура → ~2000
👉 ×5 ускорение
Почему?
❌ глобальный attention = все со всеми → шум
✅ иерархия = фильтрация по уровням
Верхние уровни больше не “видят мусор”.
🎯 3. Качество выше при тех же параметрах
Ключевая проблема LLM:
vocab → embedding → FFN
При этом:
• функция g(x) имеет точки излома
• они распределены НЕравномерно
А модель использует линейную шкалу.
👉 мы теряем информацию уже на входе
Вводим нелинейную геометрию:
→ логарифмическое преобразование
Результат:
• больше разрешения там, где есть структура
• меньше — где её нет
👉 модель перестаёт усреднять
👉 начинает видеть реальные зависимости
📊 Пример(loss)
Глобальный attention: 5.65 → 4.98 → 4.35
Новая архитектура: 4.30 → 2.98 → 1.90
Классический transformer:
“свяжем всё со всем и пусть модель разберётся”
Новый подход:
“построим структуру и уберём шум”
💥 Итог. 3 ключевых эффекта:
📈 Контекст → до триллионов токенов (*для современных видеокарт)
⚡️ Обучение → быстрее
🎯 Качество → выше без увеличения модели
И это без:
- MoE
- увеличения параметров
- роста вычислений
- без голов
- без матрицы внимания
Если коротко:
👉 Похоже, что дело не в размере модели
👉 а в геометрии и структуре
PS: сейчас предстоит проверить это на обучении крупной LLM, на масштабировании.
🔥12🤔2