Пока готовлю статью о спайковых нейронах в рамках ранговой теории, делюсь предварительными результатами.
Использована более сложная архитектура, аналогичная SSM или Transformer (без глобального механизма внимания). На данном этапе механизм связи между блоками не реализован — задача была проверить стабильность модели.
Модель показала стабильность при разных шагах обучения: она самостоятельно подстраивает их через специальные внутренние механизмы («рецепторы») в разных размерностях и при изменении других параметров, включая температуру β — параметр чувствительности системы, аналогичный нейромодуляции серотонина.
Модель также проверялась на длительном обучении. В отличие от классических моделей, спайковая система стремится не просто минимизировать Loss (это следствие), а поддерживать баланс между сложностью системы, ограничениями и обобщающей способностью.
Увеличение сложности не обязательно снижает классическую ошибку: главная цель — стабильность динамики. Это реализуется через множество марковских одеял, внутри которых активность поддерживается динамическими цепями Маркова.
Особенность модели: мы работаем не с привычным сигналом, а со спайками. Спайки формируют короткие марковские последовательности после разрыва (бифуркации). В результате система полностью динамическая: на выходе может быть 10 спайков, 1 спайк или ни одного — все выходы формируют корректные марковские последовательности.
Каждый нейрон:
• аппроксимирует собственную цепь Маркова;
• является марковским одеялом (ранговой областью), состоящим из рангового и марковского пространств.
Также в статье будут описаны градиенты речи. Ранее мы показали, что фазовое пространство речи различных животных оказывается одинаковым по форме. В этой части мы разберем, как теория предсказывает форму фазового пространства и покажем, как аппроксимировать его на простом примере. Это важно для объяснения того, почему теоремы можно применять к нейрону, не углубляясь в химические и биологические процессы.
https://t.me/greenruff/2025
Сейчас я работаю над переносом марковской спайковой модели на LLM. Надеюсь, это позволит построить полноценную иерархию связей, как её описывает теория.
Использована более сложная архитектура, аналогичная SSM или Transformer (без глобального механизма внимания). На данном этапе механизм связи между блоками не реализован — задача была проверить стабильность модели.
Модель показала стабильность при разных шагах обучения: она самостоятельно подстраивает их через специальные внутренние механизмы («рецепторы») в разных размерностях и при изменении других параметров, включая температуру β — параметр чувствительности системы, аналогичный нейромодуляции серотонина.
Модель также проверялась на длительном обучении. В отличие от классических моделей, спайковая система стремится не просто минимизировать Loss (это следствие), а поддерживать баланс между сложностью системы, ограничениями и обобщающей способностью.
Увеличение сложности не обязательно снижает классическую ошибку: главная цель — стабильность динамики. Это реализуется через множество марковских одеял, внутри которых активность поддерживается динамическими цепями Маркова.
Особенность модели: мы работаем не с привычным сигналом, а со спайками. Спайки формируют короткие марковские последовательности после разрыва (бифуркации). В результате система полностью динамическая: на выходе может быть 10 спайков, 1 спайк или ни одного — все выходы формируют корректные марковские последовательности.
Каждый нейрон:
• аппроксимирует собственную цепь Маркова;
• является марковским одеялом (ранговой областью), состоящим из рангового и марковского пространств.
В статье будет представлена полная математика нейрона, выведенная из ранговой теории и теорем. Удивительно, насколько точно теория предсказывает построение: малейшая ошибка в формуле или пропущенная деталь нарушает работу системы.
Также в статье будут описаны градиенты речи. Ранее мы показали, что фазовое пространство речи различных животных оказывается одинаковым по форме. В этой части мы разберем, как теория предсказывает форму фазового пространства и покажем, как аппроксимировать его на простом примере. Это важно для объяснения того, почему теоремы можно применять к нейрону, не углубляясь в химические и биологические процессы.
https://t.me/greenruff/2025
Сейчас я работаю над переносом марковской спайковой модели на LLM. Надеюсь, это позволит построить полноценную иерархию связей, как её описывает теория.
🔥6🤔2👏1
Пока готовится статья по спайковым нейронам, решил поделиться промежуточным наблюдением.
В основной работе будет показано, как из эмпирических данных (на примере речи) можно получить ранговое пространство состояний и синтетически его аппроксимировать. Этот шаг необходим для демонстрации переноса ранговой теории на динамику нейрона.
Исходя из этого, я решил проверить:
возникает ли аналогичное ранговое пространство при анализе финансовых временных рядов?
В качестве метода использовался анализ градиентов пиков колебаний.
В исследовании речи градиенты отражают динамику и “затраты” артикуляторов.
https://t.me/greenruff/2035
https://t.me/greenruff/2008
https://t.me/greenruff/2013
https://t.me/greenruff/2021
Для финансовых данных ценовой ряд был разложен на IMF (эмпирические моды).
По аналогии с речью:
• низкочастотная IMF играет роль “основной частоты” (аналог pitch / F0),
• более высокочастотные — аналог формант F1–F_k.
Данные валютных пар (USD/EUR/RUB) брались на длинном интервале (с начала XX века по настоящее время).
Наблюдения
При построении фазового пространства для каждой IMF
(координаты: градиент / длительность в днях) обнаруживается:
1. Динамика имеет ограниченный характер и концентрируется вокруг аттрактора.
2. Движение в фазовом пространстве носит выраженный вращательный характер.
3. Чем ниже частота IMF, тем более регулярна и менее хаотична орбита.
4. Ранговое пространство валютных пар оказывается компактным — число состояний невелико.
Последний пункт особенно интересен:
Важно подчеркнуть: речь не идёт о долгосрочном предсказании цены.
Система остаётся чувствительной к малым возмущениям. Однако на локальных интервалах наблюдается направленная динамика внутри конкретной IMF.
То есть в теории, мы можем строить иерархию предсказывающих локальных трендов по каждой IMF.
Биткоин
Для BTC картина существенно отличается:
1. Ранговое пространство более выражено и менее компактно.
2. Исторический интервал короче.
3. Геометрия фазового пространства иная:
• высокочастотные IMF ближе к динамике речи,
• низкочастотная IMF формирует Х-образную структуру.
Это качественно отличается от динамики государственных валют.
Промежуточный вывод
Здесь сознательно не делаются интерпретационные выводы.
Цель была проверить: возникает ли совместное ранговое пространство для финансовых рядов?
Метод анализа градиентов показывает, что его применение не ограничивается речью. Он позволяет выявлять структурные особенности динамики в различных типах данных.
В основной работе будет показано, как из эмпирических данных (на примере речи) можно получить ранговое пространство состояний и синтетически его аппроксимировать. Этот шаг необходим для демонстрации переноса ранговой теории на динамику нейрона.
Исходя из этого, я решил проверить:
возникает ли аналогичное ранговое пространство при анализе финансовых временных рядов?
В качестве метода использовался анализ градиентов пиков колебаний.
В исследовании речи градиенты отражают динамику и “затраты” артикуляторов.
https://t.me/greenruff/2035
https://t.me/greenruff/2008
https://t.me/greenruff/2013
https://t.me/greenruff/2021
Для финансовых данных ценовой ряд был разложен на IMF (эмпирические моды).
По аналогии с речью:
• низкочастотная IMF играет роль “основной частоты” (аналог pitch / F0),
• более высокочастотные — аналог формант F1–F_k.
Данные валютных пар (USD/EUR/RUB) брались на длинном интервале (с начала XX века по настоящее время).
Наблюдения
При построении фазового пространства для каждой IMF
(координаты: градиент / длительность в днях) обнаруживается:
1. Динамика имеет ограниченный характер и концентрируется вокруг аттрактора.
2. Движение в фазовом пространстве носит выраженный вращательный характер.
3. Чем ниже частота IMF, тем более регулярна и менее хаотична орбита.
4. Ранговое пространство валютных пар оказывается компактным — число состояний невелико.
Последний пункт особенно интересен:
вероятно, что ограниченное число состояний (малый “словарь”) естественно приводит к более плавной динамике условных вероятностей. Это согласуется с ранговой теорией: чем меньше размер пространства состояний, тем более структурированная и регулярная динамика наблюдается.
Важно подчеркнуть: речь не идёт о долгосрочном предсказании цены.
Система остаётся чувствительной к малым возмущениям. Однако на локальных интервалах наблюдается направленная динамика внутри конкретной IMF.
То есть в теории, мы можем строить иерархию предсказывающих локальных трендов по каждой IMF.
Биткоин
Для BTC картина существенно отличается:
1. Ранговое пространство более выражено и менее компактно.
2. Исторический интервал короче.
3. Геометрия фазового пространства иная:
• высокочастотные IMF ближе к динамике речи,
• низкочастотная IMF формирует Х-образную структуру.
Это качественно отличается от динамики государственных валют.
Промежуточный вывод
Здесь сознательно не делаются интерпретационные выводы.
Цель была проверить: возникает ли совместное ранговое пространство для финансовых рядов?
Ответ: да, возникает — и его форма согласуется с предсказаниями ранговой теории.
Метод анализа градиентов показывает, что его применение не ограничивается речью. Он позволяет выявлять структурные особенности динамики в различных типах данных.
👍11
🔥 Трансформеры можно сделать в 5 раз эффективнее — без увеличения размера модели
Пока я шлифую статью про спайковые сети, удалось собрать архитектуру, которая ломает привычные ограничения LLM.
И это не “ещё один attention”.
Коротко:
• убираем глобальный attention
• вводим иерархию
• меняем геометрию пространства
И получаем совсем другую динамику обучения. 👇
🚀 1. Контекстное окно → практически бесконечное
В классических моделях:
• 8k–32k — нормально
• 100k — уже дорого
Здесь:
• каждый уровень учится функции
• 40 уровней ≈ более чем триллионное окно
👉 это не полный attention
👉 это эффективное поле зависимости
Без квадратичной сложности
Без взрыва памяти
⚡️ 2. Сходимость быстрее (*зависит от температуры)
Результат на одинаковых данных:
• классический transformer → ~10000 примеров
• новая архитектура → ~2000
👉 ×5 ускорение
Почему?
Верхние уровни больше не “видят мусор”.
🎯 3. Качество выше при тех же параметрах
Ключевая проблема LLM:
vocab → embedding → FFN
При этом:
• функция g(x) имеет точки излома
• они распределены НЕравномерно
А модель использует линейную шкалу.
👉 мы теряем информацию уже на входе
Вводим нелинейную геометрию:
→ логарифмическое преобразование
Результат:
• больше разрешения там, где есть структура
• меньше — где её нет
👉 модель перестаёт усреднять
👉 начинает видеть реальные зависимости
📊 Пример(loss)
Глобальный attention: 5.65 → 4.98 → 4.35
Новая архитектура: 4.30 → 2.98 → 1.90
Классический transformer:
“свяжем всё со всем и пусть модель разберётся”
Новый подход:
“построим структуру и уберём шум”
💥 Итог. 3 ключевых эффекта:
И это без:
- MoE
- увеличения параметров
- роста вычислений
- без голов
- без матрицы внимания
Если коротко:
👉 Похоже, что дело не в размере модели
👉 а в геометрии и структуре
PS: сейчас предстоит проверить это на обучении крупной LLM, на масштабировании.
Пока я шлифую статью про спайковые сети, удалось собрать архитектуру, которая ломает привычные ограничения LLM.
И это не “ещё один attention”.
Коротко:
• убираем глобальный attention
• вводим иерархию
• меняем геометрию пространства
И получаем совсем другую динамику обучения. 👇
🚀 1. Контекстное окно → практически бесконечное
В классических моделях:
• 8k–32k — нормально
• 100k — уже дорого
Здесь:
• каждый уровень учится функции
• 40 уровней ≈ более чем триллионное окно
👉 это не полный attention
👉 это эффективное поле зависимости
Без квадратичной сложности
Без взрыва памяти
⚡️ 2. Сходимость быстрее (*зависит от температуры)
Результат на одинаковых данных:
• классический transformer → ~10000 примеров
• новая архитектура → ~2000
👉 ×5 ускорение
Почему?
❌ глобальный attention = все со всеми → шум
✅ иерархия = фильтрация по уровням
Верхние уровни больше не “видят мусор”.
🎯 3. Качество выше при тех же параметрах
Ключевая проблема LLM:
vocab → embedding → FFN
При этом:
• функция g(x) имеет точки излома
• они распределены НЕравномерно
А модель использует линейную шкалу.
👉 мы теряем информацию уже на входе
Вводим нелинейную геометрию:
→ логарифмическое преобразование
Результат:
• больше разрешения там, где есть структура
• меньше — где её нет
👉 модель перестаёт усреднять
👉 начинает видеть реальные зависимости
📊 Пример(loss)
Глобальный attention: 5.65 → 4.98 → 4.35
Новая архитектура: 4.30 → 2.98 → 1.90
Классический transformer:
“свяжем всё со всем и пусть модель разберётся”
Новый подход:
“построим структуру и уберём шум”
💥 Итог. 3 ключевых эффекта:
📈 Контекст → до триллионов токенов (*для современных видеокарт)
⚡️ Обучение → быстрее
🎯 Качество → выше без увеличения модели
И это без:
- MoE
- увеличения параметров
- роста вычислений
- без голов
- без матрицы внимания
Если коротко:
👉 Похоже, что дело не в размере модели
👉 а в геометрии и структуре
PS: сейчас предстоит проверить это на обучении крупной LLM, на масштабировании.
🔥12🤔2
В прошлом посте я написал, что удалось:
— уменьшить сложность внимания
— ускорить сходимость
— и улучшить качество
Но объяснение получилось сумбурным. Попробую объяснить проще.
📌 Ключевая идея
Классический механизм внимания решает задачу в лоб:
он сравнивает каждый токен с каждым
→ получаем квадратичную сложность (O(n^2))
Это похоже на то, как цивилизация майя тысячелетиями записывали положение каждой звезды вручную. Это огромные ресурсы, огромные таблицы, но без понимания закона
🧠 Что изменилось в науке
Потом появился Коперник → Кеплер → Ньютон
И вместо:
мы получили:
И больше не нужно хранить всё — можно вычислять
⚙️ То же самое происходит с attention
Классический attention:
Это буквально те же “таблицы майя”, только в матричном виде.
🔬 В чем тогда разница?
Я не считаю все попарные зависимости.
Я моделирую сам закон зависимости:
Вместо:
мы говорим:
И учим эту форму, а не все значения.
🔺 Почему это важно
Реальные данные имеют локальные максимумы зависимостей:
— ближайший контекст
— уровень фраз
— дальние зависимости
Классический attention:
→ не знает их форму
→ пытается их угадать
Моя модель:
→ задаёт правильную форму напрямую
→ и учит параметры
Именно это и даёт нам:
— сложность ≈ линейная
— быстрее сходимость
— лучше качество
— лучше масштабирование на длинные последовательности
📊 По сути
Мы сделали то же самое, что Кеплер сделал для астрономии:
перешли от:
хранения всех наблюдений
к:
параметрической модели закона
📚 Теория
Я планировал выложить теоремы позже, вместе со статьёй про спайковые нейроны.
Но без них сложно понять, почему это вообще работает.
Поэтому выкладываю часть уже сейчас:
https://disk.yandex.ru/d/HOBD_pfp_Tae3g
(скармливать LLM последовательно: step1 → step2 → step3....)
Там примерно половина всех доказанных теорем (что они доказывали и что доказали), но они уже покрывают:
— механизм внимания
— происхождение softmax
— роль голов
— и связь с теорией информации
Важно: это не “ещё одна архитектура”
Это попытка описать attention как оптимальное распределение, а не как эвристику через QK.
— уменьшить сложность внимания
— ускорить сходимость
— и улучшить качество
Но объяснение получилось сумбурным. Попробую объяснить проще.
📌 Ключевая идея
Классический механизм внимания решает задачу в лоб:
он сравнивает каждый токен с каждым
→ получаем квадратичную сложность (O(n^2))
Это похоже на то, как цивилизация майя тысячелетиями записывали положение каждой звезды вручную. Это огромные ресурсы, огромные таблицы, но без понимания закона
🧠 Что изменилось в науке
Потом появился Коперник → Кеплер → Ньютон
И вместо:
“давайте хранить все наблюдения”
мы получили:
“давайте опишем закон” движение планет → формула
И больше не нужно хранить всё — можно вычислять
⚙️ То же самое происходит с attention
Классический attention:
“сравни всё со всем и запомни результат”
Это буквально те же “таблицы майя”, только в матричном виде.
🔬 В чем тогда разница?
Я не считаю все попарные зависимости.
Я моделирую сам закон зависимости:
p(d) ~ sum ( exp( -λ · d) )
где (d) — расстояние между токенами
Вместо:
“сравнить каждую пару токенов”
мы говорим:
“зависимость убывает с расстоянием по определённой форме”
И учим эту форму, а не все значения.
🔺 Почему это важно
Реальные данные имеют локальные максимумы зависимостей:
— ближайший контекст
— уровень фраз
— дальние зависимости
Классический attention:
→ не знает их форму
→ пытается их угадать
Моя модель:
→ задаёт правильную форму напрямую
→ и учит параметры
Именно это и даёт нам:
— сложность ≈ линейная
— быстрее сходимость
— лучше качество
— лучше масштабирование на длинные последовательности
📊 По сути
Мы сделали то же самое, что Кеплер сделал для астрономии:
перешли от:
хранения всех наблюдений
к:
параметрической модели закона
📚 Теория
Я планировал выложить теоремы позже, вместе со статьёй про спайковые нейроны.
Но без них сложно понять, почему это вообще работает.
Поэтому выкладываю часть уже сейчас:
https://disk.yandex.ru/d/HOBD_pfp_Tae3g
(скармливать LLM последовательно: step1 → step2 → step3....)
Там примерно половина всех доказанных теорем (что они доказывали и что доказали), но они уже покрывают:
— механизм внимания
— происхождение softmax
— роль голов
— и связь с теорией информации
Важно: это не “ещё одна архитектура”
Это попытка описать attention как оптимальное распределение, а не как эвристику через QK.
🔥10👏6