Greenruff
890 subscribers
2.21K photos
142 videos
65 files
59 links
Исследования: динамические системы, ранговая теория, нейронные сети.

Практика: разработка AR-очков и wearable устройств.

От теории и алгоритмов — к физическим устройствам.
Все вопросы: https://t.me/proxy3d
Download Telegram
Пока готовлю статью о спайковых нейронах в рамках ранговой теории, делюсь предварительными результатами.

Использована более сложная архитектура, аналогичная SSM или Transformer (без глобального механизма внимания). На данном этапе механизм связи между блоками не реализован — задача была проверить стабильность модели.

Модель показала стабильность при разных шагах обучения: она самостоятельно подстраивает их через специальные внутренние механизмы («рецепторы») в разных размерностях и при изменении других параметров, включая температуру β — параметр чувствительности системы, аналогичный нейромодуляции серотонина.

Модель также проверялась на длительном обучении. В отличие от классических моделей, спайковая система стремится не просто минимизировать Loss (это следствие), а поддерживать баланс между сложностью системы, ограничениями и обобщающей способностью.
Увеличение сложности не обязательно снижает классическую ошибку: главная цель — стабильность динамики. Это реализуется через множество марковских одеял, внутри которых активность поддерживается динамическими цепями Маркова.

Особенность модели: мы работаем не с привычным сигналом, а со спайками. Спайки формируют короткие марковские последовательности после разрыва (бифуркации). В результате система полностью динамическая: на выходе может быть 10 спайков, 1 спайк или ни одного — все выходы формируют корректные марковские последовательности.

Каждый нейрон:
• аппроксимирует собственную цепь Маркова;
• является марковским одеялом (ранговой областью), состоящим из рангового и марковского пространств.

В статье будет представлена полная математика нейрона, выведенная из ранговой теории и теорем. Удивительно, насколько точно теория предсказывает построение: малейшая ошибка в формуле или пропущенная деталь нарушает работу системы.

Также в статье будут описаны градиенты речи. Ранее мы показали, что фазовое пространство речи различных животных оказывается одинаковым по форме. В этой части мы разберем, как теория предсказывает форму фазового пространства и покажем, как аппроксимировать его на простом примере. Это важно для объяснения того, почему теоремы можно применять к нейрону, не углубляясь в химические и биологические процессы.

https://t.me/greenruff/2025

Сейчас я работаю над переносом марковской спайковой модели на LLM. Надеюсь, это позволит построить полноценную иерархию связей, как её описывает теория.
🔥6🤔2👏1
Channel name was changed to «Greenruff»
Пока готовится статья по спайковым нейронам, решил поделиться промежуточным наблюдением.

В основной работе будет показано, как из эмпирических данных (на примере речи) можно получить ранговое пространство состояний и синтетически его аппроксимировать. Этот шаг необходим для демонстрации переноса ранговой теории на динамику нейрона.

Исходя из этого, я решил проверить:
возникает ли аналогичное ранговое пространство при анализе финансовых временных рядов?

В качестве метода использовался анализ градиентов пиков колебаний.
В исследовании речи градиенты отражают динамику и “затраты” артикуляторов.
https://t.me/greenruff/2035
https://t.me/greenruff/2008
https://t.me/greenruff/2013
https://t.me/greenruff/2021

Для финансовых данных ценовой ряд был разложен на IMF (эмпирические моды).
По аналогии с речью:
• низкочастотная IMF играет роль “основной частоты” (аналог pitch / F0),
• более высокочастотные — аналог формант F1–F_k.

Данные валютных пар (USD/EUR/RUB) брались на длинном интервале (с начала XX века по настоящее время).

Наблюдения

При построении фазового пространства для каждой IMF
(координаты: градиент / длительность в днях) обнаруживается:

1. Динамика имеет ограниченный характер и концентрируется вокруг аттрактора.
2. Движение в фазовом пространстве носит выраженный вращательный характер.
3. Чем ниже частота IMF, тем более регулярна и менее хаотична орбита.
4. Ранговое пространство валютных пар оказывается компактным — число состояний невелико.

Последний пункт особенно интересен:
вероятно, что ограниченное число состояний (малый “словарь”) естественно приводит к более плавной динамике условных вероятностей. Это согласуется с ранговой теорией: чем меньше размер пространства состояний, тем более структурированная и регулярная динамика наблюдается.


Важно подчеркнуть: речь не идёт о долгосрочном предсказании цены.
Система остаётся чувствительной к малым возмущениям. Однако на локальных интервалах наблюдается направленная динамика внутри конкретной IMF.
То есть в теории, мы можем строить иерархию предсказывающих локальных трендов по каждой IMF.

Биткоин

Для BTC картина существенно отличается:

1. Ранговое пространство более выражено и менее компактно.
2. Исторический интервал короче.
3. Геометрия фазового пространства иная:

• высокочастотные IMF ближе к динамике речи,
• низкочастотная IMF формирует Х-образную структуру.

Это качественно отличается от динамики государственных валют.

Промежуточный вывод

Здесь сознательно не делаются интерпретационные выводы.
Цель была проверить: возникает ли совместное ранговое пространство для финансовых рядов?

Ответ: да, возникает — и его форма согласуется с предсказаниями ранговой теории.


Метод анализа градиентов показывает, что его применение не ограничивается речью. Он позволяет выявлять структурные особенности динамики в различных типах данных.
👍11
🔥 Трансформеры можно сделать в 5 раз эффективнее — без увеличения размера модели

Пока я шлифую статью про спайковые сети, удалось собрать архитектуру, которая ломает привычные ограничения LLM.

И это не “ещё один attention”.

Коротко:
• убираем глобальный attention
• вводим иерархию
• меняем геометрию пространства

И получаем совсем другую динамику обучения. 👇

🚀 1. Контекстное окно → практически бесконечное

В классических моделях:
• 8k–32k — нормально
• 100k — уже дорого

Здесь:
• каждый уровень учится функции
• 40 уровней ≈ более чем триллионное окно

👉 это не полный attention
👉 это эффективное поле зависимости

Без квадратичной сложности
Без взрыва памяти

⚡️ 2. Сходимость быстрее (*зависит от температуры)

Результат на одинаковых данных:
• классический transformer → ~10000 примеров
• новая архитектура → ~2000

👉 ×5 ускорение

Почему?
глобальный attention = все со всеми → шум
иерархия = фильтрация по уровням

Верхние уровни больше не “видят мусор”.

🎯 3. Качество выше при тех же параметрах

Ключевая проблема LLM:
vocab → embedding → FFN

При этом:
• функция g(x) имеет точки излома
• они распределены НЕравномерно
А модель использует линейную шкалу.

👉 мы теряем информацию уже на входе

Вводим нелинейную геометрию:
→ логарифмическое преобразование

Результат:
• больше разрешения там, где есть структура
• меньше — где её нет

👉 модель перестаёт усреднять
👉 начинает видеть реальные зависимости


📊 Пример(loss)

Глобальный attention: 5.65 → 4.98 → 4.35
Новая архитектура: 4.30 → 2.98 → 1.90

Классический transformer:
“свяжем всё со всем и пусть модель разберётся”

Новый подход:
“построим структуру и уберём шум”

💥 Итог. 3 ключевых эффекта:
📈 Контекст → до триллионов токенов (*для современных видеокарт)

⚡️ Обучение → быстрее

🎯 Качество → выше без увеличения модели

И это без:
- MoE
- увеличения параметров
- роста вычислений
- без голов
- без матрицы внимания

Если коротко:
👉 Похоже, что дело не в размере модели
👉 а в геометрии и структуре

PS: сейчас предстоит проверить это на обучении крупной LLM, на масштабировании.
🔥12🤔2
В прошлом посте я написал, что удалось:
— уменьшить сложность внимания
— ускорить сходимость
— и улучшить качество

Но объяснение получилось сумбурным. Попробую объяснить проще.

📌 Ключевая идея

Классический механизм внимания решает задачу в лоб:

он сравнивает каждый токен с каждым
→ получаем квадратичную сложность (O(n^2))

Это похоже на то, как цивилизация майя тысячелетиями записывали положение каждой звезды вручную. Это огромные ресурсы, огромные таблицы, но без понимания закона

🧠 Что изменилось в науке

Потом появился Коперник → Кеплер → Ньютон

И вместо:

“давайте хранить все наблюдения”


мы получили:

“давайте опишем закон” движение планет → формула

И больше не нужно хранить всё — можно вычислять


⚙️ То же самое происходит с attention

Классический attention:

“сравни всё со всем и запомни результат”


Это буквально те же “таблицы майя”, только в матричном виде.

🔬 В чем тогда разница?

Я не считаю все попарные зависимости.

Я моделирую сам закон зависимости:

p(d) ~ sum ( exp( -λ · d) )
где (d) — расстояние между токенами


Вместо:

“сравнить каждую пару токенов”


мы говорим:

“зависимость убывает с расстоянием по определённой форме”


И учим эту форму, а не все значения.

🔺 Почему это важно

Реальные данные имеют локальные максимумы зависимостей:

— ближайший контекст
— уровень фраз
— дальние зависимости

Классический attention:
→ не знает их форму
→ пытается их угадать

Моя модель:
задаёт правильную форму напрямую
→ и учит параметры

Именно это и даёт нам:
— сложность ≈ линейная
— быстрее сходимость
— лучше качество
— лучше масштабирование на длинные последовательности


📊 По сути

Мы сделали то же самое, что Кеплер сделал для астрономии:

перешли от:
хранения всех наблюдений

к:
параметрической модели закона


📚 Теория

Я планировал выложить теоремы позже, вместе со статьёй про спайковые нейроны.

Но без них сложно понять, почему это вообще работает.

Поэтому выкладываю часть уже сейчас:

https://disk.yandex.ru/d/HOBD_pfp_Tae3g

(скармливать LLM последовательно: step1 → step2 → step3....)

Там примерно половина всех доказанных теорем (что они доказывали и что доказали), но они уже покрывают:

— механизм внимания
— происхождение softmax
— роль голов
— и связь с теорией информации

Важно: это не “ещё одна архитектура”

Это попытка описать attention как оптимальное распределение, а не как эвристику через QK.
🔥10👏6