Greenruff
889 subscribers
2.21K photos
142 videos
65 files
59 links
Исследования: динамические системы, ранговая теория, нейронные сети.

Практика: разработка AR-очков и wearable устройств.

От теории и алгоритмов — к физическим устройствам.
Все вопросы: https://t.me/proxy3d
Download Telegram
Ошибка предсказания — не ошибка.
Симметрия — не шум.
И мы десятилетиями интерпретировали это неправильно.

И если вам кажется, что это игра слов — нет.
Это строгий вывод из математики.

То, что десятилетиями называли ошибкой,
на самом деле — контекст выбора.

Симметрия возникает не из-за плохих данных.
Она появляется тогда, когда система больше не может различить альтернативы.

И именно поэтому симметрия:
— удерживает систему от распада,
— поглощает неопределённость,
— делает пространство устойчивым.

Но есть и вторая сторона.

Только в симметрии:
— накапливается скрытая информация,
— появляется выбор,
— и становится возможным развитие.

Симметрия — не дефект.
Симметрия — единственное место, где может родиться новое.


Асимметрия создаёт иерархию.
Симметрия делает её устойчивой.

Ключевой вывод:
Predictive Coding ничего не “исправляет”.
Он не минимизирует ошибку.

Он вводит контекст, который разрушает симметрию и заставляет систему выбрать один из альтернативных маршрутов.

Развитие происходит не через “исправление ошибки”, а через конкуренцию альтернатив в условиях статистической неразличимости.

Это меняет то, как мы понимаем обучение, мышление и развитие систем.
В статье показано:
— почему симметрия — фундаментальное свойство данных, а не шум;
— почему «критическое мышление» — это конкуренция маршрутов;
— где и почему ломается Free Energy Principle;
— почему новая структура всегда рождается из симметрии;
— и почему этот же принцип работает от нейросетей до квантовой физики.

Ошибка — это способ не думать.
Симметрия — причина, по которой системы вынуждены думать
.


📖 Симметрия в ранговой теории (3 части)
(рекомендую включить VPN для корректной загрузки изображений)

Часть 1
https://telegra.ph/Simmetriya-v-rangovoj-teorii-12-18
Часть 2
https://telegra.ph/Simmetriya-v-rangovoj-teorii-chast-2-12-21
Часть 3
https://telegra.ph/Simmetriya-v-rangovoj-teorii-chast-3-12-24

📐 Теоремы о симметрии (LaTeX) и текст статьи (txt) — можно скормить LLM (доказательство теорем опирается на ранее опубликованные теоремы):
https://disk.yandex.ru/d/_bSYGDfmcMvHFw
🔥4👏4👎1💯1
🍎 Почему LLM «галлюцинируют» — и при чём тут яблоки на рынке

Представьте диалог с моделью.

Вы говорите:
«Я выбираю яблоки на рынке. Мне важно, чтобы они были красные и спелые».

Модель отвечает:
Красивые яблоки всегда радуют глаз…

И вот диалог уже съехал. Вместо выбора спелых яблок — разговор о красоте, эстетике и чём-то совсем другом.

Почему так происходит, если слово «красивые» вполне вероятное продолжение?

В чём корень проблемы

Современные LLM чаще всего выбирают следующий токен по принципу top-k / top-p:
берём самые вероятные варианты — и случайно выбираем один из них.

Проблема в том, что:

• высокая вероятность отдельного слова
не гарантирует, что оно совместимо с общим смыслом цепочки.

Текст — это не просто поток слов.
Это цепочки зависимостей, где каждый следующий шаг либо сохраняет контекст, либо медленно его разрушает.

Как рождаются галлюцинации

Галлюцинация — это не один ошибочный токен.
Это накопление маленьких отклонений:

• каждый шаг кажется допустимым,
• но постепенно диалог уходит в сторону,
• и в какой-то момент модель уже «говорит сама с собой».

Именно так:

• разговор про спелые яблоки
превращается в разговор про красоту вообще.

Что меняет подход с цепями Маркова

Если учитывать не только вероятность следующего слова,
а вероятность всей смысловой цепочки, происходит важная вещь:

• модель не может выбрать продолжение, которое ломает контекст;
• шум не попадает в начало или середину слова;
• ошибки, если и появляются, остаются на концах — там, где просто не хватило данных для обучения.

На практике это означает:

• меньше «обгваласько» и «беззвольте»,
• меньше смысловых срывов,
• и гораздо более устойчивый диалог.

Ключевая мысль

🧠 Одна из причин галлюцинации в LLM — это следствие неправильного выбора допустимых продолжений, а не “глупости” модели.


Top-k / top-p выбирают вероятное.
Но не проверяют, разрушает ли этот выбор весь смысловой путь.

Если же отсекать такие варианты заранее —
контекст сохраняется, а шум перестаёт разрастаться.

📌 Иногда, чтобы модель перестала фантазировать,
нужно не больше данных — а чуть более строгие правила выбора следующего шага.

Если тема интересна — то более детальный разбор с реальными графиками, примерами и исходным кодом можно посмотреть в статье:

Галлюцинации LLM. Замена top-p/top-k на порог цепи Маркова.
(Для корректного отображения нужно включить VPN)
Часть 1:
https://telegra.ph/Gallyucinacii-LLM-Zamena-top-ptop-k-na-porog-cepi-Markova-01-15

Часть 2:
https://telegra.ph/Gallyucinacii-LLM-Zamena-top-ptop-k-na-porog-cepi-Markova-CHast-2-01-16

📐 Код для классической LLM и текст статьи (txt) — можно скормить LLM:
https://disk.yandex.ru/d/CcNjdVq030xD0g
🔥5👍2👏1
🧠✈️ MarkovSpike: почему одни нейросети летают, а другие просто похожи на самолёт

В этом посте результат обучения спайковой модели построенной на основе ранговой теории.
Больше всего в полученных результатах меня радует не огромный скачек в развитии нейронных сетей, не улучшенный loss, обучение, динамика... Нет, я не обесцениваю, этот результат важен. Но лично для меня важнее то, что спайковая модель была построена исключительно на теоремах и формулах ранговой теории, тем самым ещё раз доказав ее предсказательную силу и правильность.

Потребовалось много времени, чтобы правильно интерпретировать теоремы на архитектуру. Все это время они были перед глазами. А их интерпретацию я описывал ещё до теорем. Подобное можно наблюдать в комментариях в посте теорем о симметрии, теоремы и формулы есть, а идеальной интерпретации в модель ещё до конца нет. Чтобы пазл в голове сложился, нужно время. Но есть огромное преимущество - это ранговая теория, как инструмент для правильной реализации.

За последние годы появилось огромное количество спайковых нейронных сетей.
Они выглядят «биологично», у них есть спайки, мембранные потенциалы, пороги, LIF-нейроны.

Но есть проблема: они почти не обучаются.

Ранговая теория объясняет нам, что нейрон описывает ранговую область (ранговое и марковское пространство), а спайки это разрыв цепи Маркова.

1️⃣ Что такое MarkovSpike с точки зрения ранговой теории

MarkovSpike — это спайковая модель, полностью выведенная из ранговой теории. Цепь Маркова в пространстве лог-вероятностей накапливает информационное состояние до достижения порога, а предсказание считывается в момент остановки.
Здесь каждый нейрон имеет своё скрытое ранговое пространство.

В этой модели:
• состояние нейрона — это марковский процесс
• спайк — не «жёсткий порог», а бифуркация состояния
• активация — результат накопления рангового функционала
• обучение — локальное правило, следующее напрямую из теории

Спайки здесь — следствие динамики, а не ручная эвристика.
Мы оптимизируем не MSE напрямую, а KL-отклонение от хаоса (через ранговое пространство)

2️⃣ Сравнение с Linear / FFN

На простой задаче регрессии:
• одинаковая размерность
• одинаковые данные
• одинаковая сложность

📉 MarkovSpike сходится быстрее, чем Linear и FFN/MLP
📉 Loss убывает монотонно, без шумовых колебаний
📉 Нет нестабильности, нет «дрожания» обучения

Это важно: модель со спайками обучается лучше, чем классическая непрерывная сеть.

3️⃣ Сравнение с классическими SNN

Я сравнил MarkovSpike с:
• SNN со спайковой нелинейностью
• Time-based SNN (LIF, мембрана, surrogate-gradient, BPTT)

Результат однозначный:
• огромный разброс Loss
• отсутствие сходимости
• нестабильные спайки
• обучение «на удачу»

📊 Даже близко нет сопоставимого результата.

И это не проблема реализации.
Это фундаментальная проблема архитектуры.

4️⃣ Почему классические SNN не работают

Потому что они устроены как самолёт из веток.

Представьте, аборигены увидели самолёт в небе и собрали объект из веток, похожий на самолёт. Толкают его и ждут, что он взлетит


То же самое с SNN:
• они копируют внешний вид нейрона
• но не имеют теории, из которой это следует
• surrogate-градиенты — это верёвки, которыми толкают самолёт

5️⃣ В чём принципиальное преимущество MarkovSpike

• Построен на доказанной теории
• Работают быстрее при обучении, чем метод обратного распространения ошибки (нейрон обучается только в момент спайка)
• Меньше расход памяти, чем у FFN
• Не требует surrogate-градиентов
• Не использует BPTT
• Обучение локальное и стабильное
• Спайки — естественный результат динамики
• Низкий variance Loss
• Масштабируемость
• Хорошо ложится на GPU

Это реализация математической модели.

6️⃣ Что это значит для развития нейросетей

Нельзя построить работающую модель, копируя внешний вид системы, не понимая её теории.

Будущее нейросетей — не в:
• «ещё более биологических» нейронах
• усложнённых LIF
• новых surrogate-функциях

А в:
• фундаментальных теориях
• строгих моделях
• архитектурах, которые следуют из математики

Самолёт летает не потому, что похож на птицу.
А потому что опирается на науку.
👍8🔥3👏2
Пока готовлю статью о спайковых нейронах в рамках ранговой теории, делюсь предварительными результатами.

Использована более сложная архитектура, аналогичная SSM или Transformer (без глобального механизма внимания). На данном этапе механизм связи между блоками не реализован — задача была проверить стабильность модели.

Модель показала стабильность при разных шагах обучения: она самостоятельно подстраивает их через специальные внутренние механизмы («рецепторы») в разных размерностях и при изменении других параметров, включая температуру β — параметр чувствительности системы, аналогичный нейромодуляции серотонина.

Модель также проверялась на длительном обучении. В отличие от классических моделей, спайковая система стремится не просто минимизировать Loss (это следствие), а поддерживать баланс между сложностью системы, ограничениями и обобщающей способностью.
Увеличение сложности не обязательно снижает классическую ошибку: главная цель — стабильность динамики. Это реализуется через множество марковских одеял, внутри которых активность поддерживается динамическими цепями Маркова.

Особенность модели: мы работаем не с привычным сигналом, а со спайками. Спайки формируют короткие марковские последовательности после разрыва (бифуркации). В результате система полностью динамическая: на выходе может быть 10 спайков, 1 спайк или ни одного — все выходы формируют корректные марковские последовательности.

Каждый нейрон:
• аппроксимирует собственную цепь Маркова;
• является марковским одеялом (ранговой областью), состоящим из рангового и марковского пространств.

В статье будет представлена полная математика нейрона, выведенная из ранговой теории и теорем. Удивительно, насколько точно теория предсказывает построение: малейшая ошибка в формуле или пропущенная деталь нарушает работу системы.

Также в статье будут описаны градиенты речи. Ранее мы показали, что фазовое пространство речи различных животных оказывается одинаковым по форме. В этой части мы разберем, как теория предсказывает форму фазового пространства и покажем, как аппроксимировать его на простом примере. Это важно для объяснения того, почему теоремы можно применять к нейрону, не углубляясь в химические и биологические процессы.

https://t.me/greenruff/2025

Сейчас я работаю над переносом марковской спайковой модели на LLM. Надеюсь, это позволит построить полноценную иерархию связей, как её описывает теория.
🔥6🤔2👏1
Channel name was changed to «Greenruff»
Пока готовится статья по спайковым нейронам, решил поделиться промежуточным наблюдением.

В основной работе будет показано, как из эмпирических данных (на примере речи) можно получить ранговое пространство состояний и синтетически его аппроксимировать. Этот шаг необходим для демонстрации переноса ранговой теории на динамику нейрона.

Исходя из этого, я решил проверить:
возникает ли аналогичное ранговое пространство при анализе финансовых временных рядов?

В качестве метода использовался анализ градиентов пиков колебаний.
В исследовании речи градиенты отражают динамику и “затраты” артикуляторов.
https://t.me/greenruff/2035
https://t.me/greenruff/2008
https://t.me/greenruff/2013
https://t.me/greenruff/2021

Для финансовых данных ценовой ряд был разложен на IMF (эмпирические моды).
По аналогии с речью:
• низкочастотная IMF играет роль “основной частоты” (аналог pitch / F0),
• более высокочастотные — аналог формант F1–F_k.

Данные валютных пар (USD/EUR/RUB) брались на длинном интервале (с начала XX века по настоящее время).

Наблюдения

При построении фазового пространства для каждой IMF
(координаты: градиент / длительность в днях) обнаруживается:

1. Динамика имеет ограниченный характер и концентрируется вокруг аттрактора.
2. Движение в фазовом пространстве носит выраженный вращательный характер.
3. Чем ниже частота IMF, тем более регулярна и менее хаотична орбита.
4. Ранговое пространство валютных пар оказывается компактным — число состояний невелико.

Последний пункт особенно интересен:
вероятно, что ограниченное число состояний (малый “словарь”) естественно приводит к более плавной динамике условных вероятностей. Это согласуется с ранговой теорией: чем меньше размер пространства состояний, тем более структурированная и регулярная динамика наблюдается.


Важно подчеркнуть: речь не идёт о долгосрочном предсказании цены.
Система остаётся чувствительной к малым возмущениям. Однако на локальных интервалах наблюдается направленная динамика внутри конкретной IMF.
То есть в теории, мы можем строить иерархию предсказывающих локальных трендов по каждой IMF.

Биткоин

Для BTC картина существенно отличается:

1. Ранговое пространство более выражено и менее компактно.
2. Исторический интервал короче.
3. Геометрия фазового пространства иная:

• высокочастотные IMF ближе к динамике речи,
• низкочастотная IMF формирует Х-образную структуру.

Это качественно отличается от динамики государственных валют.

Промежуточный вывод

Здесь сознательно не делаются интерпретационные выводы.
Цель была проверить: возникает ли совместное ранговое пространство для финансовых рядов?

Ответ: да, возникает — и его форма согласуется с предсказаниями ранговой теории.


Метод анализа градиентов показывает, что его применение не ограничивается речью. Он позволяет выявлять структурные особенности динамики в различных типах данных.
👍11