Greenruff

🔬Практическая проверка теорем: тест предсказательной силы ранговой теории

Итак, на текущем этапе давайте добавим некоторые элементы ранговой теории в код LLM, в строгом соответствии формальным теоремам.

Цель простая, проверить: совпадает ли фактическое поведение модели с тем, что предсказывают теоремы?

Некоторые ошибочно думают, что это просто теория в вакууме. В реальности, все от токенизатора до каких-то изменений, построено строго на доказанных теоремах, а до этого проверено на статистических данных.
Даже этот тест - прежде всего проверка предсказаний теорем.

При этом одно распространённое заблуждение стоит сразу убрать:

Ранговая теория — не про сортировку и индексы.
Упорядочивание 1, 2, 3… — это вспомогательное обозначение вероятностей, чтобы работать с ранговой структурой Марковских цепей.
Сама теория не зависит от этих чисел.

Вот что реализовано в текущем тесте. Условие те же, 1000 примеров обучения.

1) Все блоки трансформера теперь участвуют в формировании выхода

Отказ от классической схемы «выход = последний блок».

Теперь каждый блок даёт собственный вклад в ранговую структуру.
Это напрямую следует из теорем о многоуровневой ранговой модуляции: распределение должно формироваться иерархически, на всех уровнях, а не только на верхнем.

Что проверяем:
совпадает ли фактическая иерархия выходов с предсказаниями теорем.

2) Введено ε-отсечение логитов — временный компромисс для фильтрации шума

Важно подчеркнуть:
ε — это не часть теории.
Это временный аналог бифуркационного порога, пока мы собираем статистику для точного вычисления.

Поэтому используем ε-отсечение, чтобы:
• отсекать явно шумовые ранги,
• предотвращать случайные “переходы за бифуркацию”.

Галлюцинации часто возникают, когда модель случайно выбирает токен, лежащий за пределами бифуркационного порога, где начинается шум.

Например:
“Столица Франции” → случайно выбранная “Москва” вместо “Париж”.

Argmax это исправляет, но убивает разнообразие.
А top_k/top_p не различают вероятный токен и шумовой — и часто усиливают проблему.

3) Длина текста теперь определяется структурно, а не ручными параметрами

Убираем управление длиной через temperature/top-p.

Теперь:
• β задаёт только начальный уровень «температуры»,
• дальше β адаптируется автоматически,
• длина текста определяется структурной сложностью входа (глубина, иерархия).

То есть:
• сложный текст генерирует длинное продолжение,
• простой текст — короткое.

Это точная проверка теорем об адаптивной температуре и постоянстве оптимальной температуры.

Мы смотрим, совпадает ли наблюдаемое поведение с тем, что должно происходить согласно теоретической модели.

Что ещё предстоит сделать:
• заменить ε-отсечение на точное бифуркационное (требует статистики)
• инициализация embeddings по собранной статистике до обучения
• проверка возможности реализации симметрии внутри трансформера (под вопросом).

После этого можно будет переходить на другие архитектуры:
трансформеры — это не идеальный объект для реализации теории, но они дают отличный полигон для проверки предсказаний теорем.

👍1🔥1

806 views12:15

Greenruff

Ошибка предсказания — не ошибка.
Симметрия — не шум.
И мы десятилетиями интерпретировали это неправильно.

И если вам кажется, что это игра слов — нет.
Это строгий вывод из математики.

То, что десятилетиями называли ошибкой,
на самом деле — контекст выбора.

Симметрия возникает не из-за плохих данных.
Она появляется тогда, когда система больше не может различить альтернативы.

И именно поэтому симметрия:
— удерживает систему от распада,
— поглощает неопределённость,
— делает пространство устойчивым.

Но есть и вторая сторона.

Только в симметрии:
— накапливается скрытая информация,
— появляется выбор,
— и становится возможным развитие.

Симметрия — не дефект.
Симметрия — единственное место, где может родиться новое.

Асимметрия создаёт иерархию.
Симметрия делает её устойчивой.

Ключевой вывод:
Predictive Coding ничего не “исправляет”.
Он не минимизирует ошибку.

Он вводит контекст, который разрушает симметрию и заставляет систему выбрать один из альтернативных маршрутов.

Развитие происходит не через “исправление ошибки”, а через конкуренцию альтернатив в условиях статистической неразличимости.

Это меняет то, как мы понимаем обучение, мышление и развитие систем.
В статье показано:
— почему симметрия — фундаментальное свойство данных, а не шум;
— почему «критическое мышление» — это конкуренция маршрутов;
— где и почему ломается Free Energy Principle;
— почему новая структура всегда рождается из симметрии;
— и почему этот же принцип работает от нейросетей до квантовой физики.

Ошибка — это способ не думать.
Симметрия — причина, по которой системы вынуждены думать.

📖 Симметрия в ранговой теории (3 части)
(рекомендую включить VPN для корректной загрузки изображений)
Часть 1
https://telegra.ph/Simmetriya-v-rangovoj-teorii-12-18
Часть 2
https://telegra.ph/Simmetriya-v-rangovoj-teorii-chast-2-12-21
Часть 3
https://telegra.ph/Simmetriya-v-rangovoj-teorii-chast-3-12-24

📐 Теоремы о симметрии (LaTeX) и текст статьи (txt) — можно скормить LLM (доказательство теорем опирается на ранее опубликованные теоремы):
https://disk.yandex.ru/d/_bSYGDfmcMvHFw

🔥4👏4👎1💯1

725 views11:57

Greenruff

🍎 Почему LLM «галлюцинируют» — и при чём тут яблоки на рынке

Представьте диалог с моделью.

Вы говорите:
«Я выбираю яблоки на рынке. Мне важно, чтобы они были красные и спелые».

Модель отвечает:
— Красивые яблоки всегда радуют глаз…

И вот диалог уже съехал. Вместо выбора спелых яблок — разговор о красоте, эстетике и чём-то совсем другом.

❓ Почему так происходит, если слово «красивые» вполне вероятное продолжение?

В чём корень проблемы

Современные LLM чаще всего выбирают следующий токен по принципу top-k / top-p:
берём самые вероятные варианты — и случайно выбираем один из них.

Проблема в том, что:

• высокая вероятность отдельного слова
• не гарантирует, что оно совместимо с общим смыслом цепочки.

Текст — это не просто поток слов.
Это цепочки зависимостей, где каждый следующий шаг либо сохраняет контекст, либо медленно его разрушает.

Как рождаются галлюцинации

Галлюцинация — это не один ошибочный токен.
Это накопление маленьких отклонений:

• каждый шаг кажется допустимым,
• но постепенно диалог уходит в сторону,
• и в какой-то момент модель уже «говорит сама с собой».

Именно так:

• разговор про спелые яблоки
превращается в разговор про красоту вообще.

Что меняет подход с цепями Маркова

Если учитывать не только вероятность следующего слова,
а вероятность всей смысловой цепочки, происходит важная вещь:

• модель не может выбрать продолжение, которое ломает контекст;
• шум не попадает в начало или середину слова;
• ошибки, если и появляются, остаются на концах — там, где просто не хватило данных для обучения.

На практике это означает:

• меньше «обгваласько» и «беззвольте»,
• меньше смысловых срывов,
• и гораздо более устойчивый диалог.

Ключевая мысль

🧠 Одна из причин галлюцинации в LLM — это следствие неправильного выбора допустимых продолжений, а не “глупости” модели.

Top-k / top-p выбирают вероятное.
Но не проверяют, разрушает ли этот выбор весь смысловой путь.

Если же отсекать такие варианты заранее —
контекст сохраняется, а шум перестаёт разрастаться.

📌 Иногда, чтобы модель перестала фантазировать,
нужно не больше данных — а чуть более строгие правила выбора следующего шага.

Если тема интересна — то более детальный разбор с реальными графиками, примерами и исходным кодом можно посмотреть в статье:

Галлюцинации LLM. Замена top-p/top-k на порог цепи Маркова. (Для корректного отображения нужно включить VPN)
Часть 1:
https://telegra.ph/Gallyucinacii-LLM-Zamena-top-ptop-k-na-porog-cepi-Markova-01-15

Часть 2:
https://telegra.ph/Gallyucinacii-LLM-Zamena-top-ptop-k-na-porog-cepi-Markova-CHast-2-01-16

📐 Код для классической LLM и текст статьи (txt) — можно скормить LLM:
https://disk.yandex.ru/d/CcNjdVq030xD0g

🔥5👍2👏1

740 viewsedited 13:29

Greenruff

🧠✈️ MarkovSpike: почему одни нейросети летают, а другие просто похожи на самолёт

В этом посте результат обучения спайковой модели построенной на основе ранговой теории.
Больше всего в полученных результатах меня радует не огромный скачек в развитии нейронных сетей, не улучшенный loss, обучение, динамика... Нет, я не обесцениваю, этот результат важен. Но лично для меня важнее то, что спайковая модель была построена исключительно на теоремах и формулах ранговой теории, тем самым ещё раз доказав ее предсказательную силу и правильность.

Потребовалось много времени, чтобы правильно интерпретировать теоремы на архитектуру. Все это время они были перед глазами. А их интерпретацию я описывал ещё до теорем. Подобное можно наблюдать в комментариях в посте теорем о симметрии, теоремы и формулы есть, а идеальной интерпретации в модель ещё до конца нет. Чтобы пазл в голове сложился, нужно время. Но есть огромное преимущество - это ранговая теория, как инструмент для правильной реализации.

За последние годы появилось огромное количество спайковых нейронных сетей.
Они выглядят «биологично», у них есть спайки, мембранные потенциалы, пороги, LIF-нейроны.

Но есть проблема: они почти не обучаются.

Ранговая теория объясняет нам, что нейрон описывает ранговую область (ранговое и марковское пространство), а спайки это разрыв цепи Маркова.

1️⃣ Что такое MarkovSpike с точки зрения ранговой теории

MarkovSpike — это спайковая модель, полностью выведенная из ранговой теории. Цепь Маркова в пространстве лог-вероятностей накапливает информационное состояние до достижения порога, а предсказание считывается в момент остановки.
Здесь каждый нейрон имеет своё скрытое ранговое пространство.

В этой модели:
• состояние нейрона — это марковский процесс
• спайк — не «жёсткий порог», а бифуркация состояния
• активация — результат накопления рангового функционала
• обучение — локальное правило, следующее напрямую из теории

Спайки здесь — следствие динамики, а не ручная эвристика.
Мы оптимизируем не MSE напрямую, а KL-отклонение от хаоса (через ранговое пространство)

2️⃣ Сравнение с Linear / FFN

На простой задаче регрессии:
• одинаковая размерность
• одинаковые данные
• одинаковая сложность

📉 MarkovSpike сходится быстрее, чем Linear и FFN/MLP
📉 Loss убывает монотонно, без шумовых колебаний
📉 Нет нестабильности, нет «дрожания» обучения

Это важно: модель со спайками обучается лучше, чем классическая непрерывная сеть.

3️⃣ Сравнение с классическими SNN

Я сравнил MarkovSpike с:
• SNN со спайковой нелинейностью
• Time-based SNN (LIF, мембрана, surrogate-gradient, BPTT)

Результат однозначный:
• огромный разброс Loss
• отсутствие сходимости
• нестабильные спайки
• обучение «на удачу»

📊 Даже близко нет сопоставимого результата.

И это не проблема реализации.
Это фундаментальная проблема архитектуры.

4️⃣ Почему классические SNN не работают

Потому что они устроены как самолёт из веток.

Представьте, аборигены увидели самолёт в небе и собрали объект из веток, похожий на самолёт. Толкают его и ждут, что он взлетит

То же самое с SNN:
• они копируют внешний вид нейрона
• но не имеют теории, из которой это следует
• surrogate-градиенты — это верёвки, которыми толкают самолёт

5️⃣ В чём принципиальное преимущество MarkovSpike

• Построен на доказанной теории
• Работают быстрее при обучении, чем метод обратного распространения ошибки (нейрон обучается только в момент спайка)
• Меньше расход памяти, чем у FFN
• Не требует surrogate-градиентов
• Не использует BPTT
• Обучение локальное и стабильное
• Спайки — естественный результат динамики
• Низкий variance Loss
• Масштабируемость
• Хорошо ложится на GPU

Это реализация математической модели.

6️⃣ Что это значит для развития нейросетей

Нельзя построить работающую модель, копируя внешний вид системы, не понимая её теории.

Будущее нейросетей — не в:
• «ещё более биологических» нейронах
• усложнённых LIF
• новых surrogate-функциях

А в:
• фундаментальных теориях
• строгих моделях
• архитектурах, которые следуют из математики

Самолёт летает не потому, что похож на птицу.
А потому что опирается на науку.

👍8🔥3👏2

892 views10:43

About

Blog

Apps

Platform