🔬Практическая проверка теорем: тест предсказательной силы ранговой теории
Итак, на текущем этапе давайте добавим некоторые элементы ранговой теории в код LLM, в строгом соответствии формальным теоремам.
Цель простая, проверить: совпадает ли фактическое поведение модели с тем, что предсказывают теоремы?
Некоторые ошибочно думают, что это просто теория в вакууме. В реальности, все от токенизатора до каких-то изменений, построено строго на доказанных теоремах, а до этого проверено на статистических данных.
Даже этот тест - прежде всего проверка предсказаний теорем.
При этом одно распространённое заблуждение стоит сразу убрать:
Вот что реализовано в текущем тесте. Условие те же, 1000 примеров обучения.
1) Все блоки трансформера теперь участвуют в формировании выхода
Отказ от классической схемы «выход = последний блок».
Теперь каждый блок даёт собственный вклад в ранговую структуру.
Это напрямую следует из теорем о многоуровневой ранговой модуляции: распределение должно формироваться иерархически, на всех уровнях, а не только на верхнем.
Что проверяем:
совпадает ли фактическая иерархия выходов с предсказаниями теорем.
2) Введено ε-отсечение логитов — временный компромисс для фильтрации шума
• отсекать явно шумовые ранги,
• предотвращать случайные “переходы за бифуркацию”.
Галлюцинации часто возникают, когда модель случайно выбирает токен, лежащий за пределами бифуркационного порога, где начинается шум.
Например:
“Столица Франции” → случайно выбранная “Москва” вместо “Париж”.
Argmax это исправляет, но убивает разнообразие.
А top_k/top_p не различают вероятный токен и шумовой — и часто усиливают проблему.
3) Длина текста теперь определяется структурно, а не ручными параметрами
Убираем управление длиной через temperature/top-p.
Теперь:
• β задаёт только начальный уровень «температуры»,
• дальше β адаптируется автоматически,
• длина текста определяется структурной сложностью входа (глубина, иерархия).
То есть:
• сложный текст генерирует длинное продолжение,
• простой текст — короткое.
Это точная проверка теорем об адаптивной температуре и постоянстве оптимальной температуры.
Мы смотрим, совпадает ли наблюдаемое поведение с тем, что должно происходить согласно теоретической модели.
Что ещё предстоит сделать:
• заменить ε-отсечение на точное бифуркационное (требует статистики)
• инициализация embeddings по собранной статистике до обучения
• проверка возможности реализации симметрии внутри трансформера (под вопросом).
После этого можно будет переходить на другие архитектуры:
трансформеры — это не идеальный объект для реализации теории, но они дают отличный полигон для проверки предсказаний теорем.
Итак, на текущем этапе давайте добавим некоторые элементы ранговой теории в код LLM, в строгом соответствии формальным теоремам.
Цель простая, проверить: совпадает ли фактическое поведение модели с тем, что предсказывают теоремы?
Некоторые ошибочно думают, что это просто теория в вакууме. В реальности, все от токенизатора до каких-то изменений, построено строго на доказанных теоремах, а до этого проверено на статистических данных.
Даже этот тест - прежде всего проверка предсказаний теорем.
При этом одно распространённое заблуждение стоит сразу убрать:
Ранговая теория — не про сортировку и индексы.
Упорядочивание 1, 2, 3… — это вспомогательное обозначение вероятностей, чтобы работать с ранговой структурой Марковских цепей.
Сама теория не зависит от этих чисел.
Вот что реализовано в текущем тесте. Условие те же, 1000 примеров обучения.
1) Все блоки трансформера теперь участвуют в формировании выхода
Отказ от классической схемы «выход = последний блок».
Теперь каждый блок даёт собственный вклад в ранговую структуру.
Это напрямую следует из теорем о многоуровневой ранговой модуляции: распределение должно формироваться иерархически, на всех уровнях, а не только на верхнем.
Что проверяем:
совпадает ли фактическая иерархия выходов с предсказаниями теорем.
2) Введено ε-отсечение логитов — временный компромисс для фильтрации шума
Важно подчеркнуть:Поэтому используем ε-отсечение, чтобы:
ε — это не часть теории.
Это временный аналог бифуркационного порога, пока мы собираем статистику для точного вычисления.
• отсекать явно шумовые ранги,
• предотвращать случайные “переходы за бифуркацию”.
Галлюцинации часто возникают, когда модель случайно выбирает токен, лежащий за пределами бифуркационного порога, где начинается шум.
Например:
“Столица Франции” → случайно выбранная “Москва” вместо “Париж”.
Argmax это исправляет, но убивает разнообразие.
А top_k/top_p не различают вероятный токен и шумовой — и часто усиливают проблему.
3) Длина текста теперь определяется структурно, а не ручными параметрами
Убираем управление длиной через temperature/top-p.
Теперь:
• β задаёт только начальный уровень «температуры»,
• дальше β адаптируется автоматически,
• длина текста определяется структурной сложностью входа (глубина, иерархия).
То есть:
• сложный текст генерирует длинное продолжение,
• простой текст — короткое.
Это точная проверка теорем об адаптивной температуре и постоянстве оптимальной температуры.
Мы смотрим, совпадает ли наблюдаемое поведение с тем, что должно происходить согласно теоретической модели.
Что ещё предстоит сделать:
• заменить ε-отсечение на точное бифуркационное (требует статистики)
• инициализация embeddings по собранной статистике до обучения
• проверка возможности реализации симметрии внутри трансформера (под вопросом).
После этого можно будет переходить на другие архитектуры:
трансформеры — это не идеальный объект для реализации теории, но они дают отличный полигон для проверки предсказаний теорем.
👍1🔥1
Ошибка предсказания — не ошибка.
Симметрия — не шум.
И мы десятилетиями интерпретировали это неправильно.
И если вам кажется, что это игра слов — нет.
Это строгий вывод из математики.
То, что десятилетиями называли ошибкой,
на самом деле — контекст выбора.
Симметрия возникает не из-за плохих данных.
Она появляется тогда, когда система больше не может различить альтернативы.
И именно поэтому симметрия:
— удерживает систему от распада,
— поглощает неопределённость,
— делает пространство устойчивым.
Но есть и вторая сторона.
Только в симметрии:
— накапливается скрытая информация,
— появляется выбор,
— и становится возможным развитие.
Симметрия — не дефект.
Симметрия — единственное место, где может родиться новое.
Ключевой вывод:
Predictive Coding ничего не “исправляет”.
Он не минимизирует ошибку.
Он вводит контекст, который разрушает симметрию и заставляет систему выбрать один из альтернативных маршрутов.
Развитие происходит не через “исправление ошибки”, а через конкуренцию альтернатив в условиях статистической неразличимости.
Это меняет то, как мы понимаем обучение, мышление и развитие систем.
В статье показано:
— почему симметрия — фундаментальное свойство данных, а не шум;
— почему «критическое мышление» — это конкуренция маршрутов;
— где и почему ломается Free Energy Principle;
— почему новая структура всегда рождается из симметрии;
— и почему этот же принцип работает от нейросетей до квантовой физики.
📖 Симметрия в ранговой теории (3 части)
(рекомендую включить VPN для корректной загрузки изображений)
Часть 1
https://telegra.ph/Simmetriya-v-rangovoj-teorii-12-18
Часть 2
https://telegra.ph/Simmetriya-v-rangovoj-teorii-chast-2-12-21
Часть 3
https://telegra.ph/Simmetriya-v-rangovoj-teorii-chast-3-12-24
📐 Теоремы о симметрии (LaTeX) и текст статьи (txt) — можно скормить LLM (доказательство теорем опирается на ранее опубликованные теоремы):
https://disk.yandex.ru/d/_bSYGDfmcMvHFw
Симметрия — не шум.
И мы десятилетиями интерпретировали это неправильно.
И если вам кажется, что это игра слов — нет.
Это строгий вывод из математики.
То, что десятилетиями называли ошибкой,
на самом деле — контекст выбора.
Симметрия возникает не из-за плохих данных.
Она появляется тогда, когда система больше не может различить альтернативы.
И именно поэтому симметрия:
— удерживает систему от распада,
— поглощает неопределённость,
— делает пространство устойчивым.
Но есть и вторая сторона.
Только в симметрии:
— накапливается скрытая информация,
— появляется выбор,
— и становится возможным развитие.
Симметрия — не дефект.
Симметрия — единственное место, где может родиться новое.
Асимметрия создаёт иерархию.
Симметрия делает её устойчивой.
Ключевой вывод:
Predictive Coding ничего не “исправляет”.
Он не минимизирует ошибку.
Он вводит контекст, который разрушает симметрию и заставляет систему выбрать один из альтернативных маршрутов.
Развитие происходит не через “исправление ошибки”, а через конкуренцию альтернатив в условиях статистической неразличимости.
Это меняет то, как мы понимаем обучение, мышление и развитие систем.
В статье показано:
— почему симметрия — фундаментальное свойство данных, а не шум;
— почему «критическое мышление» — это конкуренция маршрутов;
— где и почему ломается Free Energy Principle;
— почему новая структура всегда рождается из симметрии;
— и почему этот же принцип работает от нейросетей до квантовой физики.
Ошибка — это способ не думать.
Симметрия — причина, по которой системы вынуждены думать.
📖 Симметрия в ранговой теории (3 части)
(рекомендую включить VPN для корректной загрузки изображений)
Часть 1
https://telegra.ph/Simmetriya-v-rangovoj-teorii-12-18
Часть 2
https://telegra.ph/Simmetriya-v-rangovoj-teorii-chast-2-12-21
Часть 3
https://telegra.ph/Simmetriya-v-rangovoj-teorii-chast-3-12-24
📐 Теоремы о симметрии (LaTeX) и текст статьи (txt) — можно скормить LLM (доказательство теорем опирается на ранее опубликованные теоремы):
https://disk.yandex.ru/d/_bSYGDfmcMvHFw
🔥4👏4👎1💯1
🍎 Почему LLM «галлюцинируют» — и при чём тут яблоки на рынке
Представьте диалог с моделью.
Вы говорите:
«Я выбираю яблоки на рынке. Мне важно, чтобы они были красные и спелые».
Модель отвечает:
— Красивые яблоки всегда радуют глаз…
И вот диалог уже съехал. Вместо выбора спелых яблок — разговор о красоте, эстетике и чём-то совсем другом.
❓ Почему так происходит, если слово «красивые» вполне вероятное продолжение?
В чём корень проблемы
Современные LLM чаще всего выбирают следующий токен по принципу top-k / top-p:
берём самые вероятные варианты — и случайно выбираем один из них.
Проблема в том, что:
• высокая вероятность отдельного слова
• не гарантирует, что оно совместимо с общим смыслом цепочки.
Текст — это не просто поток слов.
Это цепочки зависимостей, где каждый следующий шаг либо сохраняет контекст, либо медленно его разрушает.
Как рождаются галлюцинации
Галлюцинация — это не один ошибочный токен.
Это накопление маленьких отклонений:
• каждый шаг кажется допустимым,
• но постепенно диалог уходит в сторону,
• и в какой-то момент модель уже «говорит сама с собой».
Именно так:
• разговор про спелые яблоки
превращается в разговор про красоту вообще.
Что меняет подход с цепями Маркова
Если учитывать не только вероятность следующего слова,
а вероятность всей смысловой цепочки, происходит важная вещь:
• модель не может выбрать продолжение, которое ломает контекст;
• шум не попадает в начало или середину слова;
• ошибки, если и появляются, остаются на концах — там, где просто не хватило данных для обучения.
На практике это означает:
• меньше «обгваласько» и «беззвольте»,
• меньше смысловых срывов,
• и гораздо более устойчивый диалог.
Ключевая мысль
Top-k / top-p выбирают вероятное.
Но не проверяют, разрушает ли этот выбор весь смысловой путь.
Если же отсекать такие варианты заранее —
контекст сохраняется, а шум перестаёт разрастаться.
📌 Иногда, чтобы модель перестала фантазировать,
нужно не больше данных — а чуть более строгие правила выбора следующего шага.
Если тема интересна — то более детальный разбор с реальными графиками, примерами и исходным кодом можно посмотреть в статье:
Галлюцинации LLM. Замена top-p/top-k на порог цепи Маркова. (Для корректного отображения нужно включить VPN)
Часть 1:
https://telegra.ph/Gallyucinacii-LLM-Zamena-top-ptop-k-na-porog-cepi-Markova-01-15
Часть 2:
https://telegra.ph/Gallyucinacii-LLM-Zamena-top-ptop-k-na-porog-cepi-Markova-CHast-2-01-16
📐 Код для классической LLM и текст статьи (txt) — можно скормить LLM:
https://disk.yandex.ru/d/CcNjdVq030xD0g
Представьте диалог с моделью.
Вы говорите:
«Я выбираю яблоки на рынке. Мне важно, чтобы они были красные и спелые».
Модель отвечает:
— Красивые яблоки всегда радуют глаз…
И вот диалог уже съехал. Вместо выбора спелых яблок — разговор о красоте, эстетике и чём-то совсем другом.
❓ Почему так происходит, если слово «красивые» вполне вероятное продолжение?
В чём корень проблемы
Современные LLM чаще всего выбирают следующий токен по принципу top-k / top-p:
берём самые вероятные варианты — и случайно выбираем один из них.
Проблема в том, что:
• высокая вероятность отдельного слова
• не гарантирует, что оно совместимо с общим смыслом цепочки.
Текст — это не просто поток слов.
Это цепочки зависимостей, где каждый следующий шаг либо сохраняет контекст, либо медленно его разрушает.
Как рождаются галлюцинации
Галлюцинация — это не один ошибочный токен.
Это накопление маленьких отклонений:
• каждый шаг кажется допустимым,
• но постепенно диалог уходит в сторону,
• и в какой-то момент модель уже «говорит сама с собой».
Именно так:
• разговор про спелые яблоки
превращается в разговор про красоту вообще.
Что меняет подход с цепями Маркова
Если учитывать не только вероятность следующего слова,
а вероятность всей смысловой цепочки, происходит важная вещь:
• модель не может выбрать продолжение, которое ломает контекст;
• шум не попадает в начало или середину слова;
• ошибки, если и появляются, остаются на концах — там, где просто не хватило данных для обучения.
На практике это означает:
• меньше «обгваласько» и «беззвольте»,
• меньше смысловых срывов,
• и гораздо более устойчивый диалог.
Ключевая мысль
🧠 Одна из причин галлюцинации в LLM — это следствие неправильного выбора допустимых продолжений, а не “глупости” модели.
Top-k / top-p выбирают вероятное.
Но не проверяют, разрушает ли этот выбор весь смысловой путь.
Если же отсекать такие варианты заранее —
контекст сохраняется, а шум перестаёт разрастаться.
📌 Иногда, чтобы модель перестала фантазировать,
нужно не больше данных — а чуть более строгие правила выбора следующего шага.
Если тема интересна — то более детальный разбор с реальными графиками, примерами и исходным кодом можно посмотреть в статье:
Галлюцинации LLM. Замена top-p/top-k на порог цепи Маркова. (Для корректного отображения нужно включить VPN)
Часть 1:
https://telegra.ph/Gallyucinacii-LLM-Zamena-top-ptop-k-na-porog-cepi-Markova-01-15
Часть 2:
https://telegra.ph/Gallyucinacii-LLM-Zamena-top-ptop-k-na-porog-cepi-Markova-CHast-2-01-16
📐 Код для классической LLM и текст статьи (txt) — можно скормить LLM:
https://disk.yandex.ru/d/CcNjdVq030xD0g
🔥5👍2👏1
🧠✈️ MarkovSpike: почему одни нейросети летают, а другие просто похожи на самолёт
В этом посте результат обучения спайковой модели построенной на основе ранговой теории.
Больше всего в полученных результатах меня радует не огромный скачек в развитии нейронных сетей, не улучшенный loss, обучение, динамика... Нет, я не обесцениваю, этот результат важен. Но лично для меня важнее то, что спайковая модель была построена исключительно на теоремах и формулах ранговой теории, тем самым ещё раз доказав ее предсказательную силу и правильность.
Потребовалось много времени, чтобы правильно интерпретировать теоремы на архитектуру. Все это время они были перед глазами. А их интерпретацию я описывал ещё до теорем. Подобное можно наблюдать в комментариях в посте теорем о симметрии, теоремы и формулы есть, а идеальной интерпретации в модель ещё до конца нет. Чтобы пазл в голове сложился, нужно время. Но есть огромное преимущество - это ранговая теория, как инструмент для правильной реализации.
За последние годы появилось огромное количество спайковых нейронных сетей.
Они выглядят «биологично», у них есть спайки, мембранные потенциалы, пороги, LIF-нейроны.
Но есть проблема: они почти не обучаются.
Ранговая теория объясняет нам, что нейрон описывает ранговую область (ранговое и марковское пространство), а спайки это разрыв цепи Маркова.
1️⃣ Что такое MarkovSpike с точки зрения ранговой теории
MarkovSpike — это спайковая модель, полностью выведенная из ранговой теории. Цепь Маркова в пространстве лог-вероятностей накапливает информационное состояние до достижения порога, а предсказание считывается в момент остановки.
Здесь каждый нейрон имеет своё скрытое ранговое пространство.
В этой модели:
• состояние нейрона — это марковский процесс
• спайк — не «жёсткий порог», а бифуркация состояния
• активация — результат накопления рангового функционала
• обучение — локальное правило, следующее напрямую из теории
Спайки здесь — следствие динамики, а не ручная эвристика.
Мы оптимизируем не MSE напрямую, а KL-отклонение от хаоса (через ранговое пространство)
2️⃣ Сравнение с Linear / FFN
На простой задаче регрессии:
• одинаковая размерность
• одинаковые данные
• одинаковая сложность
📉 MarkovSpike сходится быстрее, чем Linear и FFN/MLP
📉 Loss убывает монотонно, без шумовых колебаний
📉 Нет нестабильности, нет «дрожания» обучения
Это важно: модель со спайками обучается лучше, чем классическая непрерывная сеть.
3️⃣ Сравнение с классическими SNN
Я сравнил MarkovSpike с:
• SNN со спайковой нелинейностью
• Time-based SNN (LIF, мембрана, surrogate-gradient, BPTT)
Результат однозначный:
• огромный разброс Loss
• отсутствие сходимости
• нестабильные спайки
• обучение «на удачу»
📊 Даже близко нет сопоставимого результата.
И это не проблема реализации.
Это фундаментальная проблема архитектуры.
4️⃣ Почему классические SNN не работают
Потому что они устроены как самолёт из веток.
То же самое с SNN:
• они копируют внешний вид нейрона
• но не имеют теории, из которой это следует
• surrogate-градиенты — это верёвки, которыми толкают самолёт
5️⃣ В чём принципиальное преимущество MarkovSpike
• Построен на доказанной теории
• Работают быстрее при обучении, чем метод обратного распространения ошибки (нейрон обучается только в момент спайка)
• Меньше расход памяти, чем у FFN
• Не требует surrogate-градиентов
• Не использует BPTT
• Обучение локальное и стабильное
• Спайки — естественный результат динамики
• Низкий variance Loss
• Масштабируемость
• Хорошо ложится на GPU
Это реализация математической модели.
6️⃣ Что это значит для развития нейросетей
Нельзя построить работающую модель, копируя внешний вид системы, не понимая её теории.
Будущее нейросетей — не в:
• «ещё более биологических» нейронах
• усложнённых LIF
• новых surrogate-функциях
А в:
• фундаментальных теориях
• строгих моделях
• архитектурах, которые следуют из математики
Самолёт летает не потому, что похож на птицу.
А потому что опирается на науку.
В этом посте результат обучения спайковой модели построенной на основе ранговой теории.
Больше всего в полученных результатах меня радует не огромный скачек в развитии нейронных сетей, не улучшенный loss, обучение, динамика... Нет, я не обесцениваю, этот результат важен. Но лично для меня важнее то, что спайковая модель была построена исключительно на теоремах и формулах ранговой теории, тем самым ещё раз доказав ее предсказательную силу и правильность.
Потребовалось много времени, чтобы правильно интерпретировать теоремы на архитектуру. Все это время они были перед глазами. А их интерпретацию я описывал ещё до теорем. Подобное можно наблюдать в комментариях в посте теорем о симметрии, теоремы и формулы есть, а идеальной интерпретации в модель ещё до конца нет. Чтобы пазл в голове сложился, нужно время. Но есть огромное преимущество - это ранговая теория, как инструмент для правильной реализации.
За последние годы появилось огромное количество спайковых нейронных сетей.
Они выглядят «биологично», у них есть спайки, мембранные потенциалы, пороги, LIF-нейроны.
Но есть проблема: они почти не обучаются.
Ранговая теория объясняет нам, что нейрон описывает ранговую область (ранговое и марковское пространство), а спайки это разрыв цепи Маркова.
1️⃣ Что такое MarkovSpike с точки зрения ранговой теории
MarkovSpike — это спайковая модель, полностью выведенная из ранговой теории. Цепь Маркова в пространстве лог-вероятностей накапливает информационное состояние до достижения порога, а предсказание считывается в момент остановки.
Здесь каждый нейрон имеет своё скрытое ранговое пространство.
В этой модели:
• состояние нейрона — это марковский процесс
• спайк — не «жёсткий порог», а бифуркация состояния
• активация — результат накопления рангового функционала
• обучение — локальное правило, следующее напрямую из теории
Спайки здесь — следствие динамики, а не ручная эвристика.
Мы оптимизируем не MSE напрямую, а KL-отклонение от хаоса (через ранговое пространство)
2️⃣ Сравнение с Linear / FFN
На простой задаче регрессии:
• одинаковая размерность
• одинаковые данные
• одинаковая сложность
📉 MarkovSpike сходится быстрее, чем Linear и FFN/MLP
📉 Loss убывает монотонно, без шумовых колебаний
📉 Нет нестабильности, нет «дрожания» обучения
Это важно: модель со спайками обучается лучше, чем классическая непрерывная сеть.
3️⃣ Сравнение с классическими SNN
Я сравнил MarkovSpike с:
• SNN со спайковой нелинейностью
• Time-based SNN (LIF, мембрана, surrogate-gradient, BPTT)
Результат однозначный:
• огромный разброс Loss
• отсутствие сходимости
• нестабильные спайки
• обучение «на удачу»
📊 Даже близко нет сопоставимого результата.
И это не проблема реализации.
Это фундаментальная проблема архитектуры.
4️⃣ Почему классические SNN не работают
Потому что они устроены как самолёт из веток.
Представьте, аборигены увидели самолёт в небе и собрали объект из веток, похожий на самолёт. Толкают его и ждут, что он взлетит
То же самое с SNN:
• они копируют внешний вид нейрона
• но не имеют теории, из которой это следует
• surrogate-градиенты — это верёвки, которыми толкают самолёт
5️⃣ В чём принципиальное преимущество MarkovSpike
• Построен на доказанной теории
• Работают быстрее при обучении, чем метод обратного распространения ошибки (нейрон обучается только в момент спайка)
• Меньше расход памяти, чем у FFN
• Не требует surrogate-градиентов
• Не использует BPTT
• Обучение локальное и стабильное
• Спайки — естественный результат динамики
• Низкий variance Loss
• Масштабируемость
• Хорошо ложится на GPU
Это реализация математической модели.
6️⃣ Что это значит для развития нейросетей
Нельзя построить работающую модель, копируя внешний вид системы, не понимая её теории.
Будущее нейросетей — не в:
• «ещё более биологических» нейронах
• усложнённых LIF
• новых surrogate-функциях
А в:
• фундаментальных теориях
• строгих моделях
• архитектурах, которые следуют из математики
Самолёт летает не потому, что похож на птицу.
А потому что опирается на науку.
👍8🔥3👏2