Это первая части из трёх теорем, где мы построили строгую теоретическую основу для ранговой модуляции — способа представления вероятностей между сегментами последовательности с помощью рангов, а не фиксированных позиций.
https://telegra.ph/Teoriya-mnogourovnevoj-rangovoj-modulyacii-Teoremy-1-3-08-05
Что мы доказали о ранговой модуляции и зачем это нужно
Первый цикл доказательств для новой модели — многоуровневой ранговой модуляции. Это способ анализировать зависимости между частями последовательности не по порядку, а по относительной значимости — через ранги.
В чём суть?
Обычно модели последовательно обрабатывают данные: текущий элемент зависит от предыдущего. Мы же предложили другой принцип: искать, какая часть предыдущего сегмента наиболее информативна для текущего — независимо от позиции. Это позволяет моделировать сложные иерархические связи в данных.
И так, что мы доказали:
Модель корректна — то есть она даёт нормальное вероятностное распределение. Всё работает математически точно.
Она эффективнее марковской, если в данных есть скрытые или дальние зависимости — то есть в случаях, где "рядом" по позиции не значит "связано".
Адаптивные связи (через ранги) выбираются оптимально — то есть они дают наименьшую неопределённость.
Зачем это нужно?
Анализ временных рядов — если данные разорваны или нестационарны, стандартные модели теряют контекст. Ранговая модель сохраняет зависимость.
Обработка текста — помогает выявить связи между фразами или предложениями, а не только словами.
Геномика и биология — определяет важные связи между удалёнными участками ДНК.
Социальные и сетевые данные — обнаруживает устойчивые паттерны взаимодействий даже при "разрывах" в структуре.
Почему это важно?
Модель:
устойчива к шуму и разрывам — сохраняет информативность даже при бифуркациях;
объяснима — связи между элементами явно выражены через ранги;
легко интегрируется — может стать частью токенизаторов, систем поиска паттернов.
Чтобы было понятнее, пара примеров:
Например мы используем GPS, который ведет по дороге. Мы смотрим на следующий поворот — это как марковская модель: текущий шаг зависит от предыдущего. На каждом повороте мы смотрим, ближе мы к цели или нет.
Теоремы же говорят — навигатор должен выбирать не просто "ближайший поворот", а тот, что сильнее всего влияет на достижение цели, даже если он дальше. Такой навигатор даёт более надёжный маршрут. Он снижает неопределённость о будущем пути.
Другой более наглядный пример, это книга. Мы хотим понять сюжет книги.
Классическая модель говорит, что надо читать страницу за страницей, думая, что каждая следующая зависит от предыдущей.
Но теоремы, говорят нам, что надо искать ключевые фрагменты, которые дают максимум смысла — неважно, на какой они странице. Такой подход точнее передаёт смысл. Он устойчив к разрывам — если часть страниц потеряна, мы всё равно понимаем историю.
https://telegra.ph/Teoriya-mnogourovnevoj-rangovoj-modulyacii-Teoremy-1-3-08-05
Что мы доказали о ранговой модуляции и зачем это нужно
Первый цикл доказательств для новой модели — многоуровневой ранговой модуляции. Это способ анализировать зависимости между частями последовательности не по порядку, а по относительной значимости — через ранги.
В чём суть?
Обычно модели последовательно обрабатывают данные: текущий элемент зависит от предыдущего. Мы же предложили другой принцип: искать, какая часть предыдущего сегмента наиболее информативна для текущего — независимо от позиции. Это позволяет моделировать сложные иерархические связи в данных.
И так, что мы доказали:
Модель корректна — то есть она даёт нормальное вероятностное распределение. Всё работает математически точно.
Она эффективнее марковской, если в данных есть скрытые или дальние зависимости — то есть в случаях, где "рядом" по позиции не значит "связано".
Адаптивные связи (через ранги) выбираются оптимально — то есть они дают наименьшую неопределённость.
Зачем это нужно?
Анализ временных рядов — если данные разорваны или нестационарны, стандартные модели теряют контекст. Ранговая модель сохраняет зависимость.
Обработка текста — помогает выявить связи между фразами или предложениями, а не только словами.
Геномика и биология — определяет важные связи между удалёнными участками ДНК.
Социальные и сетевые данные — обнаруживает устойчивые паттерны взаимодействий даже при "разрывах" в структуре.
Почему это важно?
Модель:
устойчива к шуму и разрывам — сохраняет информативность даже при бифуркациях;
объяснима — связи между элементами явно выражены через ранги;
легко интегрируется — может стать частью токенизаторов, систем поиска паттернов.
Чтобы было понятнее, пара примеров:
Например мы используем GPS, который ведет по дороге. Мы смотрим на следующий поворот — это как марковская модель: текущий шаг зависит от предыдущего. На каждом повороте мы смотрим, ближе мы к цели или нет.
Теоремы же говорят — навигатор должен выбирать не просто "ближайший поворот", а тот, что сильнее всего влияет на достижение цели, даже если он дальше. Такой навигатор даёт более надёжный маршрут. Он снижает неопределённость о будущем пути.
Другой более наглядный пример, это книга. Мы хотим понять сюжет книги.
Классическая модель говорит, что надо читать страницу за страницей, думая, что каждая следующая зависит от предыдущей.
Но теоремы, говорят нам, что надо искать ключевые фрагменты, которые дают максимум смысла — неважно, на какой они странице. Такой подход точнее передаёт смысл. Он устойчив к разрывам — если часть страниц потеряна, мы всё равно понимаем историю.
Telegraph
Теория многоуровневой ранговой модуляции (Теоремы 1-3)
Представь, что тебе нужно найти человека на площади. Классический подход — смотреть на ближайших к тебе людей (как марковская модель — учитывать только соседей). Ранговая модель — это как если бы ты знал, максимальные шансы знать нужного тебе человека, и…
🔥4
Теория ранговой модуляции (теоремы 4.1–4.2.5)
Теоремы 4.1-4.2.2:
https://telegra.ph/Teoriya-mnogourovnevoj-rangovoj-modulyacii-Teoremy-41-422-08-13
Теоремы 4.2.3.1-4.2.3.2.2:
https://telegra.ph/Teoriya-mnogourovnevoj-rangovoj-modulyacii-Teoremy-4231-42322-08-13
Теоремы 4.2.4-4.2.5:
https://telegra.ph/Teoriya-mnogourovnevoj-rangovoj-modulyacii-Teoremy-424-425-08-13
Набор теорем 4.1–4.2.5 формирует единую, математически строгую картину того, как правильно ранжировать и агрегировать локальную структуру в последовательностях, чтобы восстановить (и даже усилить) информативность на более высоких уровнях представления. Это набор утверждений, как построить иерархические модели, которые сохраняют важные долгосрочные зависимости и улучшают предсказательную способность.
Если в данных есть локальные зависимости, которые трудно учесть прямо (из-за шума, разреженности или «бифуркации» структуры), то правильная адаптивная ранговая модуляция позволяет:
- выделить ключевые элементы в каждом сегменте (адаптивные ранги),
- собрать из них верхнеуровневую последовательность, которая ведёт себя как марковская модель уровня «сегмент → сегмент»,
- при этом суммарная взаимная информация и предсказательная ценность сохраняются или улучшаются, а перекрёстная энтропия (log-loss) может уменьшаться при выполнимых условиях.
Основные идеи
Оптимальность рангов: адаптивный выбор «ключа» сегмента минимизирует суммарную условную энтропию — формальный обоснованный критерий, почему ранги работают.
Иерархичность и марковскость наверху: последовательность рангов из сегментов образует корректную верхнеуровневую марковскую цепь при условии локальности рангов — это даёт простую и удобную модель для долгосрочной динамики.
Перекрёстная энтропия и практическая польза: теоремы дают точные условия, когда ранговая модель действительно уменьшит лог-loss по сравнению с классическими моделями.
Защита долгосрочных зависимостей: ранговая модуляция сохраняет и использует долгие, удалённые зависимости; кроме того допускается «многоуровневое перескакивание» — прямая передача информации между отдалёнными уровнями, минуя промежуточные.
Алгоритмическая польза: эти результаты позволяют сократить размерность, уменьшить потребность в данных и ускорить инференс, сохранив при этом ключевую информацию.
Для чего это нужно?
- улучшение предсказаний при ограниченных данных;
- устойчивость моделей к локальному «шуму» или структурным изменениям (бифуркациям);
- эффективная компрессия контекста;
- формальные критерии, когда стоит применять ранговую агрегацию, а когда — нет.
Это часть доказанных теорем. Теоремы 1-4 касаются скорее теоретической основы, без которых нельзя доказать остального. Сейчас доказан разделы связанные с асимптотикой, аппроксимацией и другими оценками.
Для примера возьмём систему рекомендаций на основе сессий пользователей (по 10–20 событий в сессии). Стандартный подход — строить модель на уровне событий (данные разрежены, много шума). По теоремам ранговой модуляции можно:
в каждом сеансе выделять 1–2 «ключевых» события (ранга) — самые информативные для будущих действий;
строить модель последовательности этих ключей (верхний уровень) вместо сырых событий;
благодаря теоремам вы получите: меньшую условную энтропию предсказаний, формальные гарантии сохранения взаимной информации между соседними сеансами и, при выполнении условий реально меньший log-loss на тесте.
Далее:
- будет обобщение этих теорем
- публикация первоначальных теорем
https://t.me/greenruff/2361
- выложены в удобной форме теоремы до 4.2.5, чтобы их можно было прогнать через LLM, чтобы уточнить как улучшить какие-то архитектуры нейронных сетей.
- пример улучшения обучения и частично улучшения LLM
Теоремы 4.1-4.2.2:
https://telegra.ph/Teoriya-mnogourovnevoj-rangovoj-modulyacii-Teoremy-41-422-08-13
Теоремы 4.2.3.1-4.2.3.2.2:
https://telegra.ph/Teoriya-mnogourovnevoj-rangovoj-modulyacii-Teoremy-4231-42322-08-13
Теоремы 4.2.4-4.2.5:
https://telegra.ph/Teoriya-mnogourovnevoj-rangovoj-modulyacii-Teoremy-424-425-08-13
Набор теорем 4.1–4.2.5 формирует единую, математически строгую картину того, как правильно ранжировать и агрегировать локальную структуру в последовательностях, чтобы восстановить (и даже усилить) информативность на более высоких уровнях представления. Это набор утверждений, как построить иерархические модели, которые сохраняют важные долгосрочные зависимости и улучшают предсказательную способность.
Если в данных есть локальные зависимости, которые трудно учесть прямо (из-за шума, разреженности или «бифуркации» структуры), то правильная адаптивная ранговая модуляция позволяет:
- выделить ключевые элементы в каждом сегменте (адаптивные ранги),
- собрать из них верхнеуровневую последовательность, которая ведёт себя как марковская модель уровня «сегмент → сегмент»,
- при этом суммарная взаимная информация и предсказательная ценность сохраняются или улучшаются, а перекрёстная энтропия (log-loss) может уменьшаться при выполнимых условиях.
Основные идеи
Оптимальность рангов: адаптивный выбор «ключа» сегмента минимизирует суммарную условную энтропию — формальный обоснованный критерий, почему ранги работают.
Иерархичность и марковскость наверху: последовательность рангов из сегментов образует корректную верхнеуровневую марковскую цепь при условии локальности рангов — это даёт простую и удобную модель для долгосрочной динамики.
Перекрёстная энтропия и практическая польза: теоремы дают точные условия, когда ранговая модель действительно уменьшит лог-loss по сравнению с классическими моделями.
Защита долгосрочных зависимостей: ранговая модуляция сохраняет и использует долгие, удалённые зависимости; кроме того допускается «многоуровневое перескакивание» — прямая передача информации между отдалёнными уровнями, минуя промежуточные.
Алгоритмическая польза: эти результаты позволяют сократить размерность, уменьшить потребность в данных и ускорить инференс, сохранив при этом ключевую информацию.
Для чего это нужно?
- улучшение предсказаний при ограниченных данных;
- устойчивость моделей к локальному «шуму» или структурным изменениям (бифуркациям);
- эффективная компрессия контекста;
- формальные критерии, когда стоит применять ранговую агрегацию, а когда — нет.
Это часть доказанных теорем. Теоремы 1-4 касаются скорее теоретической основы, без которых нельзя доказать остального. Сейчас доказан разделы связанные с асимптотикой, аппроксимацией и другими оценками.
Для примера возьмём систему рекомендаций на основе сессий пользователей (по 10–20 событий в сессии). Стандартный подход — строить модель на уровне событий (данные разрежены, много шума). По теоремам ранговой модуляции можно:
в каждом сеансе выделять 1–2 «ключевых» события (ранга) — самые информативные для будущих действий;
строить модель последовательности этих ключей (верхний уровень) вместо сырых событий;
благодаря теоремам вы получите: меньшую условную энтропию предсказаний, формальные гарантии сохранения взаимной информации между соседними сеансами и, при выполнении условий реально меньший log-loss на тесте.
Далее:
- будет обобщение этих теорем
- публикация первоначальных теорем
https://t.me/greenruff/2361
- выложены в удобной форме теоремы до 4.2.5, чтобы их можно было прогнать через LLM, чтобы уточнить как улучшить какие-то архитектуры нейронных сетей.
- пример улучшения обучения и частично улучшения LLM
Telegraph
Теория многоуровневой ранговой модуляции (Теоремы 4.1-4.2.2)
На примере выше: Острова — это сегменты: S1, S2, S3. Между соседними островами есть короткие прямые мосты — это классические марковские связи (локальные зависимости). Каменный мост — это ранговые связи (сильные глобальные зависимости). Теорема 4.1: Представьте…
👍4🤔1🤯1
Почему мир устроен асимметрично?
Новый взгляд на старые законы.
Это математика, которая предсказывает порядок в хаосе.
Почему:
- самое частое слово встречается в разы чаще остальных?
- один человек богаче сотен других?
- в природе всегда есть несколько доминирующих видов?
Это не случайность. Это математическая необходимость.
Мы доказали: асимметрия — не «аномалия», а фундаментальное свойство оптимальных систем.
Она объясняет, почему иерархии неизбежны, а лидеры появляются снова и снова.
📌 Что это значит:
распределения единственны и устойчивы,
системы всегда возвращаются к ним после потрясений,
адаптация подчиняется строгим законам.
Если законы Ньютона объясняют движение, то эти теоремы объясняют, почему мир выглядит именно так.
📖 Базовые теоремы:
Теоремы R.1–R.2 → https://telegra.ph/Teoriya-mnogourovnevoj-rangovoj-modulyacii-Teoremy-R-08-25
Теоремы R.3–R.4 → https://telegra.ph/Teoriya-mnogourovnevoj-rangovoj-modulyacii-Teoremy-R3-R4-09-07
Их текст для прогона в LLM (подавать с учетом шагов step0, step1 и так далее):
https://disk.yandex.ru/d/b8fr7DIiT23AGA
🔍 Ранние исследования:
Поиск асимметрии (закон Ципфа) → https://t.me/greenruff/2346
Анализ данных → https://t.me/greenruff/2352
От закона Ципфа к ранговой модели → https://t.me/greenruff/2361
📈 Первые результаты:
Первый анализ → https://t.me/greenruff/2370
Асимметрия, ранки и бифуркация → https://t.me/greenruff/2380
Первые обобщения → https://t.me/greenruff/2387
🚀 Что дальше:
Переход от формальной математики к практике:
• Текст доказательств теорем для прогона через LLM
• Примеры и код
• Применение в нейросетях, RAG, обучение, инициализация, эмбеддинги. анализ иерархий, выделение структуры в данных.
Мир оказался гораздо более упорядоченным, чем мы думали.
Новый взгляд на старые законы.
Это математика, которая предсказывает порядок в хаосе.
Почему:
- самое частое слово встречается в разы чаще остальных?
- один человек богаче сотен других?
- в природе всегда есть несколько доминирующих видов?
Это не случайность. Это математическая необходимость.
Мы доказали: асимметрия — не «аномалия», а фундаментальное свойство оптимальных систем.
Она объясняет, почему иерархии неизбежны, а лидеры появляются снова и снова.
📌 Что это значит:
распределения единственны и устойчивы,
системы всегда возвращаются к ним после потрясений,
адаптация подчиняется строгим законам.
Если законы Ньютона объясняют движение, то эти теоремы объясняют, почему мир выглядит именно так.
📖 Базовые теоремы:
Теоремы R.1–R.2 → https://telegra.ph/Teoriya-mnogourovnevoj-rangovoj-modulyacii-Teoremy-R-08-25
Теоремы R.3–R.4 → https://telegra.ph/Teoriya-mnogourovnevoj-rangovoj-modulyacii-Teoremy-R3-R4-09-07
Их текст для прогона в LLM (подавать с учетом шагов step0, step1 и так далее):
https://disk.yandex.ru/d/b8fr7DIiT23AGA
🔍 Ранние исследования:
Поиск асимметрии (закон Ципфа) → https://t.me/greenruff/2346
Анализ данных → https://t.me/greenruff/2352
От закона Ципфа к ранговой модели → https://t.me/greenruff/2361
📈 Первые результаты:
Первый анализ → https://t.me/greenruff/2370
Асимметрия, ранки и бифуркация → https://t.me/greenruff/2380
Первые обобщения → https://t.me/greenruff/2387
🚀 Что дальше:
Переход от формальной математики к практике:
• Текст доказательств теорем для прогона через LLM
• Примеры и код
• Применение в нейросетях, RAG, обучение, инициализация, эмбеддинги. анализ иерархий, выделение структуры в данных.
Мир оказался гораздо более упорядоченным, чем мы думали.
Telegraph
Теория многоуровневой ранговой модуляции (Теоремы R.1-R.2)
Введение В классических вероятностных и динамических моделях распределение состояний системы часто определяется локальными ограничениями или фиксированными правилами. Однако во многих реальных системах, особенно в социальных, экономических или биологических…
🔥6🤔2
📜 Как я пришёл к теории рангов
Я хочу, чтобы вы понимали, что теория рангов не возникла из ниоткуда.
Это не абстрактная модель — она родилась из практики, исследований и конкретных задач, которые я решал.
🛤 Путь к теории
Синтез речи.
Модель вдох–выдоха показала, что цепочки условных вероятностей не бесконечны — они затухают и рвутся.
Параметр β изначально управлял скоростью речи, а паузы стали аналогами точек бифуркаций — маркеров перехода между устойчивыми состояниями.
Реализация биологической модели: гомеостаз, метаболизм, гормоны, сердце, кровь, артериальное давление, трахеи и так далее - дали понимание, как организм балансирует между оптимизацией затрат и реакцией на внешние возмущения.
Анализ пиков речи.
Я исследовал градиенты — разницу между пиками и временем — и увидел, что артикуляции подчиняются единым закономерностям.
Так появилась идея ранга как уровня перехода между устойчивыми состояниями.
Паузы и структурные уровни.
Я заметил, что паузы речи распределены не случайно — они образуют динамические уровни.
Именно здесь появилось понимание β как чувствительности системы и «ширины захвата».
Модель неокортекса.
Шестислойная модель показала, как сигнал раскладывается на признаки и остаточную информацию, формируя устойчивую асимметрию.
Формализация.
Я вывел вариационный принцип оптимизации, в котором балансируются энтропия (разнообразие) и затраты (стоимость переходов).
Из этого принципа выросли три ключевых идеи теории рангов:
Бифуркация как механизм разбиения на устойчивые единицы.
Ранг как мера частотности и значимости элемента.
β как параметр чувствительности, управляющий иерархией уровней.
🌊 Образное объяснение
Представьте реку. Вода течет плавно, но в некоторых местах образуются водовороты — это точки бифуркаций.
Они разбивают поток на сегменты.
Чем чаще повторяется сегмент, тем выше его ранг.
А β — это уровень воды:
при высоком β я вижу только крупные водовороты (слова),
при низком — даже мелкие завихрения (фонемы).
🔑 Главный результат
Ранговая теория показывает, что упорядоченность не случайна.
Она — неизбежный результат баланса между хаосом и порядком.
Любая сложная система с устойчивыми состояниями (речь, рынок, нейросеть, биологический ритм) стремится выстроить ранговое пространство — упорядоченное множество состояний, где частота встречаемости определяет ранг.
Бифуркации создают «алфавит» — сегменты разорванных цепей, а β управляет чувствительностью системы и шириной захвата.
В результате возникает иерархия уровней, которая балансирует между многообразием (энтропией) и затратами на поддержание структуры.
📂 Про теоремы и как их использовать
Текст теорем (Теоремы R, B и разделы 1–4) я выложил сюда:
https://disk.yandex.ru/d/pNjCRp-hpS1ywg
Они включают в себя:
Теоремы R.1–R.4 → https://t.me/greenruff/2471
Теоремы B.1–B.10 → https://t.me/greenruff/2462
Определения 1-5 → https://t.me/greenruff/2465
Теоремы 1-3 → https://t.me/greenruff/2466
Теоремы 4.1-4.2.5 → https://t.me/greenruff/2469
и ряд теорем не вошедших в статьи
Как правильно их прогонять:
step0, step1, ... — используйте пошаговый ввод.
Когда подаёте определения — просите LLM просто их запомнить, а не доказывать.
После каждого раздела просите обобщить выводы.
В конце — прогоните все теоремы разом (файл с кратким изложением результатов всех теорем), чтобы модель связала их между собой.
Этих теорем достаточно, чтобы уже сегодня:
- улучшать архитектуры нейросетей,
- оптимизировать RAG,
- проверять гипотезы о структуре данных на практике.
📌 Что будет в комментариях
В комментариях я выложу:
- ссылки на исследования, которые описаны выше (анализ речи, пауз, модели неокортекса),
- шаги, которые привели к формулировке теорем,
- дополнительные материалы для тех, кто хочет углубиться.
🏁 Моя позиция
Природа говорит на языке рангов.
Моя задача — этот язык не просто понять, но и применить:
для построения самоорганизующихся моделей, оптимизации нейросетевых архитектур и анализа сложных систем.
Я хочу, чтобы вы понимали, что теория рангов не возникла из ниоткуда.
Это не абстрактная модель — она родилась из практики, исследований и конкретных задач, которые я решал.
🛤 Путь к теории
Синтез речи.
Модель вдох–выдоха показала, что цепочки условных вероятностей не бесконечны — они затухают и рвутся.
Параметр β изначально управлял скоростью речи, а паузы стали аналогами точек бифуркаций — маркеров перехода между устойчивыми состояниями.
Реализация биологической модели: гомеостаз, метаболизм, гормоны, сердце, кровь, артериальное давление, трахеи и так далее - дали понимание, как организм балансирует между оптимизацией затрат и реакцией на внешние возмущения.
Анализ пиков речи.
Я исследовал градиенты — разницу между пиками и временем — и увидел, что артикуляции подчиняются единым закономерностям.
Так появилась идея ранга как уровня перехода между устойчивыми состояниями.
Паузы и структурные уровни.
Я заметил, что паузы речи распределены не случайно — они образуют динамические уровни.
Именно здесь появилось понимание β как чувствительности системы и «ширины захвата».
Модель неокортекса.
Шестислойная модель показала, как сигнал раскладывается на признаки и остаточную информацию, формируя устойчивую асимметрию.
Формализация.
Я вывел вариационный принцип оптимизации, в котором балансируются энтропия (разнообразие) и затраты (стоимость переходов).
Из этого принципа выросли три ключевых идеи теории рангов:
Бифуркация как механизм разбиения на устойчивые единицы.
Ранг как мера частотности и значимости элемента.
β как параметр чувствительности, управляющий иерархией уровней.
🌊 Образное объяснение
Представьте реку. Вода течет плавно, но в некоторых местах образуются водовороты — это точки бифуркаций.
Они разбивают поток на сегменты.
Чем чаще повторяется сегмент, тем выше его ранг.
А β — это уровень воды:
при высоком β я вижу только крупные водовороты (слова),
при низком — даже мелкие завихрения (фонемы).
🔑 Главный результат
Ранговая теория показывает, что упорядоченность не случайна.
Она — неизбежный результат баланса между хаосом и порядком.
Любая сложная система с устойчивыми состояниями (речь, рынок, нейросеть, биологический ритм) стремится выстроить ранговое пространство — упорядоченное множество состояний, где частота встречаемости определяет ранг.
Бифуркации создают «алфавит» — сегменты разорванных цепей, а β управляет чувствительностью системы и шириной захвата.
В результате возникает иерархия уровней, которая балансирует между многообразием (энтропией) и затратами на поддержание структуры.
📂 Про теоремы и как их использовать
Текст теорем (Теоремы R, B и разделы 1–4) я выложил сюда:
https://disk.yandex.ru/d/pNjCRp-hpS1ywg
Они включают в себя:
Теоремы R.1–R.4 → https://t.me/greenruff/2471
Теоремы B.1–B.10 → https://t.me/greenruff/2462
Определения 1-5 → https://t.me/greenruff/2465
Теоремы 1-3 → https://t.me/greenruff/2466
Теоремы 4.1-4.2.5 → https://t.me/greenruff/2469
и ряд теорем не вошедших в статьи
Как правильно их прогонять:
step0, step1, ... — используйте пошаговый ввод.
Когда подаёте определения — просите LLM просто их запомнить, а не доказывать.
После каждого раздела просите обобщить выводы.
В конце — прогоните все теоремы разом (файл с кратким изложением результатов всех теорем), чтобы модель связала их между собой.
Этих теорем достаточно, чтобы уже сегодня:
- улучшать архитектуры нейросетей,
- оптимизировать RAG,
- проверять гипотезы о структуре данных на практике.
📌 Что будет в комментариях
В комментариях я выложу:
- ссылки на исследования, которые описаны выше (анализ речи, пауз, модели неокортекса),
- шаги, которые привели к формулировке теорем,
- дополнительные материалы для тех, кто хочет углубиться.
🏁 Моя позиция
Природа говорит на языке рангов.
Моя задача — этот язык не просто понять, но и применить:
для построения самоорганизующихся моделей, оптимизации нейросетевых архитектур и анализа сложных систем.
🔥8🤯3
Сейчас готовлю пример инициализации эмбеддингов (идет сбор статистики). Хочется на нем сразу решить еще две проблемы - симметрии (вырожденности) и ограниченности роста, но о них позже.
Поэтому пока начну с простого, но не менее интересного вывода из теорем.
Что показывает этот результат на графиках?
Мы обнаружили, что условная вероятность появления буквы имеет ограниченную длину корреляции.
Марковская цепь, как известно, описывается через условные вероятности P(a∣b).
Анализ показывает, что при расстоянии d>20 между символами условная вероятность P(a∣b,d) становится неотличимой от произведения маргинальных вероятностей P(a)⋅P(b). Более того, P(a∣b,d) и P(b∣a,d) на таких дистанциях полностью совпадают, образуя почти идеальную горизонтальную прямую на графике.
Это означает, что на уровне букв цепь теряет память — структура связи разрывается, и мы не можем восстановить зависимость между символами на основе их удалённых позиций. Иными словами, P(a∣b) перестаёт нести дополнительную информацию об "a" по сравнению с P(a).
Следовательно, долгосрочные зависимости текста должны проявляться не на уровне букв, а на более высоком уровне — например, на уровне слов, фраз или тем. Это наводит на мысль, что адекватное описание текста требует иерархической модели, где короткие марковские связи описывают локальные зависимости, а более длинные связи задаются “верхними уровнями” структуры текста.
Если бы подобное исследование было выполнено раньше и сделаны такие выводы, это стало бы отправной точкой для изучения точек разрыва (бифуркаций) в марковских цепях. Вслед за этим естественным шагом было бы создание полноценной теории иерархии данных. В таком случае ранговая теория могла бы появиться значительно раньше — и её не пришлось бы строить с нуля.
Меня особенно поразило, что я не нашёл ни одной публикации, где бы кто-то просто собрал и визуализировал частотность пар на разных расстояниях.
Практически все работы ограничиваются вычислением взаимной информации, энтропии или других интегральных показателей — но никто не показал саму “сырую картину”.
Это напоминает мне моё более раннее наблюдение об артикуляции речи:
https://t.me/greenruff/2035
я тогда предположил, что даже во время паузы между звуками артикуляторы движутся к следующей точке, из которой будет формироваться новый звук. И тоже оказалось, что никто до этого не исследовал такую базовую вещь.
Интересно, что это поведение вероятностей напоминает физику.
Как электроны в атоме, которые образуют устойчивые уровни на фиксированных энергетических оболочках, так и вероятности букв переходят на “устойчивый уровень” после выхода за радиус действия условных зависимостей. Наблюдатель на больших расстояниях видит уже не условные связи, а устойчивое распределение — маргинальные вероятности, не зависящие от локального контекста.
Поэтому пока начну с простого, но не менее интересного вывода из теорем.
Что показывает этот результат на графиках?
Мы обнаружили, что условная вероятность появления буквы имеет ограниченную длину корреляции.
Марковская цепь, как известно, описывается через условные вероятности P(a∣b).
Анализ показывает, что при расстоянии d>20 между символами условная вероятность P(a∣b,d) становится неотличимой от произведения маргинальных вероятностей P(a)⋅P(b). Более того, P(a∣b,d) и P(b∣a,d) на таких дистанциях полностью совпадают, образуя почти идеальную горизонтальную прямую на графике.
Это означает, что на уровне букв цепь теряет память — структура связи разрывается, и мы не можем восстановить зависимость между символами на основе их удалённых позиций. Иными словами, P(a∣b) перестаёт нести дополнительную информацию об "a" по сравнению с P(a).
Следовательно, долгосрочные зависимости текста должны проявляться не на уровне букв, а на более высоком уровне — например, на уровне слов, фраз или тем. Это наводит на мысль, что адекватное описание текста требует иерархической модели, где короткие марковские связи описывают локальные зависимости, а более длинные связи задаются “верхними уровнями” структуры текста.
Если бы подобное исследование было выполнено раньше и сделаны такие выводы, это стало бы отправной точкой для изучения точек разрыва (бифуркаций) в марковских цепях. Вслед за этим естественным шагом было бы создание полноценной теории иерархии данных. В таком случае ранговая теория могла бы появиться значительно раньше — и её не пришлось бы строить с нуля.
Меня особенно поразило, что я не нашёл ни одной публикации, где бы кто-то просто собрал и визуализировал частотность пар на разных расстояниях.
Практически все работы ограничиваются вычислением взаимной информации, энтропии или других интегральных показателей — но никто не показал саму “сырую картину”.
Это напоминает мне моё более раннее наблюдение об артикуляции речи:
https://t.me/greenruff/2035
я тогда предположил, что даже во время паузы между звуками артикуляторы движутся к следующей точке, из которой будет формироваться новый звук. И тоже оказалось, что никто до этого не исследовал такую базовую вещь.
Интересно, что это поведение вероятностей напоминает физику.
Как электроны в атоме, которые образуют устойчивые уровни на фиксированных энергетических оболочках, так и вероятности букв переходят на “устойчивый уровень” после выхода за радиус действия условных зависимостей. Наблюдатель на больших расстояниях видит уже не условные связи, а устойчивое распределение — маргинальные вероятности, не зависящие от локального контекста.
Буквы тянут друг друга только вблизи, дальше они независимы — как электроны, которые на большом расстоянии уже не чувствуют ядра
👍5🔥2🤔1
🧬 Ранговый токенизатор: переход из каменного века в эпоху Просвещения
Чтобы написать этот пост, потребовалось больше двух месяцев.
Начнем с токенизатора — потом перейдём к эмбеддингам.
Ссылка на ранговый токенизатор и тестовые классические:
https://disk.yandex.ru/d/-HIuDpvjIeSG6Q
stat15_seg.py - файл для его сборки,
llm_tokeniz.py - грубая реализация без оптимизации
🧠 Что показал ранговый токенизатор
Ранговый токенизатор не просто подтвердил теорию ранговых асимметрий — он показал результат, которого сегодня не даёт ни один существующий токенизатор.
📊 Примеры обучения
1000 примеров, ранговый токенизатор
Размер словаря модели: ≈19 592
Продолжить: «Коты это животные, которые» → Генерация:
400 примеров, словарь ≈50 000
Продолжить: «Коты это» → Генерация:
4000 примеров, словарь ≈30 000
Продолжить: «Коты это»
при температуре 0.3 →
при температуре 0.7 →
📉 Для сравнения: обычный токенизатор (SentencePiece / WordPiece / BPE / Unigram)
На тех же 1000 примерах модель выдаёт бесконечный высокочастотный шум одиночных токенов (
Разница колоссальна.
Чтобы получить хотя бы близкий результат, современные токенизаторы требуют десятки тысяч примеров — и всё равно работают хуже.
💡 Что делает ранговый токенизатор
1. Определяет EOS (конец предложения) уже на 100–400 примерах, не уходя в бесконечную генерацию.
2. Начинает выстраивать грамматику при числе примеров < 1000.
3. Формирует слова из морфем (например, «что» = «ч» + «то»).
4. Быстрее переходит к смыслу, а не к частотной болтовне.
⚙️ Почему это работает
Ранговый словарь отражает энергетическую структуру распределения, а не простую частотность сегментов, как в BPE или Unigram.
Например, если «о» — самый частый символ, это не значит, что он получит ранг 1.
Наоборот — он часто становится внутренним элементом более сложных сегментов.
Рост диапазона β (от 0.5 до 2.0) расширяет словарь и выявляет иерархию уровней смысловой сборки — от фонем и морфем к словам и фразам.
🧩 Вывод
Уже на сотнях примеров токенизатор формирует внутреннюю грамматику, правильно расставляет знаки препинания и даже строит согласованные короткие фразы — то, что современные модели не делают без огромных датасетов.
Следующий шаг —показать эмбеддинги и объяснить формирование рангового пространства (токенизатора).
(о них — в следующих постах)
Чтобы написать этот пост, потребовалось больше двух месяцев.
Начнем с токенизатора — потом перейдём к эмбеддингам.
Ссылка на ранговый токенизатор и тестовые классические:
https://disk.yandex.ru/d/-HIuDpvjIeSG6Q
stat15_seg.py - файл для его сборки,
llm_tokeniz.py - грубая реализация без оптимизации
🧠 Что показал ранговый токенизатор
Ранговый токенизатор не просто подтвердил теорию ранговых асимметрий — он показал результат, которого сегодня не даёт ни один существующий токенизатор.
📊 Примеры обучения
1000 примеров, ранговый токенизатор
Размер словаря модели: ≈19 592
Продолжить: «Коты это животные, которые» → Генерация:
", что уже и уже теперь, что"400 примеров, словарь ≈50 000
Продолжить: «Коты это» → Генерация:
" я"4000 примеров, словарь ≈30 000
Продолжить: «Коты это»
при температуре 0.3 →
" дуда ду,"при температуре 0.7 →
" друго его мыся меня ти глю."📉 Для сравнения: обычный токенизатор (SentencePiece / WordPiece / BPE / Unigram)
На тех же 1000 примерах модель выдаёт бесконечный высокочастотный шум одиночных токенов (
что - здесь это один токен):Коты это животные, которые, –, и не, что, –, – и, и, –, что, и, и, и, и, и, и...Разница колоссальна.
Чтобы получить хотя бы близкий результат, современные токенизаторы требуют десятки тысяч примеров — и всё равно работают хуже.
💡 Что делает ранговый токенизатор
1. Определяет EOS (конец предложения) уже на 100–400 примерах, не уходя в бесконечную генерацию.
2. Начинает выстраивать грамматику при числе примеров < 1000.
3. Формирует слова из морфем (например, «что» = «ч» + «то»).
4. Быстрее переходит к смыслу, а не к частотной болтовне.
⚙️ Почему это работает
Ранговый словарь отражает энергетическую структуру распределения, а не простую частотность сегментов, как в BPE или Unigram.
Например, если «о» — самый частый символ, это не значит, что он получит ранг 1.
Наоборот — он часто становится внутренним элементом более сложных сегментов.
Рост диапазона β (от 0.5 до 2.0) расширяет словарь и выявляет иерархию уровней смысловой сборки — от фонем и морфем к словам и фразам.
🧩 Вывод
Уже на сотнях примеров токенизатор формирует внутреннюю грамматику, правильно расставляет знаки препинания и даже строит согласованные короткие фразы — то, что современные модели не делают без огромных датасетов.
Следующий шаг —показать эмбеддинги и объяснить формирование рангового пространства (токенизатора).
(о них — в следующих постах)
🔥12