iFlexible

Сейчас готовлю пример инициализации эмбеддингов (идет сбор статистики). Хочется на нем сразу решить еще две проблемы - симметрии (вырожденности) и ограниченности роста, но о них позже.
Поэтому пока начну с простого, но не менее интересного вывода из теорем.

Что показывает этот результат на графиках?

Мы обнаружили, что условная вероятность появления буквы имеет ограниченную длину корреляции.
Марковская цепь, как известно, описывается через условные вероятности P(a∣b).

Анализ показывает, что при расстоянии d>20 между символами условная вероятность P(a∣b,d) становится неотличимой от произведения маргинальных вероятностей P(a)⋅P(b). Более того, P(a∣b,d) и P(b∣a,d) на таких дистанциях полностью совпадают, образуя почти идеальную горизонтальную прямую на графике.

Это означает, что на уровне букв цепь теряет память — структура связи разрывается, и мы не можем восстановить зависимость между символами на основе их удалённых позиций. Иными словами, P(a∣b) перестаёт нести дополнительную информацию об "a" по сравнению с P(a).

Следовательно, долгосрочные зависимости текста должны проявляться не на уровне букв, а на более высоком уровне — например, на уровне слов, фраз или тем. Это наводит на мысль, что адекватное описание текста требует иерархической модели, где короткие марковские связи описывают локальные зависимости, а более длинные связи задаются “верхними уровнями” структуры текста.

Если бы подобное исследование было выполнено раньше и сделаны такие выводы, это стало бы отправной точкой для изучения точек разрыва (бифуркаций) в марковских цепях. Вслед за этим естественным шагом было бы создание полноценной теории иерархии данных. В таком случае ранговая теория могла бы появиться значительно раньше — и её не пришлось бы строить с нуля.

Меня особенно поразило, что я не нашёл ни одной публикации, где бы кто-то просто собрал и визуализировал частотность пар на разных расстояниях.
Практически все работы ограничиваются вычислением взаимной информации, энтропии или других интегральных показателей — но никто не показал саму “сырую картину”.
Это напоминает мне моё более раннее наблюдение об артикуляции речи:
https://t.me/greenruff/2035
я тогда предположил, что даже во время паузы между звуками артикуляторы движутся к следующей точке, из которой будет формироваться новый звук. И тоже оказалось, что никто до этого не исследовал такую базовую вещь.

Интересно, что это поведение вероятностей напоминает физику.
Как электроны в атоме, которые образуют устойчивые уровни на фиксированных энергетических оболочках, так и вероятности букв переходят на “устойчивый уровень” после выхода за радиус действия условных зависимостей. Наблюдатель на больших расстояниях видит уже не условные связи, а устойчивое распределение — маргинальные вероятности, не зависящие от локального контекста.

Буквы тянут друг друга только вблизи, дальше они независимы — как электроны, которые на большом расстоянии уже не чувствуют ядра

👍5🔥2🤔1

641 views16:01

iFlexible

🧬 Ранговый токенизатор: переход из каменного века в эпоху Просвещения

Чтобы написать этот пост, потребовалось больше двух месяцев.
Начнем с токенизатора — потом перейдём к эмбеддингам.

Ссылка на ранговый токенизатор и тестовые классические:
https://disk.yandex.ru/d/-HIuDpvjIeSG6Q
stat15_seg.py - файл для его сборки,
llm_tokeniz.py - грубая реализация без оптимизации

🧠 Что показал ранговый токенизатор

Ранговый токенизатор не просто подтвердил теорию ранговых асимметрий — он показал результат, которого сегодня не даёт ни один существующий токенизатор.

📊 Примеры обучения

1000 примеров, ранговый токенизатор
Размер словаря модели: ≈19 592
Продолжить: «Коты это животные, которые» → Генерация: ", что уже и уже теперь, что"

400 примеров, словарь ≈50 000
Продолжить: «Коты это» → Генерация: " я"

4000 примеров, словарь ≈30 000
Продолжить: «Коты это»

при температуре 0.3 → " дуда ду,"
при температуре 0.7 → " друго его мыся меня ти глю."

📉 Для сравнения: обычный токенизатор (SentencePiece / WordPiece / BPE / Unigram)

На тех же 1000 примерах модель выдаёт бесконечный высокочастотный шум одиночных токенов (что - здесь это один токен):

Коты это животные, которые, –, и не, что, –, – и, и, –, что, и, и, и, и, и, и...

Разница колоссальна.
Чтобы получить хотя бы близкий результат, современные токенизаторы требуют десятки тысяч примеров — и всё равно работают хуже.

💡 Что делает ранговый токенизатор

1. Определяет EOS (конец предложения) уже на 100–400 примерах, не уходя в бесконечную генерацию.
2. Начинает выстраивать грамматику при числе примеров < 1000.
3. Формирует слова из морфем (например, «что» = «ч» + «то»).
4. Быстрее переходит к смыслу, а не к частотной болтовне.

⚙️ Почему это работает

Ранговый словарь отражает энергетическую структуру распределения, а не простую частотность сегментов, как в BPE или Unigram.

Например, если «о» — самый частый символ, это не значит, что он получит ранг 1.
Наоборот — он часто становится внутренним элементом более сложных сегментов.

Рост диапазона β (от 0.5 до 2.0) расширяет словарь и выявляет иерархию уровней смысловой сборки — от фонем и морфем к словам и фразам.

🧩 Вывод

Уже на сотнях примеров токенизатор формирует внутреннюю грамматику, правильно расставляет знаки препинания и даже строит согласованные короткие фразы — то, что современные модели не делают без огромных датасетов.

Следующий шаг —показать эмбеддинги и объяснить формирование рангового пространства (токенизатора).
(о них — в следующих постах)

🔥12

402 views11:44

iFlexible

🚀 Результаты серии экспериментов по обучению моделей на ранговой архитектуре

За последнюю неделю я провёл серию тестов (для проверки ряда теорем) по обучению LLM-модели на крайне малом датасете (всего 1000 примеров) с использованием рангового токенизатора, ранговой теории и нескольких типов архитектурных модификаций.

🔥 Главный результат
Вариант №4 дал беспрецедентный результат.

Условия варианта 4:

• ранговый токенизатор
• 1000 примеров, 4 эпохи
• Постепенное включение блоков (по одному блоку на эпоху)
• Все ранее активированные блоки продолжают обучаться
• Присутствуют дальние skip-connections
• Embedding-слой пробрасывается во все блоки

📌 Именно эта архитектура впервые показала формирование настоящей структуры языка:

• появление морфологии
• соблюдение пунктуации
• предложения с заглавной буквы после точки
• стабильные слова ("что", "уже", "я", "он")
• формирование простых смысловых цепочек ("Да я что и что он?")

Примеры генерации (без очистки):

«Мо на свое ее и ноа это Ой.... Да я что и что он?, не что не уже с шу, за и его и это запей»

«Он и как наде глазычо и я и на не за за. По что луго ужо для,»

«что его Гшу, в боль, что уже и не отчу, что за что за и не за за ужо любя..»

«Пой и что же изиво... Выал зее самы, свое, что така и с своеюбязя, что с ужо отчя»

Да, это ещё не русский язык, но это структура языка, грамматический каркас, связность, морфология и внутренняя логика.

И всё это при скрытом слое большого размера (что усложняет обучение), на 1000 примеров.

🧠 Почему это работает

Использование предсказания ранговой теории, включая:

• Ранговую стоимость и ранговое распределение

Правила токенизации создают пространство, где ранги и их стоимость соответствуют формальному описанию в теории.
Формируются точки излома, которые и становятся основой для сегментации информации.

• Постепенное включение блоков

Теорема о доминирующих уровнях и бифуркациях предсказывает, что система должна строить структуру снизу вверх:
- сначала базовые статистические зависимости, затем локальные максимумы смысла.

Активация блоков по одному создаёт архитектурный аналог иерархической бифуркации.

• Skip-connections между блоками

Дальние skip-connections полностью соответствуют требованию теории о сохранении ранговых структур между уровнями.

Результат: модель выстраивает иерархическую систему локальных максимумов, которая по теореме 5.3 и 5.4 приводит к появлению устойчивых языковых паттернов.

• Skip-connection от эмбеддингов к блокам

В ранговой теории embeddings — это геометрическое отображение ранговой стоимости, точек излома и локальных максимумов. Skip-connection делает так, что каждый уровень иерархии напрямую влияет на это отображение.

• нормы → отражение ранговой стоимости
• расположение кластеров → отражение точек излома
• углы → отражение взаимной информации
• дальность → отражение уровня доминации
• плотность → отражение локальной энтропии

Без этого модель:

• остаётся в раннем «шумовом» режиме
• не может стабилизировать доминирующие-группы
• не фиксирует промежуточные максимумы I(X;Y)

Низкоуровневая грамматика формируется и без skip-connection, но смысловые группы требуют глобального уровня доминации

⚖️ Сравнение с классическими LLM

На тех же параметрах архитектуры:

• столько же слоёв и голов
• такой же размер скрытого слоя
• тот же объём данных: 1000 примеров

Классические трансформеры НЕ могут сформировать:

• морфологию
• синтаксис
• пунктуацию
• связность
• и даже стабильные слова

Их генерация на 1000 примерах — это высокочастотный шум, бесконечные повторения и полное отсутствие структуры.

На сегодняшний день нет известных исследований, где классический LLM смог бы приблизиться к такому результату при таких условиях.

А ранговая архитектура дала такой результат впервые в мире.

Код и результаты других тестов ниже:
https://disk.yandex.ru/d/zWiEmA_17PCdHA

🔥6

393 views06:06

About

Blog

Apps

Platform