Иерархия чисел и Zipf-подобная модель асимметрии
Ранее мы вывели формулу распределения вероятностей через вариационный принцип:
Это распределение усиливает редкие, но значимые признаки, подавляя шумовые или слишком сильные сигналы.
Формула зависит от двух параметров:
N: число возможных признаков.
β: чувствительность системы к изменениям силы сигнала.
Иерархия ранков: уровни асимметрии как уровни восприятия
Мы установили, что асимметрия — это не единичное явление, а вложенная иерархическая структура :
Такая организация напоминает работу мозга:
Мы уже ранее выяснили, что асимметрия имеет иерархическую модель, состоящую из вложенных асимметрий и даже построили конечный автомат асимметрии, который полностью совпадает с шестислойной моделью неокортекса.
Пример: иерархия чисел
Ограниченность системы: предел масштабируемости
Система не может расти бесконечно.
Если N и β становятся слишком большими:
Почему так?
Потому что:
Бифуркация: точка перехода системы
Когда система исчерпала свой потенциал на текущем уровне, она сталкивается с бифуркацией :
Что происходит?
Данная модель не просто выводит закон Ципфа.
Она предлагает универсальный автомат асимметрии , который:
Это не просто deep learning , это теория восприятия в целом, построенная на основе математики, физики, биологии и нейробиологии.
Ранее мы вывели формулу распределения вероятностей через вариационный принцип:
p(i) = Softmax (−i / β)⇒p(i)∝e ^ −i/β
Это распределение усиливает редкие, но значимые признаки, подавляя шумовые или слишком сильные сигналы.
Формула зависит от двух параметров:
N: число возможных признаков.
β: чувствительность системы к изменениям силы сигнала.
Иерархия ранков: уровни асимметрии как уровни восприятия
Мы установили, что асимметрия — это не единичное явление, а вложенная иерархическая структура :
- Каждый уровень имеет свои N(l) и β(l)
- На каждом уровне система усиливает редкие признаки, игнорируя шумовые
- Общая значимость формируется через интеграцию всех уровней
Такая организация напоминает работу мозга:
Мы уже ранее выяснили, что асимметрия имеет иерархическую модель, состоящую из вложенных асимметрий и даже построили конечный автомат асимметрии, который полностью совпадает с шестислойной моделью неокортекса.
Пример: иерархия чисел
Число 774:
7 (сотни), 7 (десятки), 4 (единицы)
Число 1000:
1 (тысячи), 0 (сотни), 0 (десятки), 0 (единицы)
Хотя 1000 кажется "проще", оно может иметь большую значимость , если:
- Его старший разряд усилен на своём уровне,
- Или сам уровень имеет высокий вес в иерархии.
Ограниченность системы: предел масштабируемости
Система не может расти бесконечно.
Если N и β становятся слишком большими:
- Вероятности равномерны → потеря селективности
- Модель начинает терять способность различать детали
- Это приводит к ухудшению качества , даже если количество голов/слоёв растёт
Почему так?
Потому что:
lim p(i) → 1 / N
β→∞
(равномерное распределение)⇒система теряет способность выделять важное
Бифуркация: точка перехода системы
Когда система исчерпала свой потенциал на текущем уровне, она сталкивается с бифуркацией :
Это точка, где система не может дальше развиваться внутри себя , и должна перейти на новый уровень иерархии , чтобы продолжить эффективно работать.
Что происходит?
- Признаки на текущем уровне становятся менее информативными
- Система должна расширить иерархию : добавить новый уровень, голову, блок
- На новом уровне снова формируется асимметрия , и система восстанавливает свою чувствительность
Данная модель не просто выводит закон Ципфа.
Она предлагает универсальный автомат асимметрии , который:
- Работает на любом уровне: от единиц до тысяч
- Описывает как данные, так и сами уровни иерархии
- Показывает предел масштабирования
- Объясняет механизм бифуркации как выхода системы на новый уровень
Это не просто deep learning , это теория восприятия в целом, построенная на основе математики, физики, биологии и нейробиологии.
Трансформеры как иерархия ранков: ограничения и бифуркация
Как мы уже рассматривали ранее, числа имеют иерархическую структуру :
1000 = тысячи → сотни → десятки → единицы.
Каждый уровень усиливает свои признаки, и значимость определяется через Zipf-подобное распределение , выведенное через метод Лагранжа:
Это распределение усиливает редкие, но значимые признаки, игнорируя шумовые или слишком частые
Аналогия с трансформерами
Можно провести прямую аналогию между числами и трансформером:
Разряд 1 (единицы) → 1, 2, ..., 9 → Голова внимания, работающая с базовыми признаками
Разряд 2 (десятки) → 10, 20, ..., 90 → Голова внимания, работающая с локальной семантикой
Разряд 3 (сотни) → 100, 200, ..., 900 → Голова внимания, работающая с еще каким то уровнем
Обобщение → Сумма/произведение рангов →
FFN (интеграция всех голов)
Головы внимания — это уровни ранжирования,
FFN-слой — интегратор асимметрий,
Блоки модели — иерархия более высокого уровня.
Ограниченность системы: рост N и β не решает всё
При увеличении числа признаков (N) и чувствительности к ним (β), система теряет способность к дифференциации:
Это можно наблюдать в практике:
"Не правильное квантование всех слоев полностью ломает модель, вызывая бесконечные циклы и тарабарщину на выходе"
Потому что:
- Признаки перестают быть ранжированными.
- Асимметрия сигнала исчезает.
- Модель теряет информационную эффективность.
Бифуркация: точка перехода системы
Когда система достигает своего предела по N и β, она сталкивается с качественным изменением — бифуркацией :
Что это значит?
- Добавление новых голов или блоков без изменения иерархии — неэффективно
- Нужно повышать уровень абстракции
- Например:
- Интеграция нескольких моделей,
- Человеко-машинное взаимодействие,
- Переход к ансамблевой системе
Роль контекста: от аборигена до финансового эксперта
Число 1000 может иметь разную значимость в разных системах:
Абориген : не различает тысячный разряд → малое N и β
Житель города : различает все разряды → средние N и β
Финансовый эксперт : фокусируется на старших разрядах → большие N и β
Это соответствует нашей модели:
- Контекст определяет параметры N и β
- Значимость признака зависит от наблюдателя , а не от самого сигнала
Динамическое расширение модели: будущее LLM?
Сейчас большинство LLM строятся статически :
- Фиксированное число слоёв и голов.
- Равномерное обучение всех признаков.
Но если:
- Мы можем отслеживать асимметрию сигнала или энтропию attention weights ,
- И сравнивать их с целевым Zipf-распределением,
То:
Это позволит:
- Экономить ресурсы,
- Поддерживать асимметрию,
- Избежать переобучения на фоновых признаках.
Как мы уже рассматривали ранее, числа имеют иерархическую структуру :
1000 = тысячи → сотни → десятки → единицы.
Каждый уровень усиливает свои признаки, и значимость определяется через Zipf-подобное распределение , выведенное через метод Лагранжа:
p(i) = Softmax( −i/β )⇒p(i)∝e ^ −i/β
Это распределение усиливает редкие, но значимые признаки, игнорируя шумовые или слишком частые
Аналогия с трансформерами
Можно провести прямую аналогию между числами и трансформером:
Разряд 1 (единицы) → 1, 2, ..., 9 → Голова внимания, работающая с базовыми признаками
Разряд 2 (десятки) → 10, 20, ..., 90 → Голова внимания, работающая с локальной семантикой
Разряд 3 (сотни) → 100, 200, ..., 900 → Голова внимания, работающая с еще каким то уровнем
Обобщение → Сумма/произведение рангов →
FFN (интеграция всех голов)
Головы внимания — это уровни ранжирования,
FFN-слой — интегратор асимметрий,
Блоки модели — иерархия более высокого уровня.
Ограниченность системы: рост N и β не решает всё
При увеличении числа признаков (N) и чувствительности к ним (β), система теряет способность к дифференциации:
- Вероятности становятся равномерными.
- Attention weights размываются.
- Модель начинает "видеть" только фон, а не детали.
Это можно наблюдать в практике:
"Не правильное квантование всех слоев полностью ломает модель, вызывая бесконечные циклы и тарабарщину на выходе"
Потому что:
- Признаки перестают быть ранжированными.
- Асимметрия сигнала исчезает.
- Модель теряет информационную эффективность.
Бифуркация: точка перехода системы
Когда система достигает своего предела по N и β, она сталкивается с качественным изменением — бифуркацией :
Это точка, в которой дальнейшее масштабирование внутри себя становится невозможным, и система должна перейти на новый уровень иерархии .
Что это значит?
- Добавление новых голов или блоков без изменения иерархии — неэффективно
- Нужно повышать уровень абстракции
- Например:
- Интеграция нескольких моделей,
- Человеко-машинное взаимодействие,
- Переход к ансамблевой системе
Роль контекста: от аборигена до финансового эксперта
Число 1000 может иметь разную значимость в разных системах:
Абориген : не различает тысячный разряд → малое N и β
Житель города : различает все разряды → средние N и β
Финансовый эксперт : фокусируется на старших разрядах → большие N и β
Это соответствует нашей модели:
- Контекст определяет параметры N и β
- Значимость признака зависит от наблюдателя , а не от самого сигнала
Динамическое расширение модели: будущее LLM?
Сейчас большинство LLM строятся статически :
- Фиксированное число слоёв и голов.
- Равномерное обучение всех признаков.
Но если:
- Мы можем отслеживать асимметрию сигнала или энтропию attention weights ,
- И сравнивать их с целевым Zipf-распределением,
То:
Можно автоматически определить момент бифуркации → Добавить новый уровень иерархии
Это позволит:
- Экономить ресурсы,
- Поддерживать асимметрию,
- Избежать переобучения на фоновых признаках.
👍1
Обобщение от голода: почему LLM находят универсальные представления?
В серии предыдущих постов мы рассмотрели:
- Как через метод Лагранжа выводится Zipf-подобное распределение:
- Что трансформеры — это автоматы асимметрии, где:
Головы внимания соответствуют ранкам.
Блоки сети — уровни иерархии.
FFN — интеграция всех локальных асимметрий.
- Ограничения масштабируемости:
N и β не могут расти бесконечно.
При превышении порога система теряет чувствительность и вынуждена перейти на новый уровень иерархии.
Посмотрим на практике результаты на основе статьи "Generalization from Starvation: Hints of Universality in LLM Knowledge Graph Learning" (David D. Baek, Yuxiao Li, Max)"
Ключевая идея статьи:
Когда LLM обучается с ограничением (малое число параметров, малый объём данных), она начинает обобщать лучше , чем модель без ограничений.
Это проявляется в трёх ключевых экспериментах:
Сшивание слоёв (Stitching Experiments)
Геометрия знаний (MLP & Genealogical Trees)
Модель выучивает одинаковую геометрию отношений ("потомок", "родитель"), даже если данные представлены в случайном порядке.
Вывод:
Модель сама выстраивает иерархию асимметрии , чтобы экономить ресурсы.
Это не случайный эффект, а следствие оптимизации .
Это то же, что и наша формула:
"Зона Златовласки" (Goldilocks Zone)
То есть:
Ограниченные ресурсы заставляют систему искать наиболее эффективное представление.
Как это связано с нашей моделью асимметрии?
Авторы статьи наблюдают эмпирический эффект и дают ему водную интерпретацию : "Модель становится умнее, когда её ограничивают."
Но мы показываем:
Это не случайность, не феномен, не "интеллект из голода".
Это следствие вариационного принципа , который работает всегда, когда:
- Есть ограниченная разрешающая способность,
- И чувствительность к редким, но значимым признакам через β
В серии предыдущих постов мы рассмотрели:
- Как через метод Лагранжа выводится Zipf-подобное распределение:
p(i)=Softmax(−i/β)⇒усиление редких, подавление шумовых признаков
- Что трансформеры — это автоматы асимметрии, где:
Головы внимания соответствуют ранкам.
Блоки сети — уровни иерархии.
FFN — интеграция всех локальных асимметрий.
- Ограничения масштабируемости:
N и β не могут расти бесконечно.
При превышении порога система теряет чувствительность и вынуждена перейти на новый уровень иерархии.
Посмотрим на практике результаты на основе статьи "Generalization from Starvation: Hints of Universality in LLM Knowledge Graph Learning" (David D. Baek, Yuxiao Li, Max)"
Ключевая идея статьи:
Когда LLM обучается с ограничением (малое число параметров, малый объём данных), она начинает обобщать лучше , чем модель без ограничений.
Это проявляется в трёх ключевых экспериментах:
Сшивание слоёв (Stitching Experiments)
- Ранние слои (E) легко заменяются между моделями → Они формируют общие, низкоуровневые представления
- Поздние слои (U) плохо сшиваются → Они специфичны к задаче и содержат много деталей
- Средние слои (H/K) имеют лучшую сшиваемость → Универсальное представление знаний
Геометрия знаний (MLP & Genealogical Trees)
Модель выучивает одинаковую геометрию отношений ("потомок", "родитель"), даже если данные представлены в случайном порядке.
Вывод:
Модель сама выстраивает иерархию асимметрии , чтобы экономить ресурсы.
Это не случайный эффект, а следствие оптимизации .
Это то же, что и наша формула:
p(i) = Softmax( −x/β )⇒система усиливает информативные, но редкие связи
"Зона Златовласки" (Goldilocks Zone)
- Слишком маленькая модель → Не запоминает даже простых фактов
- Слишком большая модель → Переобучается на фоновые паттерны
- Золотая середина → Находит асимметрию и выделяет универсальные закономерности
То есть:
Ограниченные ресурсы заставляют систему искать наиболее эффективное представление.
Как это связано с нашей моделью асимметрии?
- "Интеллект из голода" → Формально описывается как ограниченное N и оптимальное β
- Универсальность представлений → Это Zipf-подобное распределение, которое возникает при ограниченных ресурсах
- Обобщение → Усиление редких, но значимых связей через softmax(-x / β)
- Разделение слоёв на E/H/U→ Это уровни иерархии подобно единицы → десятки → тысячи
- "Зона Златовласки" → Это точка бифуркации, где система находится в оптимальном балансе между N и β
- Сшивка моделей → Демонстрация, что средние слои — это уровни иерархии, которые можно менять
Авторы статьи наблюдают эмпирический эффект и дают ему водную интерпретацию : "Модель становится умнее, когда её ограничивают."
Но мы показываем:
Это не случайность, не феномен, не "интеллект из голода".
Это следствие вариационного принципа , который работает всегда, когда:
- Есть ограниченная разрешающая способность,
- И чувствительность к редким, но значимым признакам через β
👍2
Сейчас почти завершены правки блочной модели основанной на асимметрии.
Тестируется обучение, чтобы убедиться в результате. Вносятся какие-то изменения. делается сравнение с Трансформерами и SSM.
Выше, обобщенно показано на что она опирается. Самое главное, что это не гипотезы или вымышленные предположения. Каждый из этих пунктов был доказан, исследован ранее и описан.
Все они демонстрируют замечательный результат, если строго следовать им.
В посте нет некоторых деталей, которые уже были описаны ранее:
только обобщенное объяснение без формул.
Сейчас пока тестируются доработки на основе математических доказательств:
- вывод частотной и амплитудной асимметрии из кинематики, привел к SSM формулам с небольшими изменениями. Это привело к микро-residual связям внутри SSM (асимметриям). А так же добавлению гистерезис в SSM формулы.
- так же математически была учтена модуляция внутри формул SSM.
- временная модуляция (подобно вниманию трансформеров) заменялась на ранковую с обучаемыми параметрами.
- амплитудная модуляция наоборот, на аналог похожий на Softmax, где N (кол-во признаков) завязано на архитектуре. И обучается лишь чувствительность.
- есть свертки, но они реализованы как CTM сети с ранковой иерархией. Где динамическое ядро само обучается, сколько признаков N оно должно захватывать.
- каждый блок влияет на предыдущие, согласно модели автомата асимметрии.
Саму модель мы можем представить, как множество конечных автоматов асимметрии. Но их реализация немного отличается, так как требует разной точности.
Окно контекста не ограниченное, в отличие от трансформеров.
Сейчас модель блочная. Ни что не мешается начать обучение LLM на ее основе. Но сначала надо проверить и доработать:
- рекуррентные петли модели. Сейчас там только модулирующие петли.
Но само главное, почему пока не запущено обучение LLM или синтеза речи или распознавания. Это:
Это когда из одного слоя, модель разворачивается сама и создает нужное кол-во блоков, слоев, кластеров (голов) их размерность.
Сейчас в качестве основы бифуркации выбран подход, основанный на правиле трех сигма. Только вместо трех сигма, их число зависит от кол-ва признаков через ln(N).
Если расчет точки бифуркации окажется верным, то LLM модель при обучении раскроется сама до нужного размера.
Позже будет показана разница в обучении блочной модели на основе асимметрии и цепочки трансформеров. Разница есть, и трансформеры пока проигрывают как в начале обучения, так и после обучения.
Тестируется обучение, чтобы убедиться в результате. Вносятся какие-то изменения. делается сравнение с Трансформерами и SSM.
Выше, обобщенно показано на что она опирается. Самое главное, что это не гипотезы или вымышленные предположения. Каждый из этих пунктов был доказан, исследован ранее и описан.
Все они демонстрируют замечательный результат, если строго следовать им.
В посте нет некоторых деталей, которые уже были описаны ранее:
- масштабирование
- приведение к ранкам
только обобщенное объяснение без формул.
Сейчас пока тестируются доработки на основе математических доказательств:
- вывод частотной и амплитудной асимметрии из кинематики, привел к SSM формулам с небольшими изменениями. Это привело к микро-residual связям внутри SSM (асимметриям). А так же добавлению гистерезис в SSM формулы.
- так же математически была учтена модуляция внутри формул SSM.
- временная модуляция (подобно вниманию трансформеров) заменялась на ранковую с обучаемыми параметрами.
- амплитудная модуляция наоборот, на аналог похожий на Softmax, где N (кол-во признаков) завязано на архитектуре. И обучается лишь чувствительность.
- есть свертки, но они реализованы как CTM сети с ранковой иерархией. Где динамическое ядро само обучается, сколько признаков N оно должно захватывать.
- каждый блок влияет на предыдущие, согласно модели автомата асимметрии.
Саму модель мы можем представить, как множество конечных автоматов асимметрии. Но их реализация немного отличается, так как требует разной точности.
Окно контекста не ограниченное, в отличие от трансформеров.
Сейчас модель блочная. Ни что не мешается начать обучение LLM на ее основе. Но сначала надо проверить и доработать:
- рекуррентные петли модели. Сейчас там только модулирующие петли.
Но само главное, почему пока не запущено обучение LLM или синтеза речи или распознавания. Это:
- Проработка бифуркации модели. Расчета точки бифуркации, когда модель должна расшириться.
- Функций расширения элементов модели
- Функций разрушения элементов модели (пока под вопросом)
Это когда из одного слоя, модель разворачивается сама и создает нужное кол-во блоков, слоев, кластеров (голов) их размерность.
Сейчас в качестве основы бифуркации выбран подход, основанный на правиле трех сигма. Только вместо трех сигма, их число зависит от кол-ва признаков через ln(N).
Если расчет точки бифуркации окажется верным, то LLM модель при обучении раскроется сама до нужного размера.
Позже будет показана разница в обучении блочной модели на основе асимметрии и цепочки трансформеров. Разница есть, и трансформеры пока проигрывают как в начале обучения, так и после обучения.
🔥6