Трансформеры как иерархия ранков: ограничения и бифуркация
Как мы уже рассматривали ранее, числа имеют иерархическую структуру :
1000 = тысячи → сотни → десятки → единицы.
Каждый уровень усиливает свои признаки, и значимость определяется через Zipf-подобное распределение , выведенное через метод Лагранжа:
Это распределение усиливает редкие, но значимые признаки, игнорируя шумовые или слишком частые
Аналогия с трансформерами
Можно провести прямую аналогию между числами и трансформером:
Разряд 1 (единицы) → 1, 2, ..., 9 → Голова внимания, работающая с базовыми признаками
Разряд 2 (десятки) → 10, 20, ..., 90 → Голова внимания, работающая с локальной семантикой
Разряд 3 (сотни) → 100, 200, ..., 900 → Голова внимания, работающая с еще каким то уровнем
Обобщение → Сумма/произведение рангов →
FFN (интеграция всех голов)
Головы внимания — это уровни ранжирования,
FFN-слой — интегратор асимметрий,
Блоки модели — иерархия более высокого уровня.
Ограниченность системы: рост N и β не решает всё
При увеличении числа признаков (N) и чувствительности к ним (β), система теряет способность к дифференциации:
Это можно наблюдать в практике:
"Не правильное квантование всех слоев полностью ломает модель, вызывая бесконечные циклы и тарабарщину на выходе"
Потому что:
- Признаки перестают быть ранжированными.
- Асимметрия сигнала исчезает.
- Модель теряет информационную эффективность.
Бифуркация: точка перехода системы
Когда система достигает своего предела по N и β, она сталкивается с качественным изменением — бифуркацией :
Что это значит?
- Добавление новых голов или блоков без изменения иерархии — неэффективно
- Нужно повышать уровень абстракции
- Например:
- Интеграция нескольких моделей,
- Человеко-машинное взаимодействие,
- Переход к ансамблевой системе
Роль контекста: от аборигена до финансового эксперта
Число 1000 может иметь разную значимость в разных системах:
Абориген : не различает тысячный разряд → малое N и β
Житель города : различает все разряды → средние N и β
Финансовый эксперт : фокусируется на старших разрядах → большие N и β
Это соответствует нашей модели:
- Контекст определяет параметры N и β
- Значимость признака зависит от наблюдателя , а не от самого сигнала
Динамическое расширение модели: будущее LLM?
Сейчас большинство LLM строятся статически :
- Фиксированное число слоёв и голов.
- Равномерное обучение всех признаков.
Но если:
- Мы можем отслеживать асимметрию сигнала или энтропию attention weights ,
- И сравнивать их с целевым Zipf-распределением,
То:
Это позволит:
- Экономить ресурсы,
- Поддерживать асимметрию,
- Избежать переобучения на фоновых признаках.
Как мы уже рассматривали ранее, числа имеют иерархическую структуру :
1000 = тысячи → сотни → десятки → единицы.
Каждый уровень усиливает свои признаки, и значимость определяется через Zipf-подобное распределение , выведенное через метод Лагранжа:
p(i) = Softmax( −i/β )⇒p(i)∝e ^ −i/β
Это распределение усиливает редкие, но значимые признаки, игнорируя шумовые или слишком частые
Аналогия с трансформерами
Можно провести прямую аналогию между числами и трансформером:
Разряд 1 (единицы) → 1, 2, ..., 9 → Голова внимания, работающая с базовыми признаками
Разряд 2 (десятки) → 10, 20, ..., 90 → Голова внимания, работающая с локальной семантикой
Разряд 3 (сотни) → 100, 200, ..., 900 → Голова внимания, работающая с еще каким то уровнем
Обобщение → Сумма/произведение рангов →
FFN (интеграция всех голов)
Головы внимания — это уровни ранжирования,
FFN-слой — интегратор асимметрий,
Блоки модели — иерархия более высокого уровня.
Ограниченность системы: рост N и β не решает всё
При увеличении числа признаков (N) и чувствительности к ним (β), система теряет способность к дифференциации:
- Вероятности становятся равномерными.
- Attention weights размываются.
- Модель начинает "видеть" только фон, а не детали.
Это можно наблюдать в практике:
"Не правильное квантование всех слоев полностью ломает модель, вызывая бесконечные циклы и тарабарщину на выходе"
Потому что:
- Признаки перестают быть ранжированными.
- Асимметрия сигнала исчезает.
- Модель теряет информационную эффективность.
Бифуркация: точка перехода системы
Когда система достигает своего предела по N и β, она сталкивается с качественным изменением — бифуркацией :
Это точка, в которой дальнейшее масштабирование внутри себя становится невозможным, и система должна перейти на новый уровень иерархии .
Что это значит?
- Добавление новых голов или блоков без изменения иерархии — неэффективно
- Нужно повышать уровень абстракции
- Например:
- Интеграция нескольких моделей,
- Человеко-машинное взаимодействие,
- Переход к ансамблевой системе
Роль контекста: от аборигена до финансового эксперта
Число 1000 может иметь разную значимость в разных системах:
Абориген : не различает тысячный разряд → малое N и β
Житель города : различает все разряды → средние N и β
Финансовый эксперт : фокусируется на старших разрядах → большие N и β
Это соответствует нашей модели:
- Контекст определяет параметры N и β
- Значимость признака зависит от наблюдателя , а не от самого сигнала
Динамическое расширение модели: будущее LLM?
Сейчас большинство LLM строятся статически :
- Фиксированное число слоёв и голов.
- Равномерное обучение всех признаков.
Но если:
- Мы можем отслеживать асимметрию сигнала или энтропию attention weights ,
- И сравнивать их с целевым Zipf-распределением,
То:
Можно автоматически определить момент бифуркации → Добавить новый уровень иерархии
Это позволит:
- Экономить ресурсы,
- Поддерживать асимметрию,
- Избежать переобучения на фоновых признаках.
👍1
Обобщение от голода: почему LLM находят универсальные представления?
В серии предыдущих постов мы рассмотрели:
- Как через метод Лагранжа выводится Zipf-подобное распределение:
- Что трансформеры — это автоматы асимметрии, где:
Головы внимания соответствуют ранкам.
Блоки сети — уровни иерархии.
FFN — интеграция всех локальных асимметрий.
- Ограничения масштабируемости:
N и β не могут расти бесконечно.
При превышении порога система теряет чувствительность и вынуждена перейти на новый уровень иерархии.
Посмотрим на практике результаты на основе статьи "Generalization from Starvation: Hints of Universality in LLM Knowledge Graph Learning" (David D. Baek, Yuxiao Li, Max)"
Ключевая идея статьи:
Когда LLM обучается с ограничением (малое число параметров, малый объём данных), она начинает обобщать лучше , чем модель без ограничений.
Это проявляется в трёх ключевых экспериментах:
Сшивание слоёв (Stitching Experiments)
Геометрия знаний (MLP & Genealogical Trees)
Модель выучивает одинаковую геометрию отношений ("потомок", "родитель"), даже если данные представлены в случайном порядке.
Вывод:
Модель сама выстраивает иерархию асимметрии , чтобы экономить ресурсы.
Это не случайный эффект, а следствие оптимизации .
Это то же, что и наша формула:
"Зона Златовласки" (Goldilocks Zone)
То есть:
Ограниченные ресурсы заставляют систему искать наиболее эффективное представление.
Как это связано с нашей моделью асимметрии?
Авторы статьи наблюдают эмпирический эффект и дают ему водную интерпретацию : "Модель становится умнее, когда её ограничивают."
Но мы показываем:
Это не случайность, не феномен, не "интеллект из голода".
Это следствие вариационного принципа , который работает всегда, когда:
- Есть ограниченная разрешающая способность,
- И чувствительность к редким, но значимым признакам через β
В серии предыдущих постов мы рассмотрели:
- Как через метод Лагранжа выводится Zipf-подобное распределение:
p(i)=Softmax(−i/β)⇒усиление редких, подавление шумовых признаков
- Что трансформеры — это автоматы асимметрии, где:
Головы внимания соответствуют ранкам.
Блоки сети — уровни иерархии.
FFN — интеграция всех локальных асимметрий.
- Ограничения масштабируемости:
N и β не могут расти бесконечно.
При превышении порога система теряет чувствительность и вынуждена перейти на новый уровень иерархии.
Посмотрим на практике результаты на основе статьи "Generalization from Starvation: Hints of Universality in LLM Knowledge Graph Learning" (David D. Baek, Yuxiao Li, Max)"
Ключевая идея статьи:
Когда LLM обучается с ограничением (малое число параметров, малый объём данных), она начинает обобщать лучше , чем модель без ограничений.
Это проявляется в трёх ключевых экспериментах:
Сшивание слоёв (Stitching Experiments)
- Ранние слои (E) легко заменяются между моделями → Они формируют общие, низкоуровневые представления
- Поздние слои (U) плохо сшиваются → Они специфичны к задаче и содержат много деталей
- Средние слои (H/K) имеют лучшую сшиваемость → Универсальное представление знаний
Геометрия знаний (MLP & Genealogical Trees)
Модель выучивает одинаковую геометрию отношений ("потомок", "родитель"), даже если данные представлены в случайном порядке.
Вывод:
Модель сама выстраивает иерархию асимметрии , чтобы экономить ресурсы.
Это не случайный эффект, а следствие оптимизации .
Это то же, что и наша формула:
p(i) = Softmax( −x/β )⇒система усиливает информативные, но редкие связи
"Зона Златовласки" (Goldilocks Zone)
- Слишком маленькая модель → Не запоминает даже простых фактов
- Слишком большая модель → Переобучается на фоновые паттерны
- Золотая середина → Находит асимметрию и выделяет универсальные закономерности
То есть:
Ограниченные ресурсы заставляют систему искать наиболее эффективное представление.
Как это связано с нашей моделью асимметрии?
- "Интеллект из голода" → Формально описывается как ограниченное N и оптимальное β
- Универсальность представлений → Это Zipf-подобное распределение, которое возникает при ограниченных ресурсах
- Обобщение → Усиление редких, но значимых связей через softmax(-x / β)
- Разделение слоёв на E/H/U→ Это уровни иерархии подобно единицы → десятки → тысячи
- "Зона Златовласки" → Это точка бифуркации, где система находится в оптимальном балансе между N и β
- Сшивка моделей → Демонстрация, что средние слои — это уровни иерархии, которые можно менять
Авторы статьи наблюдают эмпирический эффект и дают ему водную интерпретацию : "Модель становится умнее, когда её ограничивают."
Но мы показываем:
Это не случайность, не феномен, не "интеллект из голода".
Это следствие вариационного принципа , который работает всегда, когда:
- Есть ограниченная разрешающая способность,
- И чувствительность к редким, но значимым признакам через β
👍2
Сейчас почти завершены правки блочной модели основанной на асимметрии.
Тестируется обучение, чтобы убедиться в результате. Вносятся какие-то изменения. делается сравнение с Трансформерами и SSM.
Выше, обобщенно показано на что она опирается. Самое главное, что это не гипотезы или вымышленные предположения. Каждый из этих пунктов был доказан, исследован ранее и описан.
Все они демонстрируют замечательный результат, если строго следовать им.
В посте нет некоторых деталей, которые уже были описаны ранее:
только обобщенное объяснение без формул.
Сейчас пока тестируются доработки на основе математических доказательств:
- вывод частотной и амплитудной асимметрии из кинематики, привел к SSM формулам с небольшими изменениями. Это привело к микро-residual связям внутри SSM (асимметриям). А так же добавлению гистерезис в SSM формулы.
- так же математически была учтена модуляция внутри формул SSM.
- временная модуляция (подобно вниманию трансформеров) заменялась на ранковую с обучаемыми параметрами.
- амплитудная модуляция наоборот, на аналог похожий на Softmax, где N (кол-во признаков) завязано на архитектуре. И обучается лишь чувствительность.
- есть свертки, но они реализованы как CTM сети с ранковой иерархией. Где динамическое ядро само обучается, сколько признаков N оно должно захватывать.
- каждый блок влияет на предыдущие, согласно модели автомата асимметрии.
Саму модель мы можем представить, как множество конечных автоматов асимметрии. Но их реализация немного отличается, так как требует разной точности.
Окно контекста не ограниченное, в отличие от трансформеров.
Сейчас модель блочная. Ни что не мешается начать обучение LLM на ее основе. Но сначала надо проверить и доработать:
- рекуррентные петли модели. Сейчас там только модулирующие петли.
Но само главное, почему пока не запущено обучение LLM или синтеза речи или распознавания. Это:
Это когда из одного слоя, модель разворачивается сама и создает нужное кол-во блоков, слоев, кластеров (голов) их размерность.
Сейчас в качестве основы бифуркации выбран подход, основанный на правиле трех сигма. Только вместо трех сигма, их число зависит от кол-ва признаков через ln(N).
Если расчет точки бифуркации окажется верным, то LLM модель при обучении раскроется сама до нужного размера.
Позже будет показана разница в обучении блочной модели на основе асимметрии и цепочки трансформеров. Разница есть, и трансформеры пока проигрывают как в начале обучения, так и после обучения.
Тестируется обучение, чтобы убедиться в результате. Вносятся какие-то изменения. делается сравнение с Трансформерами и SSM.
Выше, обобщенно показано на что она опирается. Самое главное, что это не гипотезы или вымышленные предположения. Каждый из этих пунктов был доказан, исследован ранее и описан.
Все они демонстрируют замечательный результат, если строго следовать им.
В посте нет некоторых деталей, которые уже были описаны ранее:
- масштабирование
- приведение к ранкам
только обобщенное объяснение без формул.
Сейчас пока тестируются доработки на основе математических доказательств:
- вывод частотной и амплитудной асимметрии из кинематики, привел к SSM формулам с небольшими изменениями. Это привело к микро-residual связям внутри SSM (асимметриям). А так же добавлению гистерезис в SSM формулы.
- так же математически была учтена модуляция внутри формул SSM.
- временная модуляция (подобно вниманию трансформеров) заменялась на ранковую с обучаемыми параметрами.
- амплитудная модуляция наоборот, на аналог похожий на Softmax, где N (кол-во признаков) завязано на архитектуре. И обучается лишь чувствительность.
- есть свертки, но они реализованы как CTM сети с ранковой иерархией. Где динамическое ядро само обучается, сколько признаков N оно должно захватывать.
- каждый блок влияет на предыдущие, согласно модели автомата асимметрии.
Саму модель мы можем представить, как множество конечных автоматов асимметрии. Но их реализация немного отличается, так как требует разной точности.
Окно контекста не ограниченное, в отличие от трансформеров.
Сейчас модель блочная. Ни что не мешается начать обучение LLM на ее основе. Но сначала надо проверить и доработать:
- рекуррентные петли модели. Сейчас там только модулирующие петли.
Но само главное, почему пока не запущено обучение LLM или синтеза речи или распознавания. Это:
- Проработка бифуркации модели. Расчета точки бифуркации, когда модель должна расшириться.
- Функций расширения элементов модели
- Функций разрушения элементов модели (пока под вопросом)
Это когда из одного слоя, модель разворачивается сама и создает нужное кол-во блоков, слоев, кластеров (голов) их размерность.
Сейчас в качестве основы бифуркации выбран подход, основанный на правиле трех сигма. Только вместо трех сигма, их число зависит от кол-ва признаков через ln(N).
Если расчет точки бифуркации окажется верным, то LLM модель при обучении раскроется сама до нужного размера.
Позже будет показана разница в обучении блочной модели на основе асимметрии и цепочки трансформеров. Разница есть, и трансформеры пока проигрывают как в начале обучения, так и после обучения.
🔥6
Этот пост для того, чтобы на него можно было ссылаться. Он показывает, как математически была расширена SSM.
Сначала были взяты формулы расчета асимметрии, которые до этого использовались в гистерезис. Задача была сделать нормально учет частотной асимметрии. Но формулы оказались очень похожи на SMM.
Поэтому за основу была взята LinOSS-IM (разновидность SSM с матрицей из комплексных чисел, учитывающий затухания).
Она была математически доработана, чтобы правильно учитывать как амплитудную, так и частотную асимметрию.
Так же, была добавлена модуляция внешним сигналом. В посте, чтобы не перегружать математикой, опущена часть, как это было обосновано и встроено.
Так же, был добавлен частотный и амплитудный гистерезис.
Сейчас в конечном автомате асимметрии, данный вариант SSM используется в "головах" (ранках - кластерах) и в обобщении.
Пока необходимо понять, обосновано ли выстраивать на нем всю иерархию асимметрии. Дело в том, что SSM обходит все токены через цикл. Это pамедляет работу - и для иерархии SSM это накладно. В CUDA в новых версиях есть оптимизация, через специальную функцию распараллеливания этой операции. Но она работает только в Linux и в последних версиях CUDA, поэтому оптимизация под нее подходит для конечной версии SSM.
Данная SSM версия стабильна и быстро обучается, но в рамках описанной модели автомата асимметрии. Как она поведет себя в других архитектурах, сказать сложно. Надо применять механизм ScaleIn → SSM → ScaleOut, описанный ранее.
Таким образом эта SSM, которая учитывает:
Можно ли сделать лучше? Да можно через полином N-степени (для производных), но это повлияет только на ее точность и существенно замедлит вычисления.
Пока не понятно, как встроить в SSM временные ранки (амплитудные встроены на уровне ScaleIn-ScaleOut). Сначала надо будет правильно рассчитать математически и лишь потом уже встраивать их. Возможно временные ранки тоже можно вынести в раздел ScaleIn-ScaleOut, который был описан ранее.
На самом деле, все что делает данный SMM - это учитывает асимметрию (амплитудную и частотную), гистерезис, внешнюю модуляцию.
В комментариях будет выложен ее код. Поэтому можно посмотреть и попробовать.
Сначала были взяты формулы расчета асимметрии, которые до этого использовались в гистерезис. Задача была сделать нормально учет частотной асимметрии. Но формулы оказались очень похожи на SMM.
Поэтому за основу была взята LinOSS-IM (разновидность SSM с матрицей из комплексных чисел, учитывающий затухания).
Она была математически доработана, чтобы правильно учитывать как амплитудную, так и частотную асимметрию.
Так же, была добавлена модуляция внешним сигналом. В посте, чтобы не перегружать математикой, опущена часть, как это было обосновано и встроено.
Так же, был добавлен частотный и амплитудный гистерезис.
Сейчас в конечном автомате асимметрии, данный вариант SSM используется в "головах" (ранках - кластерах) и в обобщении.
Пока необходимо понять, обосновано ли выстраивать на нем всю иерархию асимметрии. Дело в том, что SSM обходит все токены через цикл. Это pамедляет работу - и для иерархии SSM это накладно. В CUDA в новых версиях есть оптимизация, через специальную функцию распараллеливания этой операции. Но она работает только в Linux и в последних версиях CUDA, поэтому оптимизация под нее подходит для конечной версии SSM.
Данная SSM версия стабильна и быстро обучается, но в рамках описанной модели автомата асимметрии. Как она поведет себя в других архитектурах, сказать сложно. Надо применять механизм ScaleIn → SSM → ScaleOut, описанный ранее.
Таким образом эта SSM, которая учитывает:
- осцилляции и затухания
- частотную и амплитудную асимметрию
- гистерезис
- модуляцию
Можно ли сделать лучше? Да можно через полином N-степени (для производных), но это повлияет только на ее точность и существенно замедлит вычисления.
Пока не понятно, как встроить в SSM временные ранки (амплитудные встроены на уровне ScaleIn-ScaleOut). Сначала надо будет правильно рассчитать математически и лишь потом уже встраивать их. Возможно временные ранки тоже можно вынести в раздел ScaleIn-ScaleOut, который был описан ранее.
На самом деле, все что делает данный SMM - это учитывает асимметрию (амплитудную и частотную), гистерезис, внешнюю модуляцию.
В комментариях будет выложен ее код. Поэтому можно посмотреть и попробовать.
👍4