Обобщение от голода: почему LLM находят универсальные представления?
В серии предыдущих постов мы рассмотрели:
- Как через метод Лагранжа выводится Zipf-подобное распределение:
- Что трансформеры — это автоматы асимметрии, где:
Головы внимания соответствуют ранкам.
Блоки сети — уровни иерархии.
FFN — интеграция всех локальных асимметрий.
- Ограничения масштабируемости:
N и β не могут расти бесконечно.
При превышении порога система теряет чувствительность и вынуждена перейти на новый уровень иерархии.
Посмотрим на практике результаты на основе статьи "Generalization from Starvation: Hints of Universality in LLM Knowledge Graph Learning" (David D. Baek, Yuxiao Li, Max)"
Ключевая идея статьи:
Когда LLM обучается с ограничением (малое число параметров, малый объём данных), она начинает обобщать лучше , чем модель без ограничений.
Это проявляется в трёх ключевых экспериментах:
Сшивание слоёв (Stitching Experiments)
Геометрия знаний (MLP & Genealogical Trees)
Модель выучивает одинаковую геометрию отношений ("потомок", "родитель"), даже если данные представлены в случайном порядке.
Вывод:
Модель сама выстраивает иерархию асимметрии , чтобы экономить ресурсы.
Это не случайный эффект, а следствие оптимизации .
Это то же, что и наша формула:
"Зона Златовласки" (Goldilocks Zone)
То есть:
Ограниченные ресурсы заставляют систему искать наиболее эффективное представление.
Как это связано с нашей моделью асимметрии?
Авторы статьи наблюдают эмпирический эффект и дают ему водную интерпретацию : "Модель становится умнее, когда её ограничивают."
Но мы показываем:
Это не случайность, не феномен, не "интеллект из голода".
Это следствие вариационного принципа , который работает всегда, когда:
- Есть ограниченная разрешающая способность,
- И чувствительность к редким, но значимым признакам через β
В серии предыдущих постов мы рассмотрели:
- Как через метод Лагранжа выводится Zipf-подобное распределение:
p(i)=Softmax(−i/β)⇒усиление редких, подавление шумовых признаков
- Что трансформеры — это автоматы асимметрии, где:
Головы внимания соответствуют ранкам.
Блоки сети — уровни иерархии.
FFN — интеграция всех локальных асимметрий.
- Ограничения масштабируемости:
N и β не могут расти бесконечно.
При превышении порога система теряет чувствительность и вынуждена перейти на новый уровень иерархии.
Посмотрим на практике результаты на основе статьи "Generalization from Starvation: Hints of Universality in LLM Knowledge Graph Learning" (David D. Baek, Yuxiao Li, Max)"
Ключевая идея статьи:
Когда LLM обучается с ограничением (малое число параметров, малый объём данных), она начинает обобщать лучше , чем модель без ограничений.
Это проявляется в трёх ключевых экспериментах:
Сшивание слоёв (Stitching Experiments)
- Ранние слои (E) легко заменяются между моделями → Они формируют общие, низкоуровневые представления
- Поздние слои (U) плохо сшиваются → Они специфичны к задаче и содержат много деталей
- Средние слои (H/K) имеют лучшую сшиваемость → Универсальное представление знаний
Геометрия знаний (MLP & Genealogical Trees)
Модель выучивает одинаковую геометрию отношений ("потомок", "родитель"), даже если данные представлены в случайном порядке.
Вывод:
Модель сама выстраивает иерархию асимметрии , чтобы экономить ресурсы.
Это не случайный эффект, а следствие оптимизации .
Это то же, что и наша формула:
p(i) = Softmax( −x/β )⇒система усиливает информативные, но редкие связи
"Зона Златовласки" (Goldilocks Zone)
- Слишком маленькая модель → Не запоминает даже простых фактов
- Слишком большая модель → Переобучается на фоновые паттерны
- Золотая середина → Находит асимметрию и выделяет универсальные закономерности
То есть:
Ограниченные ресурсы заставляют систему искать наиболее эффективное представление.
Как это связано с нашей моделью асимметрии?
- "Интеллект из голода" → Формально описывается как ограниченное N и оптимальное β
- Универсальность представлений → Это Zipf-подобное распределение, которое возникает при ограниченных ресурсах
- Обобщение → Усиление редких, но значимых связей через softmax(-x / β)
- Разделение слоёв на E/H/U→ Это уровни иерархии подобно единицы → десятки → тысячи
- "Зона Златовласки" → Это точка бифуркации, где система находится в оптимальном балансе между N и β
- Сшивка моделей → Демонстрация, что средние слои — это уровни иерархии, которые можно менять
Авторы статьи наблюдают эмпирический эффект и дают ему водную интерпретацию : "Модель становится умнее, когда её ограничивают."
Но мы показываем:
Это не случайность, не феномен, не "интеллект из голода".
Это следствие вариационного принципа , который работает всегда, когда:
- Есть ограниченная разрешающая способность,
- И чувствительность к редким, но значимым признакам через β
👍2
Сейчас почти завершены правки блочной модели основанной на асимметрии.
Тестируется обучение, чтобы убедиться в результате. Вносятся какие-то изменения. делается сравнение с Трансформерами и SSM.
Выше, обобщенно показано на что она опирается. Самое главное, что это не гипотезы или вымышленные предположения. Каждый из этих пунктов был доказан, исследован ранее и описан.
Все они демонстрируют замечательный результат, если строго следовать им.
В посте нет некоторых деталей, которые уже были описаны ранее:
только обобщенное объяснение без формул.
Сейчас пока тестируются доработки на основе математических доказательств:
- вывод частотной и амплитудной асимметрии из кинематики, привел к SSM формулам с небольшими изменениями. Это привело к микро-residual связям внутри SSM (асимметриям). А так же добавлению гистерезис в SSM формулы.
- так же математически была учтена модуляция внутри формул SSM.
- временная модуляция (подобно вниманию трансформеров) заменялась на ранковую с обучаемыми параметрами.
- амплитудная модуляция наоборот, на аналог похожий на Softmax, где N (кол-во признаков) завязано на архитектуре. И обучается лишь чувствительность.
- есть свертки, но они реализованы как CTM сети с ранковой иерархией. Где динамическое ядро само обучается, сколько признаков N оно должно захватывать.
- каждый блок влияет на предыдущие, согласно модели автомата асимметрии.
Саму модель мы можем представить, как множество конечных автоматов асимметрии. Но их реализация немного отличается, так как требует разной точности.
Окно контекста не ограниченное, в отличие от трансформеров.
Сейчас модель блочная. Ни что не мешается начать обучение LLM на ее основе. Но сначала надо проверить и доработать:
- рекуррентные петли модели. Сейчас там только модулирующие петли.
Но само главное, почему пока не запущено обучение LLM или синтеза речи или распознавания. Это:
Это когда из одного слоя, модель разворачивается сама и создает нужное кол-во блоков, слоев, кластеров (голов) их размерность.
Сейчас в качестве основы бифуркации выбран подход, основанный на правиле трех сигма. Только вместо трех сигма, их число зависит от кол-ва признаков через ln(N).
Если расчет точки бифуркации окажется верным, то LLM модель при обучении раскроется сама до нужного размера.
Позже будет показана разница в обучении блочной модели на основе асимметрии и цепочки трансформеров. Разница есть, и трансформеры пока проигрывают как в начале обучения, так и после обучения.
Тестируется обучение, чтобы убедиться в результате. Вносятся какие-то изменения. делается сравнение с Трансформерами и SSM.
Выше, обобщенно показано на что она опирается. Самое главное, что это не гипотезы или вымышленные предположения. Каждый из этих пунктов был доказан, исследован ранее и описан.
Все они демонстрируют замечательный результат, если строго следовать им.
В посте нет некоторых деталей, которые уже были описаны ранее:
- масштабирование
- приведение к ранкам
только обобщенное объяснение без формул.
Сейчас пока тестируются доработки на основе математических доказательств:
- вывод частотной и амплитудной асимметрии из кинематики, привел к SSM формулам с небольшими изменениями. Это привело к микро-residual связям внутри SSM (асимметриям). А так же добавлению гистерезис в SSM формулы.
- так же математически была учтена модуляция внутри формул SSM.
- временная модуляция (подобно вниманию трансформеров) заменялась на ранковую с обучаемыми параметрами.
- амплитудная модуляция наоборот, на аналог похожий на Softmax, где N (кол-во признаков) завязано на архитектуре. И обучается лишь чувствительность.
- есть свертки, но они реализованы как CTM сети с ранковой иерархией. Где динамическое ядро само обучается, сколько признаков N оно должно захватывать.
- каждый блок влияет на предыдущие, согласно модели автомата асимметрии.
Саму модель мы можем представить, как множество конечных автоматов асимметрии. Но их реализация немного отличается, так как требует разной точности.
Окно контекста не ограниченное, в отличие от трансформеров.
Сейчас модель блочная. Ни что не мешается начать обучение LLM на ее основе. Но сначала надо проверить и доработать:
- рекуррентные петли модели. Сейчас там только модулирующие петли.
Но само главное, почему пока не запущено обучение LLM или синтеза речи или распознавания. Это:
- Проработка бифуркации модели. Расчета точки бифуркации, когда модель должна расшириться.
- Функций расширения элементов модели
- Функций разрушения элементов модели (пока под вопросом)
Это когда из одного слоя, модель разворачивается сама и создает нужное кол-во блоков, слоев, кластеров (голов) их размерность.
Сейчас в качестве основы бифуркации выбран подход, основанный на правиле трех сигма. Только вместо трех сигма, их число зависит от кол-ва признаков через ln(N).
Если расчет точки бифуркации окажется верным, то LLM модель при обучении раскроется сама до нужного размера.
Позже будет показана разница в обучении блочной модели на основе асимметрии и цепочки трансформеров. Разница есть, и трансформеры пока проигрывают как в начале обучения, так и после обучения.
🔥6
Этот пост для того, чтобы на него можно было ссылаться. Он показывает, как математически была расширена SSM.
Сначала были взяты формулы расчета асимметрии, которые до этого использовались в гистерезис. Задача была сделать нормально учет частотной асимметрии. Но формулы оказались очень похожи на SMM.
Поэтому за основу была взята LinOSS-IM (разновидность SSM с матрицей из комплексных чисел, учитывающий затухания).
Она была математически доработана, чтобы правильно учитывать как амплитудную, так и частотную асимметрию.
Так же, была добавлена модуляция внешним сигналом. В посте, чтобы не перегружать математикой, опущена часть, как это было обосновано и встроено.
Так же, был добавлен частотный и амплитудный гистерезис.
Сейчас в конечном автомате асимметрии, данный вариант SSM используется в "головах" (ранках - кластерах) и в обобщении.
Пока необходимо понять, обосновано ли выстраивать на нем всю иерархию асимметрии. Дело в том, что SSM обходит все токены через цикл. Это pамедляет работу - и для иерархии SSM это накладно. В CUDA в новых версиях есть оптимизация, через специальную функцию распараллеливания этой операции. Но она работает только в Linux и в последних версиях CUDA, поэтому оптимизация под нее подходит для конечной версии SSM.
Данная SSM версия стабильна и быстро обучается, но в рамках описанной модели автомата асимметрии. Как она поведет себя в других архитектурах, сказать сложно. Надо применять механизм ScaleIn → SSM → ScaleOut, описанный ранее.
Таким образом эта SSM, которая учитывает:
Можно ли сделать лучше? Да можно через полином N-степени (для производных), но это повлияет только на ее точность и существенно замедлит вычисления.
Пока не понятно, как встроить в SSM временные ранки (амплитудные встроены на уровне ScaleIn-ScaleOut). Сначала надо будет правильно рассчитать математически и лишь потом уже встраивать их. Возможно временные ранки тоже можно вынести в раздел ScaleIn-ScaleOut, который был описан ранее.
На самом деле, все что делает данный SMM - это учитывает асимметрию (амплитудную и частотную), гистерезис, внешнюю модуляцию.
В комментариях будет выложен ее код. Поэтому можно посмотреть и попробовать.
Сначала были взяты формулы расчета асимметрии, которые до этого использовались в гистерезис. Задача была сделать нормально учет частотной асимметрии. Но формулы оказались очень похожи на SMM.
Поэтому за основу была взята LinOSS-IM (разновидность SSM с матрицей из комплексных чисел, учитывающий затухания).
Она была математически доработана, чтобы правильно учитывать как амплитудную, так и частотную асимметрию.
Так же, была добавлена модуляция внешним сигналом. В посте, чтобы не перегружать математикой, опущена часть, как это было обосновано и встроено.
Так же, был добавлен частотный и амплитудный гистерезис.
Сейчас в конечном автомате асимметрии, данный вариант SSM используется в "головах" (ранках - кластерах) и в обобщении.
Пока необходимо понять, обосновано ли выстраивать на нем всю иерархию асимметрии. Дело в том, что SSM обходит все токены через цикл. Это pамедляет работу - и для иерархии SSM это накладно. В CUDA в новых версиях есть оптимизация, через специальную функцию распараллеливания этой операции. Но она работает только в Linux и в последних версиях CUDA, поэтому оптимизация под нее подходит для конечной версии SSM.
Данная SSM версия стабильна и быстро обучается, но в рамках описанной модели автомата асимметрии. Как она поведет себя в других архитектурах, сказать сложно. Надо применять механизм ScaleIn → SSM → ScaleOut, описанный ранее.
Таким образом эта SSM, которая учитывает:
- осцилляции и затухания
- частотную и амплитудную асимметрию
- гистерезис
- модуляцию
Можно ли сделать лучше? Да можно через полином N-степени (для производных), но это повлияет только на ее точность и существенно замедлит вычисления.
Пока не понятно, как встроить в SSM временные ранки (амплитудные встроены на уровне ScaleIn-ScaleOut). Сначала надо будет правильно рассчитать математически и лишь потом уже встраивать их. Возможно временные ранки тоже можно вынести в раздел ScaleIn-ScaleOut, который был описан ранее.
На самом деле, все что делает данный SMM - это учитывает асимметрию (амплитудную и частотную), гистерезис, внешнюю модуляцию.
В комментариях будет выложен ее код. Поэтому можно посмотреть и попробовать.
👍4