Navigating the Latent Space Dynamics of Neural Models
Навигация по динамике латентного пространства нейронных моделей
https://www.alphaxiv.org/ru/overview/2505.22785
В статье представлена альтернативная интерпретация нейронных моделей как динамических систем, действующих на латентном многообразии. В работе исследуются автоэнкодеры.
Вместо того, чтобы рассматривать нейронные сети исключительно как статические аппроксиматоры функций, которые отображают входные данные в выходные, авторы предполагают, что каждый автоэнкодер неявно определяет "поле скрытых векторов".
Теорема Банаха о неподвижной точке гарантирует существование аттракторов в сжимающем отображении. Авторы разработали простой и эффективный итерационный метод нахождения аттракторов в векторном поле автоэнкодеров.
Навигация по динамике латентного пространства нейронных моделей
https://www.alphaxiv.org/ru/overview/2505.22785
В статье представлена альтернативная интерпретация нейронных моделей как динамических систем, действующих на латентном многообразии. В работе исследуются автоэнкодеры.
Вместо того, чтобы рассматривать нейронные сети исключительно как статические аппроксиматоры функций, которые отображают входные данные в выходные, авторы предполагают, что каждый автоэнкодер неявно определяет "поле скрытых векторов".
Теорема Банаха о неподвижной точке гарантирует существование аттракторов в сжимающем отображении. Авторы разработали простой и эффективный итерационный метод нахождения аттракторов в векторном поле автоэнкодеров.
Infinite-Width Limit of a Single Attention Layer: Analysis via Tensor Programs
https://www.alphaxiv.org/ru/overview/2506.00846v1
Исследователи демонстрируют посредством расширенного анализа тензорных программ, что одиночные слои внимания в реалистичных условиях (стандартное масштабирование 1/√n, конечное число голов) сходятся к иерархическим гауссовским распределениям, при этом выходы внимания являются условно гауссовскими при заданных случайных оценках сходства (скорах), которые сами следуют гауссовским распределениям с нулевым средним, что приводит к негауссовским безусловным распределениям, демонстрирующим поведение с тяжелыми хвостами.
https://www.alphaxiv.org/ru/overview/2506.00846v1
Исследователи демонстрируют посредством расширенного анализа тензорных программ, что одиночные слои внимания в реалистичных условиях (стандартное масштабирование 1/√n, конечное число голов) сходятся к иерархическим гауссовским распределениям, при этом выходы внимания являются условно гауссовскими при заданных случайных оценках сходства (скорах), которые сами следуют гауссовским распределениям с нулевым средним, что приводит к негауссовским безусловным распределениям, демонстрирующим поведение с тяжелыми хвостами.
👍1🤔1
🔥 Unpacking Softmax: How Temperature Drives Representation Collapse, Compression, and Generalization
https://www.alphaxiv.org/ru/overview/2506.01562v1
Это исследование показывает, что более высокие температуры softmax приводят к сжатым, низкоранговым представлениям, которые улучшают обнаружение внераспределенных данных (OOD), но ухудшают их обобщение.
Авторы вводят понятие смещения дефицита ранга (rank deficit bias) — феномена, при котором глубокие сети на основе softmax находят решения с рангом значительно ниже числа классов. Модели учатся представлениям гораздо более низкой размерности, чем предсказывает классическая теория Neural Collapse. Это смещение зависит от нормы логитов функции softmax, которая напрямую изменяется температурой.
Для CIFAR-100 (100 классов) baseline модели имеют ранг ~99, но при низкой норме логитов ранг падает до 42-72.
Также авторы теоретически доказывают, что softmax может отображать низкоранговые входы в полноранговые выходы посредством усиления нормы. Таким образом, функция softmax выполняет двойную роль: индуцирует внутреннее сжатие, сохраняя при этом выходную выразительность.
Различные схемы инициализации (Kaiming vs. Normal) напрямую влияют на начальные нормы логитов, при этом меньшие начальные масштабы способствуют коллапсу даже при стандартных температурах. Пакетная нормализация и нормализация по слоям могут предотвратить коллапс, активно поддерживая разнообразие представлений, особенно при применении после вычисления логитов.
https://www.alphaxiv.org/ru/overview/2506.01562v1
Это исследование показывает, что более высокие температуры softmax приводят к сжатым, низкоранговым представлениям, которые улучшают обнаружение внераспределенных данных (OOD), но ухудшают их обобщение.
Авторы вводят понятие смещения дефицита ранга (rank deficit bias) — феномена, при котором глубокие сети на основе softmax находят решения с рангом значительно ниже числа классов. Модели учатся представлениям гораздо более низкой размерности, чем предсказывает классическая теория Neural Collapse. Это смещение зависит от нормы логитов функции softmax, которая напрямую изменяется температурой.
Для CIFAR-100 (100 классов) baseline модели имеют ранг ~99, но при низкой норме логитов ранг падает до 42-72.
Также авторы теоретически доказывают, что softmax может отображать низкоранговые входы в полноранговые выходы посредством усиления нормы. Таким образом, функция softmax выполняет двойную роль: индуцирует внутреннее сжатие, сохраняя при этом выходную выразительность.
Различные схемы инициализации (Kaiming vs. Normal) напрямую влияют на начальные нормы логитов, при этом меньшие начальные масштабы способствуют коллапсу даже при стандартных температурах. Пакетная нормализация и нормализация по слоям могут предотвратить коллапс, активно поддерживая разнообразие представлений, особенно при применении после вычисления логитов.
Universal pre-training by iterated random computation
Универсальное предварительное обучение посредством итеративных случайных вычислений
https://www.alphaxiv.org/ru/overview/2506.20057v1
Исследование представляет подход, называемый «универсальным предварительным обучением» — обучение моделей на синтетически сгенерированных данных до того, как они столкнутся с какими-либо реальными задачами.
Модели, предварительно обученные таким образом, достигают улучшенной zero-shot производительности и файнтюнинге.
Структурированные случайные данные генерирует "итеративный процесс обогащения". Случайный шум пропускается через случайно инициализированную однослойную LSTM для создания «обогащенного шума», который затем пропускается через дополнительные случайные LSTM в последующих итерациях. Это создает все более структурированные данные, которые аппроксимируют универсальное распределение.
Универсальное предварительное обучение посредством итеративных случайных вычислений
https://www.alphaxiv.org/ru/overview/2506.20057v1
Исследование представляет подход, называемый «универсальным предварительным обучением» — обучение моделей на синтетически сгенерированных данных до того, как они столкнутся с какими-либо реальными задачами.
Модели, предварительно обученные таким образом, достигают улучшенной zero-shot производительности и файнтюнинге.
Структурированные случайные данные генерирует "итеративный процесс обогащения". Случайный шум пропускается через случайно инициализированную однослойную LSTM для создания «обогащенного шума», который затем пропускается через дополнительные случайные LSTM в последующих итерациях. Это создает все более структурированные данные, которые аппроксимируют универсальное распределение.
What Happens During the Loss Plateau? Understanding Abrupt Learning in Transformers
Что происходит во время плато потерь? Понимание скачкообразного обучения в трансформерах
https://www.alphaxiv.org/ru/overview/2506.13688v1
Сосед грокинга — «резкое обучение» («abrupt learning»). Проявляется как характерная кривая потерь, где производительность застаивается на субоптимальном уровне (плато), прежде чем испытать резкое, внезапное улучшение. Авторы анализируют, что происходит внутри модели на этапе плато.
Исследование выявляет два критических неявных смещения, характеризующих фазу плато:
Repetition Bias: Во время плато модели демонстрируют сильную тенденцию к генерации повторяющихся выходных данных.
Representation Collapse: Внутренние скрытые представления для разных токенов становятся почти параллельными, с косинусным сходством часто превышающим 0.95.
Выявлено, что продолжительность плато обусловлена исключительно обучением весов слоя внимания, MLP имеет минимальное влияние.
Для наблюдения «скрытого прогресса» во время плато авторы вводят несколько количественных метрик.
Что происходит во время плато потерь? Понимание скачкообразного обучения в трансформерах
https://www.alphaxiv.org/ru/overview/2506.13688v1
Сосед грокинга — «резкое обучение» («abrupt learning»). Проявляется как характерная кривая потерь, где производительность застаивается на субоптимальном уровне (плато), прежде чем испытать резкое, внезапное улучшение. Авторы анализируют, что происходит внутри модели на этапе плато.
Исследование выявляет два критических неявных смещения, характеризующих фазу плато:
Repetition Bias: Во время плато модели демонстрируют сильную тенденцию к генерации повторяющихся выходных данных.
Representation Collapse: Внутренние скрытые представления для разных токенов становятся почти параллельными, с косинусным сходством часто превышающим 0.95.
Выявлено, что продолжительность плато обусловлена исключительно обучением весов слоя внимания, MLP имеет минимальное влияние.
Для наблюдения «скрытого прогресса» во время плато авторы вводят несколько количественных метрик.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
CL-3 от LimX Dynamics
Neural Cellular Automata for ARC-AGI
Нейронные клеточные автоматы для ARC-AGI
https://www.alphaxiv.org/ru/overview/2506.15746v1
Исследователи изучили возможности и ограничения Neural Cellular Automata (Нейронных Клеточных Автоматов) на корпусе абстрактного мышления и рассуждений (ARC-AGI), бенчмарке для человекоподобного интеллекта.
NCA решили 23 из 172 выполнимых задач ARC, при этом каждая модель, специфичная для задачи, эффективно обучалась за считанные минуты на одном графическом процессоре.
Нейронные клеточные автоматы для ARC-AGI
https://www.alphaxiv.org/ru/overview/2506.15746v1
Исследователи изучили возможности и ограничения Neural Cellular Automata (Нейронных Клеточных Автоматов) на корпусе абстрактного мышления и рассуждений (ARC-AGI), бенчмарке для человекоподобного интеллекта.
NCA решили 23 из 172 выполнимых задач ARC, при этом каждая модель, специфичная для задачи, эффективно обучалась за считанные минуты на одном графическом процессоре.
alphaXiv
Neural Cellular Automata for ARC-AGI | alphaXiv
View recent discussion. Abstract: Cellular automata and their differentiable counterparts, Neural Cellular Automata (NCA), are highly expressive and capable of surprisingly complex behaviors. This paper explores how NCAs perform when applied to tasks requiring…
Fast and Simplex: 2-Simplicial Attention in Triton
Быстрый и Симплекс: Двухсимплексное внимание в Тритоне
https://www.alphaxiv.org/ru/overview/2507.02754v1
В данной работе представлена реализация 2-симплексного Трансформера, который расширяет стандартный механизм внимания до трилинейных функций. 2-симплексное внимание включает дополнительный набор "вторичных" ключей для формирования трилинейных взаимодействий. Это позволяет модели рассматривать триплеты токенов, улавливая более сложные зависимости.
Ключевой вклад заключается в демонстрации того, что эта архитектура фундаментально изменяет показатель степени в законе масштабирования.
Быстрый и Симплекс: Двухсимплексное внимание в Тритоне
https://www.alphaxiv.org/ru/overview/2507.02754v1
В данной работе представлена реализация 2-симплексного Трансформера, который расширяет стандартный механизм внимания до трилинейных функций. 2-симплексное внимание включает дополнительный набор "вторичных" ключей для формирования трилинейных взаимодействий. Это позволяет модели рассматривать триплеты токенов, улавливая более сложные зависимости.
Ключевой вклад заключается в демонстрации того, что эта архитектура фундаментально изменяет показатель степени в законе масштабирования.
SingLoRA: Low Rank Adaptation Using a Single Matrix
SingLoRA: Низкоранговая адаптация на основе одной матрицы
https://www.alphaxiv.org/ru/overview/2507.05566v1
SingLoRA предлагает симметричное низкоранговое обновление (AAᵀ) с использованием одной обучаемой матрицы (A) вместо двух, что приводит к более стабильной динамике обучения и превосходной производительности.
Этот подход сокращает количество обучаемых параметров до 50% по сравнению с традиционными вариантами LoRA, при этом достигая более высокой точности на бенчмарках.
SingLoRA: Низкоранговая адаптация на основе одной матрицы
https://www.alphaxiv.org/ru/overview/2507.05566v1
SingLoRA предлагает симметричное низкоранговое обновление (AAᵀ) с использованием одной обучаемой матрицы (A) вместо двух, что приводит к более стабильной динамике обучения и превосходной производительности.
Этот подход сокращает количество обучаемых параметров до 50% по сравнению с традиционными вариантами LoRA, при этом достигая более высокой точности на бенчмарках.
Forgetting Transformer: Softmax Attention with a Forget Gate
Забывающий Трансформер: Софтмакс-внимание с вентилем забывания
https://www.alphaxiv.org/overview/2503.02130v2
В механизм внимания softmax трансформера внедрён механизм вентиля забывания, что решает ограничение трансформеров как неспособность избирательно "забывать" или уменьшать вес прошлой информации.
Гейты забывания встраиваются в softmax как треугольная маска D.
𝐎 = softmax(𝐐𝐊ᵀ + 𝐃)V
Забывающий Трансформер: Софтмакс-внимание с вентилем забывания
https://www.alphaxiv.org/overview/2503.02130v2
В механизм внимания softmax трансформера внедрён механизм вентиля забывания, что решает ограничение трансформеров как неспособность избирательно "забывать" или уменьшать вес прошлой информации.
Гейты забывания встраиваются в softmax как треугольная маска D.
𝐎 = softmax(𝐐𝐊ᵀ + 𝐃)V
👍4
Antidistillation Sampling
Антидистилляционное сэмплирование
https://www.alphaxiv.org/ru/overview/2504.13146v2
Исследователи разработали Antidistillation Sampling — метод, позволяющий большим языковым моделям генерировать цепочки рассуждений, менее эффективные для дистилляции моделей. Подход значительно ухудшает производительность дистиллированных моделей-учеников (например, точность ученика упала с ~60% до ~25% на GSM8K), сохраняя при этом исходную полезность модели-учителя.
Эффективность метода обусловлена внедрением тонких, но стратегически расположенных артефактов в трассы рассуждений. Эти артефакты, хотя и не оказывают существенного влияния на способность учителя приходить к правильным выводам, мешают процессу обучения ученика во время дистилляции. Примеры включают вставки нерелевантного текста, избыточные объяснения и вводящие в заблуждение промежуточные шаги, которые сбивают с толку распознавание образов в модели ученика, не влияя на получение учителем конечного ответа.
Антидистилляционное сэмплирование
https://www.alphaxiv.org/ru/overview/2504.13146v2
Исследователи разработали Antidistillation Sampling — метод, позволяющий большим языковым моделям генерировать цепочки рассуждений, менее эффективные для дистилляции моделей. Подход значительно ухудшает производительность дистиллированных моделей-учеников (например, точность ученика упала с ~60% до ~25% на GSM8K), сохраняя при этом исходную полезность модели-учителя.
Эффективность метода обусловлена внедрением тонких, но стратегически расположенных артефактов в трассы рассуждений. Эти артефакты, хотя и не оказывают существенного влияния на способность учителя приходить к правильным выводам, мешают процессу обучения ученика во время дистилляции. Примеры включают вставки нерелевантного текста, избыточные объяснения и вводящие в заблуждение промежуточные шаги, которые сбивают с толку распознавание образов в модели ученика, не влияя на получение учителем конечного ответа.