Статья представляет первую теоретическую основу для понимания непрерывного CoT, вводя концепцию "рассуждения посредством суперпозиции". Авторы демонстрируют, что векторы непрерывного мышления могут кодировать несколько фронтов поиска одновременно, обеспечивая параллельное исследование пространств решений — резкое отличие от последовательного характера дискретных подходов к рассуждению.
Задачу достижимости в ориентированном графе (directed graph reachability problem) на графе с n вершинами и диаметром графа D двухслойный трансформер с непрерывными CoT может решить за D шагов, в то время как лучший результат для трансформеров с дискретными CoT требует O(n^2) шагов.
Непрерывные "мысли" могут одновременно кодировать сразу множество возможных путей в графе и выполнять неявный «параллельный поиск» с такой «суперпозицией», в то время как последовательность дискретных токенов может идти только по одному пути за раз.
Архитектура этого трансформера сконструирована под задачу. Он выполняет на инференсе алгоритм поиска пути вширь, адресуясь в процессе к данным вершин-рёбер графа и храня в токене рассуждений список вершин текущего фронта.
Задачу достижимости в ориентированном графе (directed graph reachability problem) на графе с n вершинами и диаметром графа D двухслойный трансформер с непрерывными CoT может решить за D шагов, в то время как лучший результат для трансформеров с дискретными CoT требует O(n^2) шагов.
Непрерывные "мысли" могут одновременно кодировать сразу множество возможных путей в графе и выполнять неявный «параллельный поиск» с такой «суперпозицией», в то время как последовательность дискретных токенов может идти только по одному пути за раз.
Архитектура этого трансформера сконструирована под задачу. Он выполняет на инференсе алгоритм поиска пути вширь, адресуясь в процессе к данным вершин-рёбер графа и храня в токене рассуждений список вершин текущего фронта.
Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought
Рассуждение посредством суперпозиции: Теоретическая перспектива на цепочку непрерывной мысли
https://www.alphaxiv.org/ru/overview/2505.12514
Рассуждение посредством суперпозиции: Теоретическая перспектива на цепочку непрерывной мысли
https://www.alphaxiv.org/ru/overview/2505.12514
Navigating the Latent Space Dynamics of Neural Models
Навигация по динамике латентного пространства нейронных моделей
https://www.alphaxiv.org/ru/overview/2505.22785
В статье представлена альтернативная интерпретация нейронных моделей как динамических систем, действующих на латентном многообразии. В работе исследуются автоэнкодеры.
Вместо того, чтобы рассматривать нейронные сети исключительно как статические аппроксиматоры функций, которые отображают входные данные в выходные, авторы предполагают, что каждый автоэнкодер неявно определяет "поле скрытых векторов".
Теорема Банаха о неподвижной точке гарантирует существование аттракторов в сжимающем отображении. Авторы разработали простой и эффективный итерационный метод нахождения аттракторов в векторном поле автоэнкодеров.
Навигация по динамике латентного пространства нейронных моделей
https://www.alphaxiv.org/ru/overview/2505.22785
В статье представлена альтернативная интерпретация нейронных моделей как динамических систем, действующих на латентном многообразии. В работе исследуются автоэнкодеры.
Вместо того, чтобы рассматривать нейронные сети исключительно как статические аппроксиматоры функций, которые отображают входные данные в выходные, авторы предполагают, что каждый автоэнкодер неявно определяет "поле скрытых векторов".
Теорема Банаха о неподвижной точке гарантирует существование аттракторов в сжимающем отображении. Авторы разработали простой и эффективный итерационный метод нахождения аттракторов в векторном поле автоэнкодеров.
Infinite-Width Limit of a Single Attention Layer: Analysis via Tensor Programs
https://www.alphaxiv.org/ru/overview/2506.00846v1
Исследователи демонстрируют посредством расширенного анализа тензорных программ, что одиночные слои внимания в реалистичных условиях (стандартное масштабирование 1/√n, конечное число голов) сходятся к иерархическим гауссовским распределениям, при этом выходы внимания являются условно гауссовскими при заданных случайных оценках сходства (скорах), которые сами следуют гауссовским распределениям с нулевым средним, что приводит к негауссовским безусловным распределениям, демонстрирующим поведение с тяжелыми хвостами.
https://www.alphaxiv.org/ru/overview/2506.00846v1
Исследователи демонстрируют посредством расширенного анализа тензорных программ, что одиночные слои внимания в реалистичных условиях (стандартное масштабирование 1/√n, конечное число голов) сходятся к иерархическим гауссовским распределениям, при этом выходы внимания являются условно гауссовскими при заданных случайных оценках сходства (скорах), которые сами следуют гауссовским распределениям с нулевым средним, что приводит к негауссовским безусловным распределениям, демонстрирующим поведение с тяжелыми хвостами.
🔥 Unpacking Softmax: How Temperature Drives Representation Collapse, Compression, and Generalization
https://www.alphaxiv.org/ru/overview/2506.01562v1
Это исследование показывает, что более высокие температуры softmax приводят к сжатым, низкоранговым представлениям, которые улучшают обнаружение внераспределенных данных (OOD), но ухудшают их обобщение.
Авторы вводят понятие смещения дефицита ранга (rank deficit bias) — феномена, при котором глубокие сети на основе softmax находят решения с рангом значительно ниже числа классов. Модели учатся представлениям гораздо более низкой размерности, чем предсказывает классическая теория Neural Collapse. Это смещение зависит от нормы логитов функции softmax, которая напрямую изменяется температурой.
Для CIFAR-100 (100 классов) baseline модели имеют ранг ~99, но при низкой норме логитов ранг падает до 42-72.
Также авторы теоретически доказывают, что softmax может отображать низкоранговые входы в полноранговые выходы посредством усиления нормы. Таким образом, функция softmax выполняет двойную роль: индуцирует внутреннее сжатие, сохраняя при этом выходную выразительность.
Различные схемы инициализации (Kaiming vs. Normal) напрямую влияют на начальные нормы логитов, при этом меньшие начальные масштабы способствуют коллапсу даже при стандартных температурах. Пакетная нормализация и нормализация по слоям могут предотвратить коллапс, активно поддерживая разнообразие представлений, особенно при применении после вычисления логитов.
https://www.alphaxiv.org/ru/overview/2506.01562v1
Это исследование показывает, что более высокие температуры softmax приводят к сжатым, низкоранговым представлениям, которые улучшают обнаружение внераспределенных данных (OOD), но ухудшают их обобщение.
Авторы вводят понятие смещения дефицита ранга (rank deficit bias) — феномена, при котором глубокие сети на основе softmax находят решения с рангом значительно ниже числа классов. Модели учатся представлениям гораздо более низкой размерности, чем предсказывает классическая теория Neural Collapse. Это смещение зависит от нормы логитов функции softmax, которая напрямую изменяется температурой.
Для CIFAR-100 (100 классов) baseline модели имеют ранг ~99, но при низкой норме логитов ранг падает до 42-72.
Также авторы теоретически доказывают, что softmax может отображать низкоранговые входы в полноранговые выходы посредством усиления нормы. Таким образом, функция softmax выполняет двойную роль: индуцирует внутреннее сжатие, сохраняя при этом выходную выразительность.
Различные схемы инициализации (Kaiming vs. Normal) напрямую влияют на начальные нормы логитов, при этом меньшие начальные масштабы способствуют коллапсу даже при стандартных температурах. Пакетная нормализация и нормализация по слоям могут предотвратить коллапс, активно поддерживая разнообразие представлений, особенно при применении после вычисления логитов.
Universal pre-training by iterated random computation
Универсальное предварительное обучение посредством итеративных случайных вычислений
https://www.alphaxiv.org/ru/overview/2506.20057v1
Исследование представляет подход, называемый «универсальным предварительным обучением» — обучение моделей на синтетически сгенерированных данных до того, как они столкнутся с какими-либо реальными задачами.
Модели, предварительно обученные таким образом, достигают улучшенной zero-shot производительности и файнтюнинге.
Структурированные случайные данные генерирует "итеративный процесс обогащения". Случайный шум пропускается через случайно инициализированную однослойную LSTM для создания «обогащенного шума», который затем пропускается через дополнительные случайные LSTM в последующих итерациях. Это создает все более структурированные данные, которые аппроксимируют универсальное распределение.
Универсальное предварительное обучение посредством итеративных случайных вычислений
https://www.alphaxiv.org/ru/overview/2506.20057v1
Исследование представляет подход, называемый «универсальным предварительным обучением» — обучение моделей на синтетически сгенерированных данных до того, как они столкнутся с какими-либо реальными задачами.
Модели, предварительно обученные таким образом, достигают улучшенной zero-shot производительности и файнтюнинге.
Структурированные случайные данные генерирует "итеративный процесс обогащения". Случайный шум пропускается через случайно инициализированную однослойную LSTM для создания «обогащенного шума», который затем пропускается через дополнительные случайные LSTM в последующих итерациях. Это создает все более структурированные данные, которые аппроксимируют универсальное распределение.
What Happens During the Loss Plateau? Understanding Abrupt Learning in Transformers
Что происходит во время плато потерь? Понимание скачкообразного обучения в трансформерах
https://www.alphaxiv.org/ru/overview/2506.13688v1
Сосед грокинга — «резкое обучение» («abrupt learning»). Проявляется как характерная кривая потерь, где производительность застаивается на субоптимальном уровне (плато), прежде чем испытать резкое, внезапное улучшение. Авторы анализируют, что происходит внутри модели на этапе плато.
Исследование выявляет два критических неявных смещения, характеризующих фазу плато:
Repetition Bias: Во время плато модели демонстрируют сильную тенденцию к генерации повторяющихся выходных данных.
Representation Collapse: Внутренние скрытые представления для разных токенов становятся почти параллельными, с косинусным сходством часто превышающим 0.95.
Выявлено, что продолжительность плато обусловлена исключительно обучением весов слоя внимания, MLP имеет минимальное влияние.
Для наблюдения «скрытого прогресса» во время плато авторы вводят несколько количественных метрик.
Что происходит во время плато потерь? Понимание скачкообразного обучения в трансформерах
https://www.alphaxiv.org/ru/overview/2506.13688v1
Сосед грокинга — «резкое обучение» («abrupt learning»). Проявляется как характерная кривая потерь, где производительность застаивается на субоптимальном уровне (плато), прежде чем испытать резкое, внезапное улучшение. Авторы анализируют, что происходит внутри модели на этапе плато.
Исследование выявляет два критических неявных смещения, характеризующих фазу плато:
Repetition Bias: Во время плато модели демонстрируют сильную тенденцию к генерации повторяющихся выходных данных.
Representation Collapse: Внутренние скрытые представления для разных токенов становятся почти параллельными, с косинусным сходством часто превышающим 0.95.
Выявлено, что продолжительность плато обусловлена исключительно обучением весов слоя внимания, MLP имеет минимальное влияние.
Для наблюдения «скрытого прогресса» во время плато авторы вводят несколько количественных метрик.
This media is not supported in your browser
VIEW IN TELEGRAM
CL-3 от LimX Dynamics
Neural Cellular Automata for ARC-AGI
Нейронные клеточные автоматы для ARC-AGI
https://www.alphaxiv.org/ru/overview/2506.15746v1
Исследователи изучили возможности и ограничения Neural Cellular Automata (Нейронных Клеточных Автоматов) на корпусе абстрактного мышления и рассуждений (ARC-AGI), бенчмарке для человекоподобного интеллекта.
NCA решили 23 из 172 выполнимых задач ARC, при этом каждая модель, специфичная для задачи, эффективно обучалась за считанные минуты на одном графическом процессоре.
Нейронные клеточные автоматы для ARC-AGI
https://www.alphaxiv.org/ru/overview/2506.15746v1
Исследователи изучили возможности и ограничения Neural Cellular Automata (Нейронных Клеточных Автоматов) на корпусе абстрактного мышления и рассуждений (ARC-AGI), бенчмарке для человекоподобного интеллекта.
NCA решили 23 из 172 выполнимых задач ARC, при этом каждая модель, специфичная для задачи, эффективно обучалась за считанные минуты на одном графическом процессоре.
alphaXiv
Neural Cellular Automata for ARC-AGI | alphaXiv
View recent discussion. Abstract: Cellular automata and their differentiable counterparts, Neural Cellular Automata (NCA), are highly expressive and capable of surprisingly complex behaviors. This paper explores how NCAs perform when applied to tasks requiring…