Inverse Depth Scaling From Most Layers Being Similar
https://www.alphaxiv.org/overview/2602.05970
Исследователи количественно демонстрируют, что потери в больших языковых моделях обратно пропорциональны глубине (L ~ 1/ℓ). Их результаты показывают, что LLM в основном используют глубину через механизм "ансамблевого усреднения", где слои выполняют схожие, инкрементальные обновления, которые в совокупности уменьшают ошибку.
https://www.alphaxiv.org/overview/2602.05970
Исследователи количественно демонстрируют, что потери в больших языковых моделях обратно пропорциональны глубине (L ~ 1/ℓ). Их результаты показывают, что LLM в основном используют глубину через механизм "ансамблевого усреднения", где слои выполняют схожие, инкрементальные обновления, которые в совокупности уменьшают ошибку.
Counting Hypothesis: Potential Mechanism of In-Context Learning
https://www.alphaxiv.org/overview/2602.01687
Исследователи представляют «гипотезу подсчета» как механистическое объяснение внутриконтекстного обучения в больших языковых моделях, предполагая, что модели вспоминают ответы с помощью FFN и накапливают контекстуальную силу в остаточных потоках. Их эмпирический анализ показывает общие внутренние компоненты между примерами и ответами, при этом активность компонентов коррелирует с точностью предсказаний.
https://www.alphaxiv.org/overview/2602.01687
Исследователи представляют «гипотезу подсчета» как механистическое объяснение внутриконтекстного обучения в больших языковых моделях, предполагая, что модели вспоминают ответы с помощью FFN и накапливают контекстуальную силу в остаточных потоках. Их эмпирический анализ показывает общие внутренние компоненты между примерами и ответами, при этом активность компонентов коррелирует с точностью предсказаний.
Learning to Reason in 13 Parameters
https://www.alphaxiv.org/ru/overview/2602.04118
Исследователи разработали TinyLoRA – метод эффективной тонкой настройки параметров, который позволяет большим языковым моделям приобретать сложные навыки математического рассуждения, обучаясь всего на 13 параметрах. Этот подход, в сочетании с обучением с подкреплением, достиг 91% точности на GSM8K, демонстрируя значительный прогресс в адаптации моделей со сверхнизкой емкостью.
https://www.alphaxiv.org/ru/overview/2602.04118
Исследователи разработали TinyLoRA – метод эффективной тонкой настройки параметров, который позволяет большим языковым моделям приобретать сложные навыки математического рассуждения, обучаясь всего на 13 параметрах. Этот подход, в сочетании с обучением с подкреплением, достиг 91% точности на GSM8K, демонстрируя значительный прогресс в адаптации моделей со сверхнизкой емкостью.
Noise Stability of Transformer Models
https://www.alphaxiv.org/overview/2602.08287
Стабильность к шуму представлена как мера предвзятости к простоте в моделях Transformer, демонстрируя улучшенные теоретические границы для спектральной концентрации по сравнению со средней чувствительностью. Метод регуляризации, основанный на этой метрике, ускоряет феномен грокинга в синтетических задачах примерно на 35% и сокращает количество итераций для достижения высокой точности валидации при предсказании следующего токена на 75%, а также служит ранним индикатором обобщения.
https://www.alphaxiv.org/overview/2602.08287
Стабильность к шуму представлена как мера предвзятости к простоте в моделях Transformer, демонстрируя улучшенные теоретические границы для спектральной концентрации по сравнению со средней чувствительностью. Метод регуляризации, основанный на этой метрике, ускоряет феномен грокинга в синтетических задачах примерно на 35% и сокращает количество итераций для достижения высокой точности валидации при предсказании следующего токена на 75%, а также служит ранним индикатором обобщения.
The Condensate Theorem: Transformers are O(n), Not O(n²)
https://www.alphaxiv.org/overview/2602.06317
Конденсатная теорема (Condensate Theorem) демонстрирует, как преобразовать самовнимание трансформера из сложности O(n²) в O(n) за счет использования изученной разреженности в предварительно обученных моделях. Этот подход обеспечивает точную, без потерь эквивалентность полному вниманию, достигая ускорения до 159 раз при 131K токенов и сокращения памяти кэша KV более чем на 99.9% без необходимости переобучения.
https://www.alphaxiv.org/overview/2602.06317
Конденсатная теорема (Condensate Theorem) демонстрирует, как преобразовать самовнимание трансформера из сложности O(n²) в O(n) за счет использования изученной разреженности в предварительно обученных моделях. Этот подход обеспечивает точную, без потерь эквивалентность полному вниманию, достигая ускорения до 159 раз при 131K токенов и сокращения памяти кэша KV более чем на 99.9% без необходимости переобучения.
Sparse Hash AI
Seedance 2.0 https://seedance2.ai/ Sparse Hash AI
А как у Seedance с вокалом?
Канье Вест, на китайском...
https://d.fixupx.com/xerias_x/status/2021687913117831535
Канье Вест, на китайском...
https://d.fixupx.com/xerias_x/status/2021687913117831535
🔥1
Explaining Grokking in Transformers through the Lens of Inductive Bias
https://www.alphaxiv.org/overview/2602.06702
Архитектурные и оптимизационные решения в трансформерах систематически контролируют скорость «гроккинга» – феномена отложенной генерализации. Работа показывает, что генерализация последовательно коррелирует с появлением сжимаемости признаков, предлагая единое объяснение для различных индуктивных смещений.
https://www.alphaxiv.org/overview/2602.06702
Архитектурные и оптимизационные решения в трансформерах систематически контролируют скорость «гроккинга» – феномена отложенной генерализации. Работа показывает, что генерализация последовательно коррелирует с появлением сжимаемости признаков, предлагая единое объяснение для различных индуктивных смещений.
TernaryLM: Memory-Efficient Language Modeling via Native 1-Bit Quantization with Adaptive Layer-wise Scaling
https://www.alphaxiv.org/overview/2602.07374
TernaryLM представляет языковую модель со 132 миллионами параметров, обученную нативно с 1-битным троичным квантованием и адаптивным послойным масштабированием. Этот подход позволил сократить объем памяти в 2,4 раза и объем хранилища в 3,3 раза по сравнению с полноточной базовой моделью, сохраняя при этом конкурентоспособную производительность в задачах языкового моделирования и последующих задачах.
Исследование демонстрирует, что трансформер со 132 миллионами параметров может достигать конкурентоспособной производительности, используя веса, ограниченные всего тремя значениями: {-1, 0, +1}. Это представляет собой фундаментальное отступление от общепринятого мнения о требованиях к точности для связного понимания языка.
Подход TernaryLM сосредоточен на нативном обучении с учетом квантования, где ограничения по экстремальной точности накладываются на протяжении всего процесса обучения, а не применяются постфактум к предварительно обученной модели.
https://www.alphaxiv.org/overview/2602.07374
TernaryLM представляет языковую модель со 132 миллионами параметров, обученную нативно с 1-битным троичным квантованием и адаптивным послойным масштабированием. Этот подход позволил сократить объем памяти в 2,4 раза и объем хранилища в 3,3 раза по сравнению с полноточной базовой моделью, сохраняя при этом конкурентоспособную производительность в задачах языкового моделирования и последующих задачах.
Исследование демонстрирует, что трансформер со 132 миллионами параметров может достигать конкурентоспособной производительности, используя веса, ограниченные всего тремя значениями: {-1, 0, +1}. Это представляет собой фундаментальное отступление от общепринятого мнения о требованиях к точности для связного понимания языка.
Подход TernaryLM сосредоточен на нативном обучении с учетом квантования, где ограничения по экстремальной точности накладываются на протяжении всего процесса обучения, а не применяются постфактум к предварительно обученной модели.