Reorganizing attention-space geometry with expressive attention
https://www.alphaxiv.org/overview/2407.18601
Эта статья представляет Экспрессивное Внимание (EA) — простую, но мощную модификацию основного вычисления внимания, которая реорганизует геометрическую структуру пространства внимания. Экспрессивное Внимание модифицирует стандартное внимание с точечным произведением (Dot-Product Attention), просто возводя в квадрат скалярное произведение.
Sparse Hash AI
https://www.alphaxiv.org/overview/2407.18601
Представлено выразительное внимание (Expressive Attention, EA) как прямая замена для внимания, основанного на скалярном произведении (Dot-Product Attention, DPA), переопределяя сходство запрос-ключ таким образом, что как параллельные, так и антипараллельные выравнивания означают высокое внимание, в то время как ортогональные конфигурации представляют низкое внимание. Этот механизм последовательно превосходит DPA в различных синтетических авторегрессионных задачах, в частности, достигая 100% точности в сценариях, где DPA попадает в локальные минимумы.
Эта статья представляет Экспрессивное Внимание (EA) — простую, но мощную модификацию основного вычисления внимания, которая реорганизует геометрическую структуру пространства внимания. Экспрессивное Внимание модифицирует стандартное внимание с точечным произведением (Dot-Product Attention), просто возводя в квадрат скалярное произведение.
Sparse Hash AI
A model of errors in transformers
https://www.alphaxiv.org/overview/2601.14175
Эта работа представляет подход к моделированию ошибок LLM, вдохновленный физикой, рассматривая эти сложные системы как природные явления, которые можно анализировать с использованием методов теоретической физики. Авторы предполагают, что ошибки возникают из-за накопления небольших, "шумоподобных" неточностей в механизме внимания. Их работа демонстрирует, как поведение моделей с сотнями миллиардов параметров может быть эффективно охарактеризовано всего двумя интерпретируемыми параметрами.
Sparse Hash AI
https://www.alphaxiv.org/overview/2601.14175
Исследователи представляют количественную модель "эффективной теории поля", которая объясняет ошибки больших языковых моделей в детерминированных задачах как накопление небольших, шумоподобных неточностей в механизме внимания. Двухпараметрическая модель точно предсказывает снижение точности по мере увеличения сложности задачи, что подтверждается обширной эмпирической проверкой на различных задачах и современных LLM.
Эта работа представляет подход к моделированию ошибок LLM, вдохновленный физикой, рассматривая эти сложные системы как природные явления, которые можно анализировать с использованием методов теоретической физики. Авторы предполагают, что ошибки возникают из-за накопления небольших, "шумоподобных" неточностей в механизме внимания. Их работа демонстрирует, как поведение моделей с сотнями миллиардов параметров может быть эффективно охарактеризовано всего двумя интерпретируемыми параметрами.
Sparse Hash AI
Сельскохозяйственный дрон можно использовать для личных полётов.
https://d.fixupx.com/IntCyberDigest/status/2017995521118384354
https://d.fixupx.com/IntCyberDigest/status/2017995521118384354
Inverse Depth Scaling From Most Layers Being Similar
https://www.alphaxiv.org/overview/2602.05970
Исследователи количественно демонстрируют, что потери в больших языковых моделях обратно пропорциональны глубине (L ~ 1/ℓ). Их результаты показывают, что LLM в основном используют глубину через механизм "ансамблевого усреднения", где слои выполняют схожие, инкрементальные обновления, которые в совокупности уменьшают ошибку.
https://www.alphaxiv.org/overview/2602.05970
Исследователи количественно демонстрируют, что потери в больших языковых моделях обратно пропорциональны глубине (L ~ 1/ℓ). Их результаты показывают, что LLM в основном используют глубину через механизм "ансамблевого усреднения", где слои выполняют схожие, инкрементальные обновления, которые в совокупности уменьшают ошибку.
Counting Hypothesis: Potential Mechanism of In-Context Learning
https://www.alphaxiv.org/overview/2602.01687
Исследователи представляют «гипотезу подсчета» как механистическое объяснение внутриконтекстного обучения в больших языковых моделях, предполагая, что модели вспоминают ответы с помощью FFN и накапливают контекстуальную силу в остаточных потоках. Их эмпирический анализ показывает общие внутренние компоненты между примерами и ответами, при этом активность компонентов коррелирует с точностью предсказаний.
https://www.alphaxiv.org/overview/2602.01687
Исследователи представляют «гипотезу подсчета» как механистическое объяснение внутриконтекстного обучения в больших языковых моделях, предполагая, что модели вспоминают ответы с помощью FFN и накапливают контекстуальную силу в остаточных потоках. Их эмпирический анализ показывает общие внутренние компоненты между примерами и ответами, при этом активность компонентов коррелирует с точностью предсказаний.
Learning to Reason in 13 Parameters
https://www.alphaxiv.org/ru/overview/2602.04118
Исследователи разработали TinyLoRA – метод эффективной тонкой настройки параметров, который позволяет большим языковым моделям приобретать сложные навыки математического рассуждения, обучаясь всего на 13 параметрах. Этот подход, в сочетании с обучением с подкреплением, достиг 91% точности на GSM8K, демонстрируя значительный прогресс в адаптации моделей со сверхнизкой емкостью.
https://www.alphaxiv.org/ru/overview/2602.04118
Исследователи разработали TinyLoRA – метод эффективной тонкой настройки параметров, который позволяет большим языковым моделям приобретать сложные навыки математического рассуждения, обучаясь всего на 13 параметрах. Этот подход, в сочетании с обучением с подкреплением, достиг 91% точности на GSM8K, демонстрируя значительный прогресс в адаптации моделей со сверхнизкой емкостью.
Noise Stability of Transformer Models
https://www.alphaxiv.org/overview/2602.08287
Стабильность к шуму представлена как мера предвзятости к простоте в моделях Transformer, демонстрируя улучшенные теоретические границы для спектральной концентрации по сравнению со средней чувствительностью. Метод регуляризации, основанный на этой метрике, ускоряет феномен грокинга в синтетических задачах примерно на 35% и сокращает количество итераций для достижения высокой точности валидации при предсказании следующего токена на 75%, а также служит ранним индикатором обобщения.
https://www.alphaxiv.org/overview/2602.08287
Стабильность к шуму представлена как мера предвзятости к простоте в моделях Transformer, демонстрируя улучшенные теоретические границы для спектральной концентрации по сравнению со средней чувствительностью. Метод регуляризации, основанный на этой метрике, ускоряет феномен грокинга в синтетических задачах примерно на 35% и сокращает количество итераций для достижения высокой точности валидации при предсказании следующего токена на 75%, а также служит ранним индикатором обобщения.