Noise Stability of Transformer Models
https://www.alphaxiv.org/overview/2602.08287
Стабильность к шуму представлена как мера предвзятости к простоте в моделях Transformer, демонстрируя улучшенные теоретические границы для спектральной концентрации по сравнению со средней чувствительностью. Метод регуляризации, основанный на этой метрике, ускоряет феномен грокинга в синтетических задачах примерно на 35% и сокращает количество итераций для достижения высокой точности валидации при предсказании следующего токена на 75%, а также служит ранним индикатором обобщения.
https://www.alphaxiv.org/overview/2602.08287
Стабильность к шуму представлена как мера предвзятости к простоте в моделях Transformer, демонстрируя улучшенные теоретические границы для спектральной концентрации по сравнению со средней чувствительностью. Метод регуляризации, основанный на этой метрике, ускоряет феномен грокинга в синтетических задачах примерно на 35% и сокращает количество итераций для достижения высокой точности валидации при предсказании следующего токена на 75%, а также служит ранним индикатором обобщения.