S-Adam: оптимизатор для неровного ландшафта, где AdamW уже начинает дрожать
В arXiv вышел Singularity-aware Adam (S-Adam) — оптимизатор, который динамически меняет шаг через локальную геометрическую нестабильность.
Ключевая метрика — Local Geometric Instability (LGI): она оценивает диаметр субдифференциала Clarke по дисперсии случайных направленных производных.
Авторы добавляют демпфирование
В теории заявлена сходимость почти наверное к
На практике это интересно там, где обычный AdamW начинает ловить осцилляции: QAT, маленькие батчи, шумные градиенты.
В экспериментах S-Adam обошёл AdamW и Prox-SGD: до +6% на CIFAR-100 и до +3% на TinyImageNet.
Если у вас файнтюн под жёсткую квантизацию или нестабильный лосс, такой адаптивный damping стоит смотреть раньше, чем опять крутить lr и weight decay.
В arXiv вышел Singularity-aware Adam (S-Adam) — оптимизатор, который динамически меняет шаг через локальную геометрическую нестабильность.
Ключевая метрика — Local Geometric Instability (LGI): она оценивает диаметр субдифференциала Clarke по дисперсии случайных направленных производных.
Авторы добавляют демпфирование
exp(-λρ): в зонах с высокой нестабильностью шаги замедляются, а в гладких басинах скорость сохраняется. В теории заявлена сходимость почти наверное к
(δ,ε)-Clarke stationary points со скоростью O(1/√T).На практике это интересно там, где обычный AdamW начинает ловить осцилляции: QAT, маленькие батчи, шумные градиенты.
В экспериментах S-Adam обошёл AdamW и Prox-SGD: до +6% на CIFAR-100 и до +3% на TinyImageNet.
Если у вас файнтюн под жёсткую квантизацию или нестабильный лосс, такой адаптивный damping стоит смотреть раньше, чем опять крутить lr и weight decay.
Fusion-модели больше не обязаны совпадать «по слоям». Теперь их сводят через нейроны
На arXiv вышел Model Fusion via Retrofitting: авторы предлагают neuron-centric family of fusion algorithms, где fusion формулируется как representation-matching.
Метод применим к архитектурам, которые можно разложить в DAG уровней; в экспериментах его прогнали на VGG, ResNet и ViT. Лучшие приросты — в zero-shot и non-IID сценариях. Есть GitHub-код.
Для команд, которые склеивают несколько чекпоинтов или собирают доменные модели без полного retrain, это важный сдвиг: alignment идёт не только по «одинаковым блокам», а по более устойчивым нейронам и их attribution scores.
Практически это означает меньше ручной подгонки при merge и больше шансов сохранить полезные признаки, когда модели обучались на разных распределениях.
Если вы уже играете с model soup / weight merging / task arithmetic, следующий тест очевиден: сравнить fusion по слоям и через retrofitting на своём домене, особенно если данные non-IID.
https://github.com/AndrewSpano/model-fusion-via-retrofitting
На arXiv вышел Model Fusion via Retrofitting: авторы предлагают neuron-centric family of fusion algorithms, где fusion формулируется как representation-matching.
Метод применим к архитектурам, которые можно разложить в DAG уровней; в экспериментах его прогнали на VGG, ResNet и ViT. Лучшие приросты — в zero-shot и non-IID сценариях. Есть GitHub-код.
Для команд, которые склеивают несколько чекпоинтов или собирают доменные модели без полного retrain, это важный сдвиг: alignment идёт не только по «одинаковым блокам», а по более устойчивым нейронам и их attribution scores.
Практически это означает меньше ручной подгонки при merge и больше шансов сохранить полезные признаки, когда модели обучались на разных распределениях.
Если вы уже играете с model soup / weight merging / task arithmetic, следующий тест очевиден: сравнить fusion по слоям и через retrofitting на своём домене, особенно если данные non-IID.
https://github.com/AndrewSpano/model-fusion-via-retrofitting
Jailbreak Scaling Laws: short prompts — power-law ASR, long — exponential с samples. Главный инсайт для open-source LLM 3B-70B?
Anonymous Poll
0%
Short prompts: power-law scaling
0%
Long prompts: exponential рост
0%
Стабильно across methods/datasets
0%
Spin-glass модель proxy language
Простой sentence-level multilingual CSD улучшает perf по en/ja/ko/zh за пределами bilingual. Протестируете в файнтюнах?
Anonymous Poll
0%
Да, для Qwen/DeepSeek
0%
Нет, bilingual transfer хватит
0%
Сначала бенчмарки на Belebele
0%
Не мои языки
В self-play RL для Big 2: какой метод обходит Monte Carlo Q, SARSA и Q-learning против random/greedy/heuristic оппонентов?
Anonymous Poll
0%
PPO
0%
Monte Carlo Q approximation
0%
SARSA
0%
Q-learning
