Open Source LLM — Llama / Qwen / DeepSeek

Channel created

12:55

Channel photo updated

14:42

Open Source LLM — Llama / Qwen / DeepSeek

S-Adam: оптимизатор для неровного ландшафта, где AdamW уже начинает дрожать

В arXiv вышел Singularity-aware Adam (S-Adam) — оптимизатор, который динамически меняет шаг через локальную геометрическую нестабильность.
Ключевая метрика — Local Geometric Instability (LGI): она оценивает диаметр субдифференциала Clarke по дисперсии случайных направленных производных.

Авторы добавляют демпфирование exp(-λρ): в зонах с высокой нестабильностью шаги замедляются, а в гладких басинах скорость сохраняется.
В теории заявлена сходимость почти наверное к (δ,ε)-Clarke stationary points со скоростью O(1/√T).

На практике это интересно там, где обычный AdamW начинает ловить осцилляции: QAT, маленькие батчи, шумные градиенты.
В экспериментах S-Adam обошёл AdamW и Prox-SGD: до +6% на CIFAR-100 и до +3% на TinyImageNet.

Если у вас файнтюн под жёсткую квантизацию или нестабильный лосс, такой адаптивный damping стоит смотреть раньше, чем опять крутить lr и weight decay.

1 view19:10

Open Source LLM — Llama / Qwen / DeepSeek

Fusion-модели больше не обязаны совпадать «по слоям». Теперь их сводят через нейроны

На arXiv вышел Model Fusion via Retrofitting: авторы предлагают neuron-centric family of fusion algorithms, где fusion формулируется как representation-matching.
Метод применим к архитектурам, которые можно разложить в DAG уровней; в экспериментах его прогнали на VGG, ResNet и ViT. Лучшие приросты — в zero-shot и non-IID сценариях. Есть GitHub-код.

Для команд, которые склеивают несколько чекпоинтов или собирают доменные модели без полного retrain, это важный сдвиг: alignment идёт не только по «одинаковым блокам», а по более устойчивым нейронам и их attribution scores.
Практически это означает меньше ручной подгонки при merge и больше шансов сохранить полезные признаки, когда модели обучались на разных распределениях.

Если вы уже играете с model soup / weight merging / task arithmetic, следующий тест очевиден: сравнить fusion по слоям и через retrofitting на своём домене, особенно если данные non-IID.
https://github.com/AndrewSpano/model-fusion-via-retrofitting

1 view19:18

Open Source LLM — Llama / Qwen / DeepSeek

Jailbreak Scaling Laws: short prompts — power-law ASR, long — exponential с samples. Главный инсайт для open-source LLM 3B-70B?

Anonymous Poll

Short prompts: power-law scaling

Long prompts: exponential рост

Стабильно across methods/datasets

Spin-glass модель proxy language

0 voter1 view07:04

Open Source LLM — Llama / Qwen / DeepSeek

Простой sentence-level multilingual CSD улучшает perf по en/ja/ko/zh за пределами bilingual. Протестируете в файнтюнах?

Anonymous Poll