То шо нейросети

SAPO: новый алгоритм RL-обучения от Qwen

SAPO — это новый алгоритм policy optimization, представленный Qwen, который заменяет жёсткий clipping на плавный, температурно-контролируемый gating для более стабильного RL-обучения LLM (особенно для MoE-моделей).

→ Token-level importance ratios в RL имеют высокую дисперсию, которая ещё больше возрастает в MoE-моделях из-за routing heterogeneity. GRPO и GSPO используют жёсткий clipping для решения этой проблемы, но это создаёт хрупкий баланс: слишком жёстко — теряется learning signal, слишком мягко — градиенты становятся шумными.

→ SAPO использует sigmoid-образный soft gate, центрированный в on-policy точке. Вблизи on-policy градиенты текут нормально; по мере роста отклонения они плавно затухают, вместо того чтобы обрезаться до нуля. Это сохраняет полезный сигнал от умеренно off-policy токенов.

→ SAPO использует асимметричные температуры для положительных и отрицательных токенов, причём отрицательные токены получают более быстрое затухание. Логика: отрицательные градиенты повышают logits для множества несэмплированных токенов в огромном vocabulary, распространяя нестабильность, тогда как положительные градиенты усиливают только один токен.

→ В типичных условиях (небольшие on-policy шаги, низкая дисперсия в token ratios) token-level gates SAPO усредняются до sequence-level gate, поэтому алгоритм ведёт себя как GSPO. Но когда появляются outlier-токены, SAPO селективно понижает вес только их, вместо того чтобы обнулять градиент всей последовательности.

→ Эксперименты на Qwen3-30B-A3B показывают, что SAPO тренируется дольше до появления нестабильности и достигает более высоких Pass@1 на math бенчмарках (AIME25, HMMT25, BeyondAIME). Также не требуется хак “Routing Replay”, который необходим GRPO для стабильности MoE.

Крутой вклад от Qwen, на мой взгляд. Soft gating — элегантная золотая середина между агрессивным token clipping в GRPO и подходом GSPO. Правда SAPO хоть и задерживает нестабильность, но не устраняет её полностью, ну и набор бенчмарков весьма ограниченный.

Статья: https://arxiv.org/abs/2511.20347

@toshoseti

❤3

557 views13:19