🚀 В ByteDance Seed представили новую технику для обучения LLM - Knapsack RL
Проблема: в классическом RL-тренинге распределение rollout-ов идёт равномерно.
✅ Простые задачи всегда решаются → нет градиента
❌ Сложные задачи всегда проваливаются → тоже нет градиента
💡 Решение: рассматривать exploration как задачу рюкзака (knapsack) и распределять вычислительный бюджет туда, где это реально даёт сигнал обучения.
✨ Результаты:
🔼 +20–40% больше ненулевых градиентов
🧮 До 93 rollout-ов на сложные задачи (без доп. вычислений)
📈 +2–4 средних балла, до +9 на пике в математических бенчмарках
💰 ~в 2 раза дешевле, чем равномерное распределение
📄 Подробности: huggingface.co/papers/2509.25849
Проблема: в классическом RL-тренинге распределение rollout-ов идёт равномерно.
✅ Простые задачи всегда решаются → нет градиента
❌ Сложные задачи всегда проваливаются → тоже нет градиента
💡 Решение: рассматривать exploration как задачу рюкзака (knapsack) и распределять вычислительный бюджет туда, где это реально даёт сигнал обучения.
✨ Результаты:
🔼 +20–40% больше ненулевых градиентов
🧮 До 93 rollout-ов на сложные задачи (без доп. вычислений)
📈 +2–4 средних балла, до +9 на пике в математических бенчмарках
💰 ~в 2 раза дешевле, чем равномерное распределение
📄 Подробности: huggingface.co/papers/2509.25849
👍4❤2