я обучала одну модель
4.58K subscribers
457 photos
29 videos
21 files
379 links
Shitposting on various subjects

PS рекламы в канале нет
Download Telegram
Еще одна вещь, которая мне запомнилась с ACL: в своем keynote Luke Zettlemoyer упоминал умопомрачительные успехи RL, которые были обнаружены в некоторых недавних статьях. Например, в Spurious Rewards: Rethinking Training Signals in RLVR показывали, что в принципе Qwen может учиться на рандомных ревордах, или даже на заведомо неправильных (когда модель поощряют за некорректный ответ). Это не единственная в своем роде такая статья, но видимо наиболее всем запомнившаяся. В своей речи Люк сказал, что пока не понятно, с чем связан чудодейственный эффект RL, но мне кажется за пару последних месяцев объяснения уже смогли найти:

1. Банально плохие эвалы, где изначальный перфоманс модели оказывается сильно занижен просто из-за того, что ее ответы не соответствуют ожидаемому формату. Вот в этом репорте можно увидеть разборы многих последних популярных статей по RL, где продвигается обучение с очень странными ревордами, или без ревордов в явном виде (как правило это обучение, где минимизируется или максимизируется энтропия), и практически во всех случаях выводы статьи оказываются несостоятельны, потому что авторы некорректно посчитали изначальные скоры

2. В самих алгоритмах PPO и GRPO уже есть байес. Даже с рандомным ревордом, у этих алгоритмов всегда есть предрасположенность еще чаще выбирать действия, которые уже являются вероятными. Происходит это из-за clipping factor, который ограничивает то, насколько большой может быть апдейт за один шаг, но при этом он не позволяет этому апдейту быть совсем нулевым. Хотя по-хорошему, с рандомными ревордами градиент должен как раз должен быть около 0 и никаких изменений в полиси модели происходить не должно (алгоритмы вроде REINFORCE это обеспечивают)

В целом, сами авторы Spurious Rewards развивают эту мысль в статье (но видимо до этого момента мало кто дошел): они говорят, что Qwen модели изначально имеют некоторую предрасположенность решать математические задачи с помощью вспомогательных кусков кода. После обучения с GRPO они все чаще начинают генерировать код, и это помогает им решать задачи лучше. В то время как в LLaMA-моделях склонности к коду изначально нет, и поэтому такой магический RL на них не работает


Оба этих пункта, как мне кажется, очень важно учитывать при дизайне своих исследований; на ACL было достаточно работ и с очень плохими эвалами, и с очень странными RLем, так что проблема актуальная..........😫
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2811🔥4🥴1