Самые интересные, на мой взгляд, статьи с ACL'25 🙃 :
- Training Dynamics Underlying Language Model Scaling Laws: Loss Deceleration and Zero-Sum Learning: авторы замечают, что у моделей разного размера на разных этапах обучения происходит loss deceleration – то есть момент, когда лосс резко перестает быстро падать и продолжает снижаться гораздо медленнее. В статье они показывают, что это происходит из-за zero-sum learning: научившись решать какие-то задачи, модель не может научиться чему-то новому, не пожертвовав качеством на уже приобретенных навыках. Чем больше модель, тем больше типов задач она может "поддерживать" параллельно -> тем позже в обучении у нее замедляется падение лосса, и тем большая скорость падения сохраняется после этого перелома
- Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases: показывают, что претрен модели на формальных языках (например, Dyck, который состоит из последовательности корректно открытых и закрытых скобок) позволяет ей дальше более эффективно обучаться естественным языкам. Например, модели, предварительно обученной на формальных языках, нужно на 33% меньше токенов на естественном языке, чтобы добиться такого же лосса, как при обычной тренировке только на тексте. Еще показывают, что веса аттеншн-хедов, выученные при тренировке на формальных языках, потом переиспользуются дальше, то есть модели получается выучить что-то о структуре и логике языка из скобочек. Кстати у моего друга Миши есть статья на ту же тему, где он еще находит язык, который лучше всего в итоге транслируется в понимание английского
- Byte Latent Transformer: Patches Scale Better Than Tokens: кажется все кроме меня уже ее прочитали, но главная идея в том, что хочется избавиться от токенизации, но при этом разбивать текст на отдельные байты получается слишком неэффективно. Поэтому байты можно сгруппировать по энтропии. Например, в предложении "Daenerys Targeryen is in Game of Thrones, a fantasy epic by George R.R. Martin." легко угадать, что после "Daene" идет "rys", но сложно угадать "is" после "Targeryen", поэтому энтропия там будет высокая, и там можно разбить на два патча
- A Little Human Data Goes A Long Way: можно повышать процент синтететических данных в обучающем датасете до 90% без изменения в качестве итоговой модели, но дальше 90% все резко становится хуже. Еще в статье пробовали добавлять человеческие данные в чисто синтетические датасеты: чтобы побить выигрыш от 200 человеческих ответов, надо было докинуть 16к синтетических датапоинтов
- Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?: показывают, что очень большое число токенов в long cot довольно бесполезное - 67.8% токенов в среднем не несут пользы, так как не ведут к корректному решению, а 27% шагов, которые LLM перечисляют в решении, по сути являются повторениями одного и того же. Находить ошибки в своих и чужих решениях у моделей на удивление плохо получается, и лучшим критиком в этом плане оказалась GPT-4-turbo, которая заметно впереди более сильных о1-preview и r1
- U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs: помимо бенчмарка там показывают, что модели, которые хорошо умеют решать математику, часто при этом плохо оценивают чужие решения, и наоборот. При этом, у семейств моделей обычно есть свои внутренние баесы: например, Qwen часто признают неправильные ответы правильными, а Claude оценивает горадо строже
- Training Dynamics Underlying Language Model Scaling Laws: Loss Deceleration and Zero-Sum Learning: авторы замечают, что у моделей разного размера на разных этапах обучения происходит loss deceleration – то есть момент, когда лосс резко перестает быстро падать и продолжает снижаться гораздо медленнее. В статье они показывают, что это происходит из-за zero-sum learning: научившись решать какие-то задачи, модель не может научиться чему-то новому, не пожертвовав качеством на уже приобретенных навыках. Чем больше модель, тем больше типов задач она может "поддерживать" параллельно -> тем позже в обучении у нее замедляется падение лосса, и тем большая скорость падения сохраняется после этого перелома
- Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases: показывают, что претрен модели на формальных языках (например, Dyck, который состоит из последовательности корректно открытых и закрытых скобок) позволяет ей дальше более эффективно обучаться естественным языкам. Например, модели, предварительно обученной на формальных языках, нужно на 33% меньше токенов на естественном языке, чтобы добиться такого же лосса, как при обычной тренировке только на тексте. Еще показывают, что веса аттеншн-хедов, выученные при тренировке на формальных языках, потом переиспользуются дальше, то есть модели получается выучить что-то о структуре и логике языка из скобочек. Кстати у моего друга Миши есть статья на ту же тему, где он еще находит язык, который лучше всего в итоге транслируется в понимание английского
- Byte Latent Transformer: Patches Scale Better Than Tokens: кажется все кроме меня уже ее прочитали, но главная идея в том, что хочется избавиться от токенизации, но при этом разбивать текст на отдельные байты получается слишком неэффективно. Поэтому байты можно сгруппировать по энтропии. Например, в предложении "Daenerys Targeryen is in Game of Thrones, a fantasy epic by George R.R. Martin." легко угадать, что после "Daene" идет "rys", но сложно угадать "is" после "Targeryen", поэтому энтропия там будет высокая, и там можно разбить на два патча
- A Little Human Data Goes A Long Way: можно повышать процент синтететических данных в обучающем датасете до 90% без изменения в качестве итоговой модели, но дальше 90% все резко становится хуже. Еще в статье пробовали добавлять человеческие данные в чисто синтетические датасеты: чтобы побить выигрыш от 200 человеческих ответов, надо было докинуть 16к синтетических датапоинтов
- Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?: показывают, что очень большое число токенов в long cot довольно бесполезное - 67.8% токенов в среднем не несут пользы, так как не ведут к корректному решению, а 27% шагов, которые LLM перечисляют в решении, по сути являются повторениями одного и того же. Находить ошибки в своих и чужих решениях у моделей на удивление плохо получается, и лучшим критиком в этом плане оказалась GPT-4-turbo, которая заметно впереди более сильных о1-preview и r1
- U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs: помимо бенчмарка там показывают, что модели, которые хорошо умеют решать математику, часто при этом плохо оценивают чужие решения, и наоборот. При этом, у семейств моделей обычно есть свои внутренние баесы: например, Qwen часто признают неправильные ответы правильными, а Claude оценивает горадо строже
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Between Circuits and Chomsky: Pre-pretraining on Formal Languages...
Pretraining language models on formal language can improve their acquisition of natural language. Which features of the formal language impart an inductive bias that leads to effective transfer?...
❤31🔥9👍7
Еще одна вещь, которая мне запомнилась с ACL: в своем keynote Luke Zettlemoyer упоминал умопомрачительные успехи RL, которые были обнаружены в некоторых недавних статьях. Например, в Spurious Rewards: Rethinking Training Signals in RLVR показывали, что в принципе Qwen может учиться на рандомных ревордах, или даже на заведомо неправильных (когда модель поощряют за некорректный ответ). Это не единственная в своем роде такая статья, но видимо наиболее всем запомнившаяся. В своей речи Люк сказал, что пока не понятно, с чем связан чудодейственный эффект RL, но мне кажется за пару последних месяцев объяснения уже смогли найти:
1. Банально плохие эвалы, где изначальный перфоманс модели оказывается сильно занижен просто из-за того, что ее ответы не соответствуют ожидаемому формату. Вот в этом репорте можно увидеть разборы многих последних популярных статей по RL, где продвигается обучение с очень странными ревордами, или без ревордов в явном виде (как правило это обучение, где минимизируется или максимизируется энтропия), и практически во всех случаях выводы статьи оказываются несостоятельны, потому что авторы некорректно посчитали изначальные скоры
2. В самих алгоритмах PPO и GRPO уже есть байес. Даже с рандомным ревордом, у этих алгоритмов всегда есть предрасположенность еще чаще выбирать действия, которые уже являются вероятными. Происходит это из-за clipping factor, который ограничивает то, насколько большой может быть апдейт за один шаг, но при этом он не позволяет этому апдейту быть совсем нулевым. Хотя по-хорошему, с рандомными ревордами градиент должен как раз должен быть около 0 и никаких изменений в полиси модели происходить не должно (алгоритмы вроде REINFORCE это обеспечивают)
В целом, сами авторы Spurious Rewards развивают эту мысль в статье (но видимо до этого момента мало кто дошел): они говорят, что Qwen модели изначально имеют некоторую предрасположенность решать математические задачи с помощью вспомогательных кусков кода. После обучения с GRPO они все чаще начинают генерировать код, и это помогает им решать задачи лучше. В то время как в LLaMA-моделях склонности к коду изначально нет, и поэтому такой магический RL на них не работает
Оба этих пункта, как мне кажется, очень важно учитывать при дизайне своих исследований; на ACL было достаточно работ и с очень плохими эвалами, и с очень странными RLем, так что проблема актуальная..........😫
1. Банально плохие эвалы, где изначальный перфоманс модели оказывается сильно занижен просто из-за того, что ее ответы не соответствуют ожидаемому формату. Вот в этом репорте можно увидеть разборы многих последних популярных статей по RL, где продвигается обучение с очень странными ревордами, или без ревордов в явном виде (как правило это обучение, где минимизируется или максимизируется энтропия), и практически во всех случаях выводы статьи оказываются несостоятельны, потому что авторы некорректно посчитали изначальные скоры
2. В самих алгоритмах PPO и GRPO уже есть байес. Даже с рандомным ревордом, у этих алгоритмов всегда есть предрасположенность еще чаще выбирать действия, которые уже являются вероятными. Происходит это из-за clipping factor, который ограничивает то, насколько большой может быть апдейт за один шаг, но при этом он не позволяет этому апдейту быть совсем нулевым. Хотя по-хорошему, с рандомными ревордами градиент должен как раз должен быть около 0 и никаких изменений в полиси модели происходить не должно (алгоритмы вроде REINFORCE это обеспечивают)
В целом, сами авторы Spurious Rewards развивают эту мысль в статье (но видимо до этого момента мало кто дошел): они говорят, что Qwen модели изначально имеют некоторую предрасположенность решать математические задачи с помощью вспомогательных кусков кода. После обучения с GRPO они все чаще начинают генерировать код, и это помогает им решать задачи лучше. В то время как в LLaMA-моделях склонности к коду изначально нет, и поэтому такой магический RL на них не работает
Оба этих пункта, как мне кажется, очень важно учитывать при дизайне своих исследований; на ACL было достаточно работ и с очень плохими эвалами, и с очень странными RLем, так что проблема актуальная..........
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28❤11🔥4🥴1