я обучала одну модель
4.58K subscribers
457 photos
29 videos
21 files
379 links
Shitposting on various subjects

PS рекламы в канале нет
Download Telegram
Пока что лучшее что я видела в чатике с ACL
🔥4022😁8👍7🤔3🤡3🐳3👌1
Самые интересные, на мой взгляд, статьи с ACL'25 🙃:

- Training Dynamics Underlying Language Model Scaling Laws: Loss Deceleration and Zero-Sum Learning: авторы замечают, что у моделей разного размера на разных этапах обучения происходит loss deceleration – то есть момент, когда лосс резко перестает быстро падать и продолжает снижаться гораздо медленнее. В статье они показывают, что это происходит из-за zero-sum learning: научившись решать какие-то задачи, модель не может научиться чему-то новому, не пожертвовав качеством на уже приобретенных навыках. Чем больше модель, тем больше типов задач она может "поддерживать" параллельно -> тем позже в обучении у нее замедляется падение лосса, и тем большая скорость падения сохраняется после этого перелома

- Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases: показывают, что претрен модели на формальных языках (например, Dyck, который состоит из последовательности корректно открытых и закрытых скобок) позволяет ей дальше более эффективно обучаться естественным языкам. Например, модели, предварительно обученной на формальных языках, нужно на 33% меньше токенов на естественном языке, чтобы добиться такого же лосса, как при обычной тренировке только на тексте. Еще показывают, что веса аттеншн-хедов, выученные при тренировке на формальных языках, потом переиспользуются дальше, то есть модели получается выучить что-то о структуре и логике языка из скобочек. Кстати у моего друга Миши есть статья на ту же тему, где он еще находит язык, который лучше всего в итоге транслируется в понимание английского

- Byte Latent Transformer: Patches Scale Better Than Tokens: кажется все кроме меня уже ее прочитали, но главная идея в том, что хочется избавиться от токенизации, но при этом разбивать текст на отдельные байты получается слишком неэффективно. Поэтому байты можно сгруппировать по энтропии. Например, в предложении "Daenerys Targeryen is in Game of Thrones, a fantasy epic by George R.R. Martin." легко угадать, что после "Daene" идет "rys", но сложно угадать "is" после "Targeryen", поэтому энтропия там будет высокая, и там можно разбить на два патча

- A Little Human Data Goes A Long Way: можно повышать процент синтететических данных в обучающем датасете до 90% без изменения в качестве итоговой модели, но дальше 90% все резко становится хуже. Еще в статье пробовали добавлять человеческие данные в чисто синтетические датасеты: чтобы побить выигрыш от 200 человеческих ответов, надо было докинуть 16к синтетических датапоинтов

- Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?: показывают, что очень большое число токенов в long cot довольно бесполезное - 67.8% токенов в среднем не несут пользы, так как не ведут к корректному решению, а 27% шагов, которые LLM перечисляют в решении, по сути являются повторениями одного и того же. Находить ошибки в своих и чужих решениях у моделей на удивление плохо получается, и лучшим критиком в этом плане оказалась GPT-4-turbo, которая заметно впереди более сильных о1-preview и r1

- U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs: помимо бенчмарка там показывают, что модели, которые хорошо умеют решать математику, часто при этом плохо оценивают чужие решения, и наоборот. При этом, у семейств моделей обычно есть свои внутренние баесы: например, Qwen часто признают неправильные ответы правильными, а Claude оценивает горадо строже
Please open Telegram to view this post
VIEW IN TELEGRAM
31🔥9👍7
Еще одна вещь, которая мне запомнилась с ACL: в своем keynote Luke Zettlemoyer упоминал умопомрачительные успехи RL, которые были обнаружены в некоторых недавних статьях. Например, в Spurious Rewards: Rethinking Training Signals in RLVR показывали, что в принципе Qwen может учиться на рандомных ревордах, или даже на заведомо неправильных (когда модель поощряют за некорректный ответ). Это не единственная в своем роде такая статья, но видимо наиболее всем запомнившаяся. В своей речи Люк сказал, что пока не понятно, с чем связан чудодейственный эффект RL, но мне кажется за пару последних месяцев объяснения уже смогли найти:

1. Банально плохие эвалы, где изначальный перфоманс модели оказывается сильно занижен просто из-за того, что ее ответы не соответствуют ожидаемому формату. Вот в этом репорте можно увидеть разборы многих последних популярных статей по RL, где продвигается обучение с очень странными ревордами, или без ревордов в явном виде (как правило это обучение, где минимизируется или максимизируется энтропия), и практически во всех случаях выводы статьи оказываются несостоятельны, потому что авторы некорректно посчитали изначальные скоры

2. В самих алгоритмах PPO и GRPO уже есть байес. Даже с рандомным ревордом, у этих алгоритмов всегда есть предрасположенность еще чаще выбирать действия, которые уже являются вероятными. Происходит это из-за clipping factor, который ограничивает то, насколько большой может быть апдейт за один шаг, но при этом он не позволяет этому апдейту быть совсем нулевым. Хотя по-хорошему, с рандомными ревордами градиент должен как раз должен быть около 0 и никаких изменений в полиси модели происходить не должно (алгоритмы вроде REINFORCE это обеспечивают)

В целом, сами авторы Spurious Rewards развивают эту мысль в статье (но видимо до этого момента мало кто дошел): они говорят, что Qwen модели изначально имеют некоторую предрасположенность решать математические задачи с помощью вспомогательных кусков кода. После обучения с GRPO они все чаще начинают генерировать код, и это помогает им решать задачи лучше. В то время как в LLaMA-моделях склонности к коду изначально нет, и поэтому такой магический RL на них не работает


Оба этих пункта, как мне кажется, очень важно учитывать при дизайне своих исследований; на ACL было достаточно работ и с очень плохими эвалами, и с очень странными RLем, так что проблема актуальная..........😫
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2811🔥4🥴1