Познавательная статья Кристофера Флитвуда, ML-инженера HuggingFace об эволюции методов позиционного кодирования в моделях-трансформерах, начиная с простых подходов и заканчивая Rotary Positional Encoding (RoPE), используемым в современных моделях, таких как Llama 3.2.
Самовнимание, ключевой механизм трансформеров, требует обогащения позиционной информацией, поскольку оно является перестановочно инвариантным, то есть не учитывает порядок токенов в последовательности.
Без позиционной информации модели не могут различать одинаковые токены, находящиеся в разных позициях, что делает невозможным определение отношений между словами в предложении.
В статье описываются желательные свойства идеальной схемы позиционного кодирования: уникальность кодирования для каждой позиции, линейная зависимость между закодированными позициями, обобщение на более длинные последовательности, детерминированный процесс генерации и возможность расширения на множественные измерения.
Начальные методы, например, добавление целочисленного значения позиции к эмбеддингу токена, были признаны несостоятельными из-за проблем с диапазоном значений и низкой разделительной способностью. Альтернативой стало бинарное позиционное кодирование, которое, однако, не обеспечивало достаточной гладкости и непрерывности для оптимизации.
Синусоидальное позиционное кодирование, описанное в «Attention is all you need», стало важным шагом вперед.
Оно использует синусоидальные и косинусоидальные функции с разными частотами для кодирования позиции, позволяя модели изучать отношения между позициями.
RoPE кодирует относительные позиции, применяя матрицу вращения к парам компонентов векторов запросов (q) и ключей (k), что позволяет модели эффективно кодировать позиционную информацию без изменения нормы векторов. Это достигается путем умножения пар элементов векторов на матрицу вращения.
RoPE также может быть расширен для работы с многомерными данными, например, изображениями, путем независимого кодирования позиций в разных измерениях.
@ai_machinelearning_big_data
#AI #ML #LLM #RoPE #Huggingface #Blogpost
Please open Telegram to view this post
VIEW IN TELEGRAM