Recurrent Positional Encoding for Transformers
Идея: делать позиционное кодирование с помощью рекуррентной сети. В качестве эмбеддинга текста берется сумма токен-эмбеддингов и обучаемое позиционное предоставление на основе рекуррентной сети.
Предлагается поэкспериментировать с количеством слоев (использовать не менее трёх).
Идея: делать позиционное кодирование с помощью рекуррентной сети. В качестве эмбеддинга текста берется сумма токен-эмбеддингов и обучаемое позиционное предоставление на основе рекуррентной сети.
Предлагается поэкспериментировать с количеством слоев (использовать не менее трёх).
🥴5
Мало кто знает, но ответом на главный вопрос вселенной станет random seed, которым нужно будет проинициализировать gpt5.
🥴18