Python_BE1
9 subscribers
748 photos
252 videos
7 files
672 links
Канал по Python, полезный и интересный контент для всех уровней.
По вопросам сотрудничества @cyberJohnny
Download Telegram
🔸 Gated DeltaNet: гибридная архитектура нейронных сетей с управлением памятью.

Gated DeltaNet - экспериментальная архитектура, разработанная NVIDIA для управления памятью в контексте линейных трансформеров, которая может решить проблемы с забыванием в моделях, обрабатывающих длинные последовательности данных.

Gated DeltaNet предлагает использовать одновременно дельта-правило и гейтинг. Дельта-правило обновляет память модели, заменяя устаревшую информацию на новую, а механизм гейтинга удаляет ненужную информацию из памяти, чтобы она не мешала модели работать эффективно.

Архитектура Gated DeltaNet была разработана на основе алгоритма, который параллелит вычисления дельта-правила с использованием представления WY и оптимизирует работу с GPU на уровне тензорных ядер.

Перфоманс-тестирование Gated DeltaNet проводилось на бенчмарках языкового моделирования, ризонинга, контекстного извлечения, экстраполяции длины и понимания объемного контекста.

Модель Gated DeltaNet превзошла Mamba2 и DeltaNet на всех этих тестах. Например - улучшенная точность на задачах S-NIAH-2 и S-NIAH-3, где Gated DeltaNet показала более эффективное управление памятью по сравнению с DeltaNet и Mamba2 и превосходство в задачах ризонинга.

Гибридные архитектуры, сочетающие слои Gated DeltaNet с вниманием скользящего окна или слоями Mamba2 повысили эффективность обучения и производительность моделей.

Тестовые<code> GatedDeltaNet-H1 и GatedDeltaNet-H2</code> дали еще более высокие результаты, используя комбинации Gated DeltaNet + SWA и Mamba2 + Gated DeltaNet + SWA соответственно.

Gated DeltaNet показала самые низкие показатели перплексии при экстраполяции на длинные последовательности до 20 тыс. токенов и продемонстрировала превосходные способности в извлечении информации, обучении в контексте и отслеживании состояния в задачах LongBench.

🔸Практическая реализация обучения Gated DeltaNet на Pytorch доступна в репозитории на Github (https://github.com/NVlabs/GatedDeltaNet)

📌Лицензирование:

🟢Некоммерческое использование: Nvidia Source Code License-NC

🟠Коммерческое использование: по запросу через форму NVIDIA Research Licensing (https://www.nvidia.com/en-us/research/inquiries/)

🟡Arxiv (https://arxiv.org/pdf/2412.06464v1)

🟡GitHub (https://github.com/NVlabs/GatedDeltaNet)



#AI #ML #LLM #NVIDIA #GatedDeltaNet
@python_be1