Machinelearning

🌟 Minitron 8В и 4В: Две новые pruned-модели на базе Nemotron-4 15B

Minitron - это семейство малых языковых моделей (SLMs), полученных путем экспериментального метода pruning модели Nemotron-4 15B (NVIDIA).
Метод состоит из уменьшения embedding size, attention heads и промежуточной размерности MLP, после чего продолжается обучение с дистилляцией до финального результата.
Суть экспериментальности состоит в том, что для получения 8В и 4В из 15В требуется в 40 раз меньше обучающих токенов и это дает экономию вычислительных ресурсов почти в 1.8 раза по сравнению с классическим обучением.
Более подробно методика описана в исследовании на arxiv

🟢

Minitron-8B использует embedding size 4096, 48 attention heads и промежуточную размерность MLP 16384.

🟢

Minitron-4B использует embedding size 3072, 32 attention heads и промежуточную размерность MLP 9216.

В обеих моделях используется Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).

Датасет для Minitron-8B-Base состоит из англоязычных и мультиязычных текстов (веб-страницы, диалоги, статьи и другие материалы) взятых из различных областей (юриспруденция, математика, наука, финансы) и примеров кода на различных языках программирования. Для повышения эффективности модели были добавлены в обучающий набор данные типов QA (question-answering) и ASD (alignment style data).
Актуальность датасета: Июнь 2023

Модели Minitron показали улучшение результатов MMLU на 16 % по сравнению с обучением с нуля и сопоставимы с Mistral 7B, Gemma 7B и Llama-3 8B.

❗️ Модели Minitron предназначены только для исследований и разработок.
PR поддержки моделей в Hugging Face находится на рассмотрении, и ожидается, что она появится в ближайшее время.

▶️ Для локального запуска следует использовать ветку Github с коммитом ID 63d9cb0 :

git clone git@github.com:suiyoubi/transformers.git

cd transformers

git checkout 63d9cb0

pip install .

📌 Лицензирование: NVIDIA Open Model License Agreement

🟡

Модель 8B

🟡

Модель 4B

🟡

Arxiv

🖥

Github [ Stars: 5 | Issues: 0 | Forks: 9]

@ai_machinelearning_big_data

#AI #Minitron #ML #NVIDIA #SLMs

Please open Telegram to view this post