Minitron - это семейство малых языковых моделей (SLMs), полученных путем экспериментального метода pruning модели Nemotron-4 15B (NVIDIA).
Метод состоит из уменьшения embedding size, attention heads и промежуточной размерности MLP, после чего продолжается обучение с дистилляцией до финального результата.
Суть экспериментальности состоит в том, что для получения 8В и 4В из 15В требуется в 40 раз меньше обучающих токенов и это дает экономию вычислительных ресурсов почти в 1.8 раза по сравнению с классическим обучением.
Более подробно методика описана в исследовании на arxiv
В обеих моделях используется Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
Датасет для Minitron-8B-Base состоит из англоязычных и мультиязычных текстов (веб-страницы, диалоги, статьи и другие материалы) взятых из различных областей (юриспруденция, математика, наука, финансы) и примеров кода на различных языках программирования. Для повышения эффективности модели были добавлены в обучающий набор данные типов QA (question-answering) и ASD (alignment style data).
Актуальность датасета: Июнь 2023
Модели Minitron показали улучшение результатов MMLU на 16 % по сравнению с обучением с нуля и сопоставимы с Mistral 7B, Gemma 7B и Llama-3 8B.
❗️ Модели Minitron предназначены только для исследований и разработок.
PR поддержки моделей в Hugging Face находится на рассмотрении, и ожидается, что она появится в ближайшее время.
git clone git@github.com:suiyoubi/transformers.git
cd transformers
git checkout 63d9cb0
pip install .
@ai_machinelearning_big_data
#AI #Minitron #ML #NVIDIA #SLMs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤4🔥2