Cotype Nano - русскоязычная SLM от МТС.
MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.
Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.
На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.
Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.
▶️ Набор моделей:
🟢 Cotype-Nano - 1.54 млрд. параметров;
🟠 Cotype‑Nano-4bit - 403 млн. параметров, квантованная методом AWQ версия;
🟠 Cotype‑Nano‑CPU - оптимизированная с помощью openVINO версия под CPU Intel;
🟠 Cotype Nano GGUF - 1.54 млрд параметров, две версии в разрядности 16-bit (3. 09 Gb) и 8-bit (1.65 GB) под llama.cpp.
📌 Лицензирование: Apache 2.0 License.
🟡 Статья на Habr
🟡 Набор моделей на HF
#AI #ML #SLM #RuLLM #MTS
MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.
Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.
На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.
Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.
#AI #ML #SLM #RuLLM #MTS
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Cotype-Nano - a MTSAIR Collection
Small and strong 1.5B models