194K subscribers
3.56K photos
543 videos
17 files
4.3K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 MobileLLM: оптимизированные субмиллиардные LLM для мобильных устройств.

К презентации на ICML 2024, MetaResearch опубликовали обновленную версию исследования об методах оптимизации LLM с малым количеством параметров для мобильных устройств и представил код для обучения и оценки эффективности таких LLM.

Основная цель проекта - создание компактных и производительных языковых моделей с менее чем миллиардом параметров, способных работать на ресурсно-ограниченных устройствах.

MobileLLM демонстрирует значительное улучшение производительности по сравнению с предыдущими моделями аналогичного размера. Например, версии на 125M и 350M параметров показывают на 2.7% и 4.3% соответственно лучшую точность.

Архитектура разработана с учетом ограничений мобильных устройств по памяти и вычислительной мощности. Применяются методы функции активации (SwinGLU), embedding sharing и группировки внимания.
Методика, представленная в MobileLLM, может быть применен к моделям различных размеров, от 125M до 1.5B параметров.

MobileLLM показывает хорошие результаты в задачах чата и вызова API, приближаясь к производительности гораздо более крупных моделей в некоторых сценариях.

Несмотря на хорошие результаты, MobileLLM все еще уступает по возможностям крупным языковым моделям. Из-за кратно меньшего размера модели, контекст у моделей MobileLLM значительно меньше, чем у классических LLM.

Экспериментальная модель MobileLLM от FB Research еще не опубликована, она проходит юридический аудит и будет представлена позже.

🖥 Локальный трейн и оценка эффективности:


git clone https://github.com/facebookresearch/MobileLLM.git
pip install -r requirements.txt
python pretrain.py --config configs/125m.json # Конфиг для предобучения
python evaluation/evaluate_zero_shot.py --model_path /path/to/your/model # оценка модели на различных задачах (используйте скрипты в из /evaluation/ )


🖥 Github [ Stars: 561 | Issues: 6 | Forks: 22 ]
🟡Arxiv

@ai_machinelearning_big_data

#MobileLLM #LLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ MobileLLM: набор SLM от Facebookresearch.

MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной архитектуре трансформера для использования на устройствах с ограниченными ресурсами.

В создании MobileLLM были использованы: функция активации SwiGLU, шэринг эмбединга и grouped-query attention. Модели обучались на датасете в 1 трлн. токенов

MobileLLM-125M/350M более точны на 2,7%/4,3% по сравнению с другими моделями SoTA 125M/350M в задачах zero-shot рассуждений.

В открытый доступ опубликованы 4 модели c контекстом 2 тыс. токенов:

🟢MobileLLM-125M. 30 Layers, 9 Attention Heads, 3 KV Heads. 576 Token Dimension;

🟢MobileLLM-350M. 32 Layers, 15 Attention Heads, 5 KV Heads. 960 Token Dimension;

🟢MobileLLM-600M. 40 Layers, 18 Attention Heads, 6 KV Heads. 1152 Token Dimension;

🟢MobileLLM-1B. 54 Layers, 20 Attention Heads, 5 KV Heads. 1280 Token Dimension;

▶️ Инференс моделей возможен на HF Transformers или с использованием MobileLLM от facebookresearch.

▶️ Код для файнтюна и тренировки семейства MobileLLM доступен в репозитории MobileLLM.


📌Лицензирование: CC-BY-NC-4.0 License.


🟡Коллекция моделей на HF
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #SLM #MobileLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM