Machinelearning

⚡️ FBI-LLM: семейство binary foundation моделей, обученных с нуля.

Лаборатория Университета MBZUAI (ОАЭ) и Университет Carnegie Melon опубликовали в открытом доступе набор моделей, созданных по методологии Fully Binarized Large Language Model (FBI-LLM).

При создании FBI-LLM была использована авторегрессионная дистилляция потерь при сохранении эквивалентной размерности модели (130M, 1.3B, 7B) для достижения производительности, сравнимой с FP16 / BF16.

Для обучения семейства был использован датасет Amber, который состоит из документов Arxiv, книг, С4, данных веб-страниц, StarCoder, StackExchage и Wikipedia.
Суммарный объем датасета - 1259 млрд токенов.

Структурные параметры представленных моделей :

🟢

FBI-LLM 130M - 12 layers, 12 attention heads, 769 hidden size, 2048 intermediate size;

🟢

FBI-LLM 1.3B - 24 layers, 32 attention heads, 2048 hidden size, 5632 intermediate size;

🟢

FBI-LLM 7B - 32 layers, 32 attention heads, 4096 hidden size, 11008 intermediate size;

В FBI-LLM используется токенизатор Llama-2-7b-hf, поддерживается текстовый ввод и текстовый вывод на английском языке.

🟡

Модели на HF

🟡

Arxiv

🖥

Github [ Stars: 29 | Issues: 0 | Forks: 1]

@ai_machinelearning_big_data

#AI #LLM #ML #Autoregression #MBZUAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26🔥6❤5

8.71K views13:22

About

Blog

Apps

Platform