Анализ данных (Data analysis)
45.3K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Forwarded from Machinelearning
🌟 FastDraft: ускорение инференса LLM с помощью спекулятивного декодирования.

Спекулятивное декодирование (или вспомогательная генерация) — это техника, которая ускоряет генерацию токенов при использовании дополнительной, SLM модели-черновика.

Техника работает следующим образом: модель-черновик предсказывает следующие K-токенов один за другим авторегрессионным способом, а основная LLM проверяет эти предсказания и исправляет их при необходимости.

Процесс проходит по каждому предсказанному токену, и, если обнаруживается разница между SLM-черновиком и LLM, останавливается и сохраняет последний токен, предсказанный основной моделью. Затем SLM-черновик получает последнее предсказание LLM и снова пытается предсказать следующие K-токенов, повторяя цикл.

FastDraft — метод для обучения и согласования модели-черновика с любой LLM для использования со спекулятивным декодированием путем тонкой настройки на синтетических датасетах, сгенерированных целевой LLM.

Предобученные модели-черновики FastDraft (Llama-3.1-8B-Instruct-FastDraft-150M-int8-ov и Phi-3-mini-FastDraft-50M-int8-ov) до 3 раз эффективнее по сравнению с инференсом одиночной LLM в задачах завершения кода и до 2 раз в задачах обобщения, завершения текста и инструкций.


🟡Набор моделей
🟡Ipynb блокнот
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #Intel #FastDraft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM