За последние два года опубликовано много крутых статей по спекулятивному инференсу для llm - собрал из них небольшой обзор
Для поста слишком много информации, поэтому разместил на Хабре:
Обзор алгоритмов спекулятивного инференса для llm
Внутри много полезных ссылок на статьи и код
Кстати, схемы в статье сам рисовал. Как вам формат?
🔥 - Круто, мне помогает быстрее понять идею
🗿 - Мне важен первоисточник, перехожу по всем ссылкам
Для поста слишком много информации, поэтому разместил на Хабре:
Обзор алгоритмов спекулятивного инференса для llm
Внутри много полезных ссылок на статьи и код
Кстати, схемы в статье сам рисовал. Как вам формат?
🔥 - Круто, мне помогает быстрее понять идею
🗿 - Мне важен первоисточник, перехожу по всем ссылкам
Хабр
Алгоритмы спекулятивного инференса LLM
Введение За последние годы качество LLM моделей сильно выросло, методы квантизации стали лучше, а видеокарты мощнее. Тем не менее качество генерации все еще напрямую зависит от размера весов и, как...
🔥9👍3
Добро пожаловать в матрицу?
Сейчас набирает обороты рисерч моделей мира, где вместо отрисовки графики картинку полностью генерирует модель по промптам (архитектуры те же, что у моделей генерации видео)
Рисерчеры постили на старых игрушках
Doom - https://gamengen.github.io/
Minecraft - https://oasis-model.github.io/
Что скорее для забавы
Но Nvidia сегодня выкатила свой фреймворк физичных world моделей. Качество генерации ооч крутое
Code - https://github.com/NVIDIA/Cosmos
Article - https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai
Кажется, будет появляться больше хороших синтетических датасетов, хоть и за счет тонны компьюта.
Ну и удачи тому чудаку, который будет делать инфренс этих моделей at scale🚬
@deploy_ml
Сейчас набирает обороты рисерч моделей мира, где вместо отрисовки графики картинку полностью генерирует модель по промптам (архитектуры те же, что у моделей генерации видео)
Рисерчеры постили на старых игрушках
Doom - https://gamengen.github.io/
Minecraft - https://oasis-model.github.io/
Что скорее для забавы
Но Nvidia сегодня выкатила свой фреймворк физичных world моделей. Качество генерации ооч крутое
Code - https://github.com/NVIDIA/Cosmos
Article - https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai
Кажется, будет появляться больше хороших синтетических датасетов, хоть и за счет тонны компьюта.
Ну и удачи тому чудаку, который будет делать инфренс этих моделей at scale
@deploy_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡4
Новые игровые пользовательские GPU, какие они?
Прошел этап анонсов видеокарт - Nvidia, amd и intel зарелизили свои карты нового поколения.
Мы не геймеры, но игровые карты стали best-value-to-money решениями, по крайней мере для инференса. Но сейчас не об этом - сейчас хочу поделиться своим мнением по каждому релизу.
🏆 intel
Классные бюджетные карты за 250$. Они так зашли на старте, что ниже 350-400$ их теперь не купить, а стоки раскупаются быстрее поставок. Думаю, это дело времени, через пару месяцев должно отпрыгнуть к изначальным ценам.
16gb GDDR6 - это круто за свою цену. По слухам, будет еще версия 24Gb. Для компьютерного зрения, даунстрим тасок и прочего, что должно держать нагрузку, кажется, будет хорошим решением.
Для компании intel, находящейся в не очень хорошем состоянии (процессоры серьезно проигрывают борьбу AMD на всех рынках), GPU - непрофильный эксперимент с большим бюджетом. Если бы battlemage не зашли, подразделение могли закрыть полностью в рамках снижения затрат.
🤐 Amd
Тут полный байт, посмотрите комменты под видео с презентации на CES.
Спойлер - гпу там не показали, но есть пару слайдов без бенчмарков.
Кажется, это не капитуляция, и у этого есть объяснение - идет процесс унификации серверных и игровых карт. Будет новая архитектура UDNA в 2026, анонсированная еще в сентябре.
И потому текущее поколение "пропущено" - будут какие-то проходные варианты и amd просто пытается понять, какой выставить цену, чтобы не словить хейта. И если бы они сейчас показали бенчмарки, мог быть антипиар.
И, кстати, тезис "мы за бюджетный сегмент, не будем соревноваться с Nvidia 5090" видимо был пылью в глаза.
Судя по всему еще как будут, просто не успели сделать нормально)
🤑 Nvidia
Из крутого - 32Gb памяти у 5090. Не то чтобы это сделает супер разницу с 24, но сможете втиснуть чуть больше батч на вход.
Дальше классический маркетинг. Видишь слайд "5070 is better than 4090, but cost 549$" и такой ваааааау. Смотришь спеки, а там куда ядер сильно меньше. И вообще у 5090 куда ядер всего на 33% больше чем у 4090. Тут ты напрягаешься, откуда заявленная почти x3 AI производительность? Может из-за почти в 2 раза возросшей пропускной способности GDDR7? Нееее.
Следите за руками. Производительность указана в AITops. Не fp, не bf, не int операций, а вот этого маркетингово чуда. Теперь смотрим в описание и понимаем "fp8 == 4090 AITops == 5090 AITops == fp4". А, как вам финт ушами?
На деле скорость возрастет примерно на 30% в среднем, судя по первым бенчам на играх. Так что расходимся, нас заскамили.
Итог
Intel - молодцы, будем смотреть бенчи на моделях
AMD - терпят до объединения игровых и серверных карт
Nvidia - скамеры, но за 32Gb респект
@deploy_ml
Прошел этап анонсов видеокарт - Nvidia, amd и intel зарелизили свои карты нового поколения.
Мы не геймеры, но игровые карты стали best-value-to-money решениями, по крайней мере для инференса. Но сейчас не об этом - сейчас хочу поделиться своим мнением по каждому релизу.
Классные бюджетные карты за 250$. Они так зашли на старте, что ниже 350-400$ их теперь не купить, а стоки раскупаются быстрее поставок. Думаю, это дело времени, через пару месяцев должно отпрыгнуть к изначальным ценам.
16gb GDDR6 - это круто за свою цену. По слухам, будет еще версия 24Gb. Для компьютерного зрения, даунстрим тасок и прочего, что должно держать нагрузку, кажется, будет хорошим решением.
Для компании intel, находящейся в не очень хорошем состоянии (процессоры серьезно проигрывают борьбу AMD на всех рынках), GPU - непрофильный эксперимент с большим бюджетом. Если бы battlemage не зашли, подразделение могли закрыть полностью в рамках снижения затрат.
Тут полный байт, посмотрите комменты под видео с презентации на CES.
Спойлер - гпу там не показали, но есть пару слайдов без бенчмарков.
Кажется, это не капитуляция, и у этого есть объяснение - идет процесс унификации серверных и игровых карт. Будет новая архитектура UDNA в 2026, анонсированная еще в сентябре.
И потому текущее поколение "пропущено" - будут какие-то проходные варианты и amd просто пытается понять, какой выставить цену, чтобы не словить хейта. И если бы они сейчас показали бенчмарки, мог быть антипиар.
И, кстати, тезис "мы за бюджетный сегмент, не будем соревноваться с Nvidia 5090" видимо был пылью в глаза.
Судя по всему еще как будут, просто не успели сделать нормально)
Из крутого - 32Gb памяти у 5090. Не то чтобы это сделает супер разницу с 24, но сможете втиснуть чуть больше батч на вход.
Дальше классический маркетинг. Видишь слайд "5070 is better than 4090, but cost 549$" и такой ваааааау. Смотришь спеки, а там куда ядер сильно меньше. И вообще у 5090 куда ядер всего на 33% больше чем у 4090. Тут ты напрягаешься, откуда заявленная почти x3 AI производительность? Может из-за почти в 2 раза возросшей пропускной способности GDDR7? Нееее.
Следите за руками. Производительность указана в AITops. Не fp, не bf, не int операций, а вот этого маркетингово чуда. Теперь смотрим в описание и понимаем "fp8 == 4090 AITops == 5090 AITops == fp4". А, как вам финт ушами?
На деле скорость возрастет примерно на 30% в среднем, судя по первым бенчам на играх. Так что расходимся, нас заскамили.
Итог
Intel - молодцы, будем смотреть бенчи на моделях
AMD - терпят до объединения игровых и серверных карт
Nvidia - скамеры, но за 32Gb респект
@deploy_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5👍2🔥2
Стандартизация - это тяжело. Или в чем проблема mlops
Вчера пришел друг с интересной проблемой
— Как экспортировать из pytorch в onnxruntime трансформерную модель?
— Ну как, берешь, экспортируешь
— Так оно без кастомного трансформерного слоя будет, а нам надо. Я бы готов был согласиться на flash_attention, но трейс будет без него
Дальше я просто попытался эффективно перенести torch.nn.functional.scaled_dot_product_attention в onnx и onnxruntime
Пару запросов и мы находим кернел в onnxrt для атеншена
Но если просто сделать torch.onnx.export, то вы получите честный граф со всеми matmul из формулы, что не приближает к результату
Дальше в похожих issue [еще одно] в onnx тебя отправляют в graph optimizer или в написание кастомного слоя
В graph optimizer есть таки AttentionFusing. Я его попробовал, получил разлет версий и спустя 30 минут смог таки скомпилить слой и не уронить оптимизатор графа
Но на выходе я получил просто fused matmul. Ну не превратиться он волшебным образом во что-то внятное в рантайме. Да и руками это не выпарсить в код обратно
Таким образом мы не можем без написания кастомного слоя перенести красиво в инференс обычную операцию внимания. А еще, пока я подгонял версии torch и onnxscript чтобы оно не разваливалось - результирующий граф жил своей жизнью (что будет и при ваших обновлениях библиотек)
Получается train, mlops, inference - выбери два, которые будут у тебя нормально сделаны
train - забить нельзя, команда потеряет скорость в экспериментах и нервы
inference - нельзя, потому что это эффективность, надежность и операционные затраты бизнеса
mlops при таком подходе остается быть мостиком из костылей
Ps:друг написал свою конвертацию атеншена через autograd. Не красиво, но задача решена
@deploy_ml
Вчера пришел друг с интересной проблемой
— Как экспортировать из pytorch в onnxruntime трансформерную модель?
— Ну как, берешь, экспортируешь
— Так оно без кастомного трансформерного слоя будет, а нам надо. Я бы готов был согласиться на flash_attention, но трейс будет без него
Дальше я просто попытался эффективно перенести torch.nn.functional.scaled_dot_product_attention в onnx и onnxruntime
Пару запросов и мы находим кернел в onnxrt для атеншена
Но если просто сделать torch.onnx.export, то вы получите честный граф со всеми matmul из формулы, что не приближает к результату
Дальше в похожих issue [еще одно] в onnx тебя отправляют в graph optimizer или в написание кастомного слоя
В graph optimizer есть таки AttentionFusing. Я его попробовал, получил разлет версий и спустя 30 минут смог таки скомпилить слой и не уронить оптимизатор графа
Но на выходе я получил просто fused matmul. Ну не превратиться он волшебным образом во что-то внятное в рантайме. Да и руками это не выпарсить в код обратно
Таким образом мы не можем без написания кастомного слоя перенести красиво в инференс обычную операцию внимания. А еще, пока я подгонял версии torch и onnxscript чтобы оно не разваливалось - результирующий граф жил своей жизнью (что будет и при ваших обновлениях библиотек)
Получается train, mlops, inference - выбери два, которые будут у тебя нормально сделаны
train - забить нельзя, команда потеряет скорость в экспериментах и нервы
inference - нельзя, потому что это эффективность, надежность и операционные затраты бизнеса
mlops при таком подходе остается быть мостиком из костылей
Ps:
@deploy_ml
😁7🌚2👍1🥴1
Пришло время обновить интро 👋
Меня зовут Данил, я автор этого канала. Работаю в rnd, занимаюсь исследованиями в ML инфре. Пишу на с++ и python, еще умею в go/rust. Работал в rnd командах облака и нейросетевой инфраструктуре контекстной рекламы
Чем занимаюсь:
1. Архитектурю ml продукты и системы
2. Поднимаю инференс
3. Продираюсь через библиотеки с эффективнымиджунглями реализациями
4. Подбираю фреймворки, библиотеки и базы под конкретные задачи
Что почитать на канале:
🚀 Инференс
- ggml - лучшая библиотека для реализации серверного инференса
- inference, train, mlops - выбери два, сломай лицо об третье
- Как выбирать движок инференса
🖥 Алгоритмы
- Ускорение LLM через PagedAttention и батчинг
- Спекулятивный декодинг - как маленькой llm ускорить громадную
⚙️ Железки
- AMD Instinct™ MI325X - мега gpu на 256Gb памяти
- Будущее серверных железяк
- Какие карты использовать для инференса
Если есть идеи по темам постов, вопросы или обратная связь, пишите в комменты или в личку @svt_danny
Спасибо что подписываетесь и читаете ❤️
Меня зовут Данил, я автор этого канала. Работаю в rnd, занимаюсь исследованиями в ML инфре. Пишу на с++ и python, еще умею в go/rust. Работал в rnd командах облака и нейросетевой инфраструктуре контекстной рекламы
Чем занимаюсь:
1. Архитектурю ml продукты и системы
2. Поднимаю инференс
3. Продираюсь через библиотеки с эффективными
4. Подбираю фреймворки, библиотеки и базы под конкретные задачи
Что почитать на канале:
- ggml - лучшая библиотека для реализации серверного инференса
- inference, train, mlops - выбери два, сломай лицо об третье
- Как выбирать движок инференса
🖥 Алгоритмы
- Ускорение LLM через PagedAttention и батчинг
- Спекулятивный декодинг - как маленькой llm ускорить громадную
- AMD Instinct™ MI325X - мега gpu на 256Gb памяти
- Будущее серверных железяк
- Какие карты использовать для инференса
Если есть идеи по темам постов, вопросы или обратная связь, пишите в комменты или в личку @svt_danny
Спасибо что подписываетесь и читаете ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥6💯1
Обзор баз данных за 2024
Каждый год обновляется профессором CMU Andy Pavlo. Оригинальная статья
Почему-то особо про векторные базы не написал. На них сейчас особый хайп. Но мы это отдельно рассмотрим
Кратко события за год:
1. Redis поменял лицензию на смесь Redis Source Available License and MongoDB SSPL
Хотят больше зарабатывать и боятся облаков, которые очень много зарабатывают и не делятся прибылью
Сообщество обозлилось и начало делать форки. Самые известные - Valkey и Redict. На сколько я слышу, у нас больше пересели на Valkey
Еще есть dragonfly - по многочисленным отзывам написан очень круто и намного лучше держит нагрузку
Elasticsearch вернул опенсурс лицензию, после нескольких лет попыток противостоять AWS. Кажется, редис ждет та же участь
2. Баталии Databricks и Snowflake
Обе компании выросли до лидеров на огромном конкурентном рынке хранения и обработки данных. Оба, кстати, стартовали из исследователей (phd thesis M.Zukowski - snowflake. M.Zaharia - Databricks)
Теперь цапаются друг на друга, игнорируя все вокруг и тратя огромные ресурсы. Сравниваются стоимостями и производительностями сервисов, а также качеством своих llm.
Тем временем Databricks поднял раунд на 10млрд $, чтобы выкупить акции у сотрудников, которыедемотивированны ждут обещанного IPO
3. Интеграция DuckDB повсюду
Анализ Snowflake и Redshift показывает, что средний аналитический запрос затрагивает 100Mb данных, для чего достаточно простого движка. DuckDB как раз имеет хорошую встраиваимость, потому полюбился для реализации аналитических плагинов для postgres
Еще один игрок, решающий хорошо схожую задачу - clickhouse. Энди пишет, что раньше его было сложно поднимать и настраивать, а также не хватало гибкости, потому duckdb популярнее в контексте расширения баз (на малых среднестатистических нагрузках удобство важнее, тем более в контексте встраиваемости)
4. Новая коммерческая база - CedarDB
Основана на коде Umbra, разрабатываемой Томасом Ньюманом. Но он хочет продолжать работать над ней как над исследовательским проектом, а не строить очередной стартап. При этом не стал мешать одному из своих phd студентов форкнуть код и открыть стартап под названием CedarDB
@deploy_ml
Каждый год обновляется профессором CMU Andy Pavlo. Оригинальная статья
Почему-то особо про векторные базы не написал. На них сейчас особый хайп. Но мы это отдельно рассмотрим
Кратко события за год:
1. Redis поменял лицензию на смесь Redis Source Available License and MongoDB SSPL
Хотят больше зарабатывать и боятся облаков, которые очень много зарабатывают и не делятся прибылью
Сообщество обозлилось и начало делать форки. Самые известные - Valkey и Redict. На сколько я слышу, у нас больше пересели на Valkey
Еще есть dragonfly - по многочисленным отзывам написан очень круто и намного лучше держит нагрузку
Elasticsearch вернул опенсурс лицензию, после нескольких лет попыток противостоять AWS. Кажется, редис ждет та же участь
2. Баталии Databricks и Snowflake
Обе компании выросли до лидеров на огромном конкурентном рынке хранения и обработки данных. Оба, кстати, стартовали из исследователей (phd thesis M.Zukowski - snowflake. M.Zaharia - Databricks)
Теперь цапаются друг на друга, игнорируя все вокруг и тратя огромные ресурсы. Сравниваются стоимостями и производительностями сервисов, а также качеством своих llm.
Тем временем Databricks поднял раунд на 10млрд $, чтобы выкупить акции у сотрудников, которые
3. Интеграция DuckDB повсюду
Анализ Snowflake и Redshift показывает, что средний аналитический запрос затрагивает 100Mb данных, для чего достаточно простого движка. DuckDB как раз имеет хорошую встраиваимость, потому полюбился для реализации аналитических плагинов для postgres
Еще один игрок, решающий хорошо схожую задачу - clickhouse. Энди пишет, что раньше его было сложно поднимать и настраивать, а также не хватало гибкости, потому duckdb популярнее в контексте расширения баз (на малых среднестатистических нагрузках удобство важнее, тем более в контексте встраиваемости)
4. Новая коммерческая база - CedarDB
Основана на коде Umbra, разрабатываемой Томасом Ньюманом. Но он хочет продолжать работать над ней как над исследовательским проектом, а не строить очередной стартап. При этом не стал мешать одному из своих phd студентов форкнуть код и открыть стартап под названием CedarDB
@deploy_ml
❤3🔥2
Подборка статей MLSys 2024 (part 1)
Давний подписчик предложил добавить подборки по статьям и фреймворкам.
У меня большая кубышка такого контента😏 . Давайте начнем с более практичных вариантов
MLSys - хорошая конференция, с очень качественными принятыми статьями. Если что, в 2024 приняли только 37 статей
Полный список
Что запомнилось мне:
1. AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration [poster][paper] - best paper award
Одна из самых хайповых квантизаций. Поддержана во всех крутых фреймворках
2. Q-Hitter: A Better Token Oracle for Efficient LLM Inference via Sparse-Quantized KV Cache [poster][paper]
На больших контекстах decode становится memory-bound. В статье - как эффективно совместить разрежение и квантизацию KVCache
3. Punica: Multi-Tenant LoRA Serving [poster][paper]
Развили идею батчевания lora адаптеров на планирование по всему кластеру
4. DiffusionPipe: Training Large Diffusion Models with Efficient Pipelines [poster][paper]
Минимизируют простои ресурсов через аккуратное планирование обучаемых и замороженных частей пайплайна
5. SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable Large Mixture-of-Experts Models [poster][paper]
MoE модели активируют небольшую часть весов для инференса каждого запроса. Это же преимущество приводит к проблемам с эффективным инференсом в проде, которые решают в статье - нужно уметь эффективно управлять доступной RAM и GPU памятью
6. Disaggregated Multi-Tower: Topology-aware Modeling Technique for Efficient Large Scale Recommendation [poster][paper]
Кластера обучения не однородны по топологии транспорта. В статье адаптируют большую и плоскую нейросетевую рекомендательную модель к обучению на масштабах датацентра
@deploy_ml
Давний подписчик предложил добавить подборки по статьям и фреймворкам.
У меня большая кубышка такого контента
MLSys - хорошая конференция, с очень качественными принятыми статьями. Если что, в 2024 приняли только 37 статей
Полный список
Что запомнилось мне:
1. AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration [poster][paper] - best paper award
Одна из самых хайповых квантизаций. Поддержана во всех крутых фреймворках
2. Q-Hitter: A Better Token Oracle for Efficient LLM Inference via Sparse-Quantized KV Cache [poster][paper]
На больших контекстах decode становится memory-bound. В статье - как эффективно совместить разрежение и квантизацию KVCache
3. Punica: Multi-Tenant LoRA Serving [poster][paper]
Развили идею батчевания lora адаптеров на планирование по всему кластеру
4. DiffusionPipe: Training Large Diffusion Models with Efficient Pipelines [poster][paper]
Минимизируют простои ресурсов через аккуратное планирование обучаемых и замороженных частей пайплайна
5. SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable Large Mixture-of-Experts Models [poster][paper]
MoE модели активируют небольшую часть весов для инференса каждого запроса. Это же преимущество приводит к проблемам с эффективным инференсом в проде, которые решают в статье - нужно уметь эффективно управлять доступной RAM и GPU памятью
6. Disaggregated Multi-Tower: Topology-aware Modeling Technique for Efficient Large Scale Recommendation [poster][paper]
Кластера обучения не однородны по топологии транспорта. В статье адаптируют большую и плоскую нейросетевую рекомендательную модель к обучению на масштабах датацентра
@deploy_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤2
Дистилляты deepseek r1 и жизненные проблемы
Я задал одни и те же вопросы разным дистиллятам deepseek r1:
qwen 1.5b, qwen 7b, llama 8b, qwen 32b - именно эти модели, скорее всего, будут интересны большинству на практике.
Спросил бытовое: как приготовить окрошку, поменять пробитую шину и выжить в лесу. В картинках можете сравнить, как они справились⬇️ (на картинках - qwen32b, в комментах - другие модели)
Вспомнился давний мем с Зоей Вексельштейн:
Какая у вашей модели reasoning? Как она performing?
А как быстро запустить инференс таких моделей - смотрите в моем мини туториале на habr
@deploy_ml
Я задал одни и те же вопросы разным дистиллятам deepseek r1:
qwen 1.5b, qwen 7b, llama 8b, qwen 32b - именно эти модели, скорее всего, будут интересны большинству на практике.
Спросил бытовое: как приготовить окрошку, поменять пробитую шину и выжить в лесу. В картинках можете сравнить, как они справились
Вспомнился давний мем с Зоей Вексельштейн:
Какая у вашей модели reasoning? Как она performing?
@deploy_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4😁3👍2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Что запустить на AMD GPU?
Обзавелся карточкой amd 6800xt 16Gb
rdna2, gfx1030 - актуальный rocm [compatibility matrix]
Планирую позапускать продовые фреймворки и разные модели. Что было бы интересно больше? ⬇️
Если есть какие-то еще идеи - пишите в комменты или лс
Обзавелся карточкой amd 6800xt 16Gb
rdna2, gfx1030 - актуальный rocm [compatibility matrix]
Планирую позапускать продовые фреймворки и разные модели. Что было бы интересно больше? ⬇️
Если есть какие-то еще идеи - пишите в комменты или лс
🔥7👌2❤1🤩1👾1
Что было бы интереснее позапускать?
Anonymous Poll
41%
Дообучение моделей на torch/jax
43%
Инференс llm моделей
35%
Распознавание голоса
30%
Детекция, сегментация, трекинг и тд
24%
Генерация картинок/видео
19%
Bert модели для прода
3%
Напишу в комменты/лс
Подборка статей MLSys 2024 (part 2)
Вторая часть классных статей c mlsys
[Часть 1] [Сайт конференции]
1. Keyformer: KV Cache reduction through key tokens selection for Efficient Generative Inference [poster][paper]
Генерация новых токенов в llm становится memory-bound при больших контекстах (грузим большие KV-кеши, Q - размерности (1,hidden_dim)). В статье предлагают алгоритм, выкидывающий некоторые токены из кешей. Это портит распределение выхода внимания, потому вместо softmax для выбора токенов используют вероятностный softmax с температурой.
2. Atom: Low-Bit Quantization for Efficient and Accurate LLM Serving [poster][paper]
Квантизуют веса и активации. Выделяют выбросы в активациях и квантизуют их отдельно в большей точности. Издержки прячут объединяя сжатие с предыдущим оператором, а расжатие - в fused gemm.
3. FlashDecoding++: Faster Large Language Model Inference with Asynchronization, Flat GEMM Optimization, and Heuristics [poster][paper]
Низкоуровневые оптимизации. Меняют способ вычисления софтмакса, чтобы делать меньше синхронизаций. Вместо батчевания prefill/decode пишут ядро матричного умножения с наслоением загрузки и вычисления тайлов в разделяемую память.
4. Lancet: Accelerating Mixture-of-Experts Training by Overlapping Weight Gradient Computation and All-to-All Communication [poster][paper]
Батчевание вычислений приводит к повышению производительности. В случае инференса MoE моделей часто используют expert-параллелизм (эксперты одного слоя хранятся на разных видеокартах). Соответственно, токены нужно распределить по экспертам, а потом собрать обратно. В статье переделывают реализацию MoE слоя так, чтобы вычисления и коммуникации между видеокартами наслаивались.
5. Prompt Cache: Modular Attention Reuse for Low-Latency Inference [poster][paper]
Часто промпт к LLM состоит из контекста (документы, код, картинки) и наших вопросов. Например, в rag и ассистентах написания кода. Каждый раз вычислять кеши не эффективно. Переиспользовать кеши между запросами не эквивалентно их перевычислению, хотя может сойти с рук, если документы независимы. В статье предлагают решение через структуризацию запроса. Качество сохраняется на уровне исходной модели в 90% случаев. Сайд эффект - для большого числа документов матрица внимания становится блочной, а память под кеши ассимптотически линейной.
6. SLoRA: Scalable Serving of Thousands of LoRA Adapters [poster][paper]
Low rank adapter - популярный способ дешево дообучить модель. Однако если попытаться делать инференс большого числа адаптеров для одной модели - получится неэффективная реализация. Все адаптеры в память видеокарты не влезут, а при неаккуратной подгрузке можно улететь в OOM. В статье предлагают аккуратно батчевать запросы: ветка с основной моделью может батчеваться как обычно, адаптеры - через group gemm, а подгружать слои можно наперед только для активных адаптеров.
@deploy_ml
Вторая часть классных статей c mlsys
[Часть 1] [Сайт конференции]
1. Keyformer: KV Cache reduction through key tokens selection for Efficient Generative Inference [poster][paper]
Генерация новых токенов в llm становится memory-bound при больших контекстах (грузим большие KV-кеши, Q - размерности (1,hidden_dim)). В статье предлагают алгоритм, выкидывающий некоторые токены из кешей. Это портит распределение выхода внимания, потому вместо softmax для выбора токенов используют вероятностный softmax с температурой.
2. Atom: Low-Bit Quantization for Efficient and Accurate LLM Serving [poster][paper]
Квантизуют веса и активации. Выделяют выбросы в активациях и квантизуют их отдельно в большей точности. Издержки прячут объединяя сжатие с предыдущим оператором, а расжатие - в fused gemm.
3. FlashDecoding++: Faster Large Language Model Inference with Asynchronization, Flat GEMM Optimization, and Heuristics [poster][paper]
Низкоуровневые оптимизации. Меняют способ вычисления софтмакса, чтобы делать меньше синхронизаций. Вместо батчевания prefill/decode пишут ядро матричного умножения с наслоением загрузки и вычисления тайлов в разделяемую память.
4. Lancet: Accelerating Mixture-of-Experts Training by Overlapping Weight Gradient Computation and All-to-All Communication [poster][paper]
Батчевание вычислений приводит к повышению производительности. В случае инференса MoE моделей часто используют expert-параллелизм (эксперты одного слоя хранятся на разных видеокартах). Соответственно, токены нужно распределить по экспертам, а потом собрать обратно. В статье переделывают реализацию MoE слоя так, чтобы вычисления и коммуникации между видеокартами наслаивались.
5. Prompt Cache: Modular Attention Reuse for Low-Latency Inference [poster][paper]
Часто промпт к LLM состоит из контекста (документы, код, картинки) и наших вопросов. Например, в rag и ассистентах написания кода. Каждый раз вычислять кеши не эффективно. Переиспользовать кеши между запросами не эквивалентно их перевычислению, хотя может сойти с рук, если документы независимы. В статье предлагают решение через структуризацию запроса. Качество сохраняется на уровне исходной модели в 90% случаев. Сайд эффект - для большого числа документов матрица внимания становится блочной, а память под кеши ассимптотически линейной.
6. SLoRA: Scalable Serving of Thousands of LoRA Adapters [poster][paper]
Low rank adapter - популярный способ дешево дообучить модель. Однако если попытаться делать инференс большого числа адаптеров для одной модели - получится неэффективная реализация. Все адаптеры в память видеокарты не влезут, а при неаккуратной подгрузке можно улететь в OOM. В статье предлагают аккуратно батчевать запросы: ветка с основной моделью может батчеваться как обычно, адаптеры - через group gemm, а подгружать слои можно наперед только для активных адаптеров.
@deploy_ml
🔥8❤1
Релизы ускорений llm от DeepSeek
Когда был хайп вокруг v3/r1, все удивлялись малой стоимости обучения модели (даже при учете того, что это была стоимость финальных запусков).
Тогда в техническом репорте были заявлены две крутые вещи:
1. MLA слой внимания (kv головы в пониженной размерности. Снижается размер kv-cache).
2. Эффективная реализация MoE с эксперт параллелизмом.
И вот они вышли в мир:
1. FlashMLA [github]
2. DeepEP для MoE [github]
Уже присматриваюсь✏️ .
Думал, что пересылку в DeepEP реализуют через openucx. Но нет, на nvshmem
@deploy_ml
Когда был хайп вокруг v3/r1, все удивлялись малой стоимости обучения модели (даже при учете того, что это была стоимость финальных запусков).
Тогда в техническом репорте были заявлены две крутые вещи:
1. MLA слой внимания (kv головы в пониженной размерности. Снижается размер kv-cache).
2. Эффективная реализация MoE с эксперт параллелизмом.
И вот они вышли в мир:
1. FlashMLA [github]
2. DeepEP для MoE [github]
Уже присматриваюсь
Думал, что пересылку в DeepEP реализуют через openucx. Но нет, на nvshmem
@deploy_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Использование llm для кода и их деплой
С недавнего времени начал использовать llm кодера для работы*.
Супер крутая тема, если правильно применять. В моем случае у каждого эксперимента кодовая база как правило своя, а код надо писать как можно быстрее.
Свои наблюдения сформировал в статью на habr. Там же есть ссылки на reddit и LessWrong, где можно почитать мнения других людей.
*на самом деле мне уже 3 месяца руководитель вдалбливал, что это тема. Так что я совсем не ранний адоптер.
С недавнего времени начал использовать llm кодера для работы*.
Супер крутая тема, если правильно применять. В моем случае у каждого эксперимента кодовая база как правило своя, а код надо писать как можно быстрее.
Свои наблюдения сформировал в статью на habr. Там же есть ссылки на reddit и LessWrong, где можно почитать мнения других людей.
*на самом деле мне уже 3 месяца руководитель вдалбливал, что это тема. Так что я совсем не ранний адоптер.
Хабр
LLM для кодинга и локальный тест открытых моделей на AMD
LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться. В статье разберем открытые LLM для кодинга....
🔥8👍4❤1
deepseek_compute_stack.pdf
1.3 MB
Стек вычислений DeepSeek
👋 Помните неделю opensource от DeepSeek?
Нарисовал схему, как связаны между собой компоненты системы. По всем core и thrid-party компонентам добавил кликабельные ссылки на код или доку.
📌 Прилагаю:
- PDF-схема во вложении
- Интерактивная версия по ссылке
Еще полезно прочитать обзор DeepSeek на систему с 6-го дня релизов.
@deploy_ml
👋 Помните неделю opensource от DeepSeek?
Нарисовал схему, как связаны между собой компоненты системы. По всем core и thrid-party компонентам добавил кликабельные ссылки на код или доку.
📌 Прилагаю:
- PDF-схема во вложении
- Интерактивная версия по ссылке
Еще полезно прочитать обзор DeepSeek на систему с 6-го дня релизов.
@deploy_ml
🔥13❤4🏆2
Оптимизация матриц под AMD
Считается, что карты amd имеют нестабильный софт. Но конкретики я не видел. Разве что мне совсем не понравились замеры coder llm, которые я делал в статье.
Большую часть вычислений в нейросети занимают матричные умножения. Все остальное в сумме дает <10%, если не брать большие контексты.
Недавно вышла интересная статья бывшего сотрудника AMD, где он ускорил GEMM в 1.6 раз относительно rocBLAS.
По сути, все сводится к тому, что rocBLAS не умеет в v_dual_fmac_f32, хотя эта инструкция доступна с RDNA3 (2022 год релиза!) и использует только v_fmac_f32.
Аналогичная статья есть и для CUDA. За исключением, что там было достигнуто только 93% производительности cuBLAS.
Достаточно большой камень в огород AMD, учитывая, что от GEMM напрямую зависит утилизация GPU.
@deploy_ml
Считается, что карты amd имеют нестабильный софт. Но конкретики я не видел. Разве что мне совсем не понравились замеры coder llm, которые я делал в статье.
Большую часть вычислений в нейросети занимают матричные умножения. Все остальное в сумме дает <10%, если не брать большие контексты.
Недавно вышла интересная статья бывшего сотрудника AMD, где он ускорил GEMM в 1.6 раз относительно rocBLAS.
По сути, все сводится к тому, что rocBLAS не умеет в v_dual_fmac_f32, хотя эта инструкция доступна с RDNA3 (2022 год релиза!) и использует только v_fmac_f32.
Аналогичная статья есть и для CUDA. За исключением, что там было достигнуто только 93% производительности cuBLAS.
Достаточно большой камень в огород AMD, учитывая, что от GEMM напрямую зависит утилизация GPU.
@deploy_ml
🔥6❤1
Системный дизайн от ClickHouse
Как rust в c++ внедряли от Алексея Миловидова - СТО СlickHouse.
В статье в формате "проблема-решение" последовательно задеты все основные компоненты системы:
кодовая база, CLI, сборка и кросс-компиляция, дистрибуция и линковка зависимостей, CICD, профилировка, санитайзеры, фаззеры - все со ссылками на PR с кодом.
Хорошая статья для понимания дизайна инфры. И так как многие инфраструктурные ML-инструменты (помимо ClickHouse) — такие же бинари на C/C++/Rust/Go, то понимание устройства ClickHouse хорошо перекладывается на другие системы.
Отдельно круто, что СТО открыто говорит, почему захотели внедрить rust, в каких местах неожиданно сломалось, и в какой последовательности разгребали.
@deploy_ml
Как rust в c++ внедряли от Алексея Миловидова - СТО СlickHouse.
В статье в формате "проблема-решение" последовательно задеты все основные компоненты системы:
кодовая база, CLI, сборка и кросс-компиляция, дистрибуция и линковка зависимостей, CICD, профилировка, санитайзеры, фаззеры - все со ссылками на PR с кодом.
Хорошая статья для понимания дизайна инфры. И так как многие инфраструктурные ML-инструменты (помимо ClickHouse) — такие же бинари на C/C++/Rust/Go, то понимание устройства ClickHouse хорошо перекладывается на другие системы.
Отдельно круто, что СТО открыто говорит, почему захотели внедрить rust, в каких местах неожиданно сломалось, и в какой последовательности разгребали.
@deploy_ml
ClickHouse
A Year of Rust in ClickHouse
This story is about how ClickHouse supports Rust components in the C++ code base and the challenges we had to overcome.
❤5🔥3
MLOps opensource карта
Уже несколько раз спрашивали
"Чего бы нам такого из mlops внедрить?"
Вопрос сложный, потому что все зависит от:
1. Стека компании и профиля ее лидирующих команд.
2. Зрелости и реальной текущей нагрузки прода.
3. Индивидуальной идейности: кто-то считает, что "код должен быть идеально чистым, mlops - end2end", кто-то - что "уместен только хаос и bash скрипты".При этом большинство радикальных идей приводят к страданиям и прокрастинации.
4. Индивидуальных тестов нужного функционала под целевой нагрузкой и в целевом контуре.
Несмотря на субъективность любой подборки, составил карту крутых фреймворков для MLops. Убрал то, что уже явно умерло или теряет позиции (иначе карта была бы в разы больше).
В легенде чуть подробнее⬇
Интерактивная ссылка, а pdf в хорошем качестве в комментах
Если хотели бы что-то добавить или есть какой-либо позитивный / негативный опыт использования - пишите в комменты)
@deploy_ml
Уже несколько раз спрашивали
"Чего бы нам такого из mlops внедрить?"
Вопрос сложный, потому что все зависит от:
1. Стека компании и профиля ее лидирующих команд.
2. Зрелости и реальной текущей нагрузки прода.
3. Индивидуальной идейности: кто-то считает, что "код должен быть идеально чистым, mlops - end2end", кто-то - что "уместен только хаос и bash скрипты".
4. Индивидуальных тестов нужного функционала под целевой нагрузкой и в целевом контуре.
Несмотря на субъективность любой подборки, составил карту крутых фреймворков для MLops. Убрал то, что уже явно умерло или теряет позиции (иначе карта была бы в разы больше).
В легенде чуть подробнее
Интерактивная ссылка, а pdf в хорошем качестве в комментах
Если хотели бы что-то добавить или есть какой-либо позитивный / негативный опыт использования - пишите в комменты)
@deploy_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤4
Судя по моим статьям и постам - MLOps особо интересен, а за последний год стал особо популярным. И в основном вопросы “как правильно?“ и “что внедрить?“
А я откуда знаю?
Давайте попробуем разобраться
Написал статью на хабр по следам карты MLOps
Давайте попробуем разобраться
Написал статью на хабр по следам карты MLOps
🔥11❤3