Давай деплой ML! – Telegram

Давай деплой ML!

356 subscribers

45 photos

1 video

1 file

55 links

Пишу об ML инфраструктуре и алгоритмах, позволяющих ML системам работать эффективнее

Занимаюсь исследованиями по ML инфре, аспирант сколтеха

Download Telegram

About

Blog

Apps

Platform

Давай деплой ML!

356 subscribers

Давай деплой ML!

🔍

Почему стоит читать лицензии в opensource?

Наткнулся на исследователя, который разрабатывает базовые алгоритмы и продает на них лицензии
Тут можно посмотреть, какие алгоритмы он уже разработал

⚠️ Если посмотреть в лицензию, увидите там очень интересный пункт (100к USD per project basis)
Справедливости ради, он не скрывает, что занимается этим
Но вот незадача - не обратите внимания, скопируете себе, зальете в опенсорс - и вот Вы и Ваша компания попали

🧐 С одной стороны - базовые алгоритмы настолько фундаментальны, что не понятно, почему к чему-то подобному не могут придти другие люди и где грань уникальности. С другой - авторское право естественная и нужная штука

🟰 Справедливости ради, исследователь уровня разработчика подобных алгоритмов стоит от 300-400к USD в год в Америке. И, получается, как будто вы его наняли на несколько месяцев (кастомная оптимизация и бенчмаркинг кода в рамках процессов компании - дело не быстрое). И если его алгоритм/структура данных делает вам большую дельту в качестве системы - это не дорого

🚫 Но любая серьезная ИТ компания конечно на входе заблокирует подобный код. Часто есть апроксимации или аналоги с схожими характеристиками. Контролировать, что никакой инженер из добрых побуждений не утащит себе в проект код и не спишет с вас еще 100к $ - бессмысленно (когда лазишь по репозиторию компании - априори не будешь читать файлы с лицензиями)

Please open Telegram to view this post

VIEW IN TELEGRAM

312 views07:25

Давай деплой ML!

Почему большая пауза в постах?

Были достаточно тяжелые и напряженные май и июнь
Я закончил магистратуру, шад, поступил в аспирантуру и перебрался ближе к исследованиям.
Все так же делаю ML/DL инфраструктуру

Буду продолжать писать, возможно, не сильно часто. Новостной канал особо возможности делать нет (да их и куча уже). А вот точечные качественные посты - это круто.
Следующая серия постов уже сейчас, обсудим GPU под под AI

190 views07:39

Давай деплой ML!

Какие GPU использовать под AI? Nvidia

Ответ - используйте новейшие H100 80Gb и не парьтесь - имеет место быть, но не то чтобы сильно хорош. Они дорогие, да и поставки сейчас от полугода окольными путями (хотя все как-то научились возить)

Возникает вопрос - а если деньги считать? Что лучше?
В больших компаниях уже все сами протестили, и уже в открытый доступ куча информации вышло (у всех +- одинаковые выводы)

На основе чего мы технически оцениваем GPU? Если выделить самое важное:
1. Производительность (измеряем по своим бенчмаркам)
2. Память GPU. Данный пункт является блокирующим. Если вы используете модели, занимающие 25Gb+ на девайсе, то речи о игровых картах с 24Gb быть не может
При этом каждый следующие 10Gb памяти будут стоить Вам на порядок дороже

Давайте теперь соотнесем бенчмарки и стоимость карт:
Бенчмарк инференса для игровых карт (stable diffusion)
Бенчмарк обучение/инференс (lambda cloud marketing)

Обратите внимание, что игровая 4090 относительно близка по производительности к Nvidia A100. А RTX 4080 super не то чтобы сильно хуже 4090

Cтоимость в ритейле (данные примерные. В случае с игровыми стоимость +-15% в зависимости от качества исполнения)
1. 4080ti super 16Gb - 120т руб
2. 4090 24Gb - 200-250т руб
3. A100 -1000т+ руб
4. H100 80Gb - 3000т+ руб

233 views07:40

Давай деплой ML!

Какие карты в итоге использовать?

Пока только об Nvidia. H100 тут не советую, это и так понятно, что они самые лучшие и самые дорогие

Для обучения
Попробуйте достать A100, они все еще крутые. Да и для распределенного обучения игровые варианты ввиду отсутствия NVLink и медленной шины - не очень удобны.
Альтернативы:
1. Другие нефронтирные серверные карты: A30/L40/T4/A6000 и другие, которые сможете достать по хорошим ценам
2. 4090 24Gb. Исследователи часто используют их для обучения и в них влезает большинство адекватных сетей

Но это варианты, которые так или иначе свяжут руки разрабам

Для инференса
Мое мнение - модели в инференсе должны влезать даже в 8-16Gb. Иначе у вас unit экономика не сойдется, посчитайте стоимость инференса по ценам облака и умножьте на свой RPS. Квантизуй и дистилируй или погибни)

Поэтому
1. Рассмотрите 4090/4080 super, если ваши модели влезают в 16-24Gb. Они имеют лучшее соотношение цена/производительность
2. Многие используют А30 для инференса/рендеринга. Они в 2 раза дороже 4090 и хуже по производительности. Так что брать их стоит только из соображений совместимости с AI инференсом и серверного форм-фактора из коробки (есть еще причины - их обсудим в следующем посте)
3. Сделайте инференс на A100, если деньги не проблема или вы делаете большие LLM

А если быть реалистами, для многих стартапов в инференсе даже 4060 12Gb подойдет (~40т руб). И лучше собрать сервер на 4-8GPU и балансировать между ними трафик

250 viewsedited 08:53

Давай деплой ML!

Почему персональные и серверные GPU Nvidia схожи по производительности и отличаются по стоимости в разы?

Есть несколько причин:
1. Спрос. Компании в Америке скупают новейшие карты тысячами. Nvidia на кварталы вперед в предзаказах H100/B200
2. Санкции. 4090, A100, H100 - запрещены для ввоза на материковый Китай и РФ. Результат - все все равно доступно, стало дороже и возможны проблемы с документами
3. Ценовая политика. Игровые карты предназначены для геймеров. Доля стоимости видеокарты в сбалансированном компьютере - 40-60%. Не то чтобы много людей, готовый за игровой компьютер платить 300-400т+, потому слишком завышать цену не получится
4. Память. У серверных карт она производительнее, так что в некоторых интенсивных сценариях она может помешать утилизировать вычислитель.
Для сравнение пропускная способность: 4090 - 32Gb/s, у А100 - 64Gb/s, у H100 - 128GB/s
5. Нагрев. У 4090 заявлена мощность нагрева - до 450W, у А100 - 300W. Хотя при этом H100 - до 700W, но там и охлаждение продумано за вас
6*. Охлаждение. Серверные карты можно поставить "бутербродом" за счет турбинного охлаждения или вплотную (как у dgx/hgx) за счет продуманных потоков воздуха. Игровые от такой компоновки расплавятся, да и горячий/холодный коридор дома вы делать не будете. Есть еще вариант оторвать родной радиатор и поставить турбину или водяное охлаждение (так даже уже делают) - но вы слетите с гарантии**
7**. Есть некоторая лицензия, не позволяющая использовать игровые карты для профессиональных целей
Честно, я ее не видел, но все о ней говорят. Скиньте в комменты, пожалуйста, если вы ее видели.
8. Взаимодействие GPU в сервере. В игровых больше нет NVLink, так что распределенное обучение там будет медленное
9. Количество доступных стоек и места в них. Если свои помещения, то количество стоек ограничено стенами. Поэтому чем больше GPU помещается в сервер, тем лучше

* У Gigabyte появились turbo-fan версии 4070 ti super для AI (прямо сейчас в РФ они только на Авито). Так что существенность и правдивость данных пунктов становится более сомнительной.
** Nvidia ушла с рынка и не обслуживает свои продукты, так что возможность слететь с "гарантии" - это не аргумент. Гарантийные обязательства реализуются поставщиками самостоятельно (либо путем вывоза в соседние страны)

На фото hgx 4xA100 с башенным охлаждением. Трудно представить себе такую компоновку 4090

259 viewsedited 07:43

Давай деплой ML!

Развитие железа для Deep Learning

Нашел классное выступление от одного из лидирующих архитекторов Nvidia и экс профессора Стенфорда

Несколько основных мыслей:
1. Рассказал про то, чем получается добиться максимум производительности и за счет чего они сделали кратный рост производительности
Основное - кастомные типы данных и операции, структурная разреженность
Сейчас есть несколько идущих проектов по различным способам использования разреженности
2. Research Nvidia работает где-то на 2 поколения вперед. То есть то, что они придумывают и тестируют сейчас - будет реализовано через 2-4 года
Сейчас, кажется, все легкие идеи уже опробованы, но пока они не истощились
3. Конкуренты Nvidia далеко позади. Особенно что касается типов данных, производительности и универсальности. И они постоянно только догоняют (см пункт 2). Тулчейн cuda разрабатывается с 2003 года
4. Успех DL во многом благодаря кратному росту производительности GPU (они сейчас по закону Мура пока движутся - 2 года = х2 мощность)
Мол чем круче девайсы, тем больше возможностей у разработчиков и возможно большие модели в разумные сроки обучить
5. Идея совместной оптимизации алгоритма и девайса. Можно заниматься переписывание алгоритма с одного девайса на другой, а можно переосмыслить сам алгоритм под девайс, получив новый с другими гарантиями и ускорив решение задачи в тысячи раз
6. У nvidia есть ресерч проекты по созданию асиков с университетами (EIE, Eyeriss, SCNN, Simba). Это прям круто, даже если им отдаются идеи, которые как есть не лягут в железку

Bill Dally | Directions in Deep Learning Hardware

Bill Dally , Chief Scientist and Senior Vice President of Research at NVIDIA gives an ECE Distinguished Lecture on April 10, 2024 at Georgia Tech.

Abstract:
“Directions in Deep Learning Hardware”
The current resurgence of artificial intelligence, including…

269 viewsedited 10:33

Давай деплой ML!

Чего хотеть от фреймворка инференса?

Первое что приходит в голову - производительности 😎
Но сосредоточиться только на ней будет ошибкой

Вот несколько других параметров:

1. Язык реализации. Если у вас малые нейронки или размеры входов, то издержки взаимодействия с питоном будут существенны под нагрузкой и стоит смотреть c++ фреймворки. Если матрицы большие, то, на самом деле, можно вполне пользоваться питоном пока нагрузки не велики (те же llm могут тратить десятки секунд на обработку контекста). Да и сами операции в питон фреймворках реализованы через биндинги С/С++

2. Среда использования. Если вы экспериментируете с составом кластера, и у вас наряду с nvidia картами есть еще и amd/intel/huawei - хорошей идеей будет подумать об одном общем фреймворке с реализацией нужных бекендов

3. Сборка. Просто ли собрать код, загрузить его на сервер и запустить? Контейнер может весить 10-20Гб и загрузка его с диска на рестартах может занимать десятки минут. Если уходить еще ниже на уровень бинарей, то возить с собой все .so библиотеки может быть проблематично. И, кстати, никто не обещал что залинкованная динамически библиотека на сборке не крашнет вам бинарь в неподходящий момент

4. Память. Если ваша нагрузка memory-bound (GPU VRAM переполнена), то имеет смысл смотреть реальную занимаемую память на нагрузке для одного запроса

5. Наличие хаков для нишевых сценариев. Инференсить llm без спекулятивного декодинга, kv cache, квантизаций, батчевания prefill/decode - равно тратить в разы больше ресурсов. В некоторых движках этих фичей может не быть

6. Качество кода. Разные фреймворки написаны с разным отношением. Кто-то пишет интуитивно понятный код, который легко раздебажить, а кто-то пишет все в одном файле на 3к строк и потом с пеной у рта говорит про эффективность (удачи дебажить ошибки в коде nvidia 🚬, но их не поймут, если они напишут не самый оптимальный код). В любом коде будут ошибки, любой будет падать - это просто факт, посмотрите в Release notes на исправленные в патчах ошибки, и вам покажется, что фреймворк вообще своей жизнью живет, иногда новые релизы просто не собираются
Так вот вы либо имеете контроль над кодом и можете на своей стороне сделать патч, либо с синими глазами даунгрейдите версию фреймворка в надежде поймать фикс и ждете исправлений в апстриме

📝 В общем, тут все не так однозначно. И кстати интересная тенденция - чем сложнее система и больше продакшен, тем большей простоты от кода и сборки стараются достичь. Потому что, когда все упадет, спросят с тебя, а не с разработчиков TensorRT

Please open Telegram to view this post

VIEW IN TELEGRAM

259 views06:56

Давай деплой ML!

AMD Instinct™ MI325X Accelerators

Новая игрушка от AMD

🧸

256Gb видеопамяти на плате - это мощно 🌠 И компьют хороший
У nvidia есть свой аналог H200 - там 141Gb (у A100/H100 - 80Gb)

Для кого это и почему это круто?
99% - для ML инженеров на время разработки. Дело в том, что релизы новых моделей, если их не тюнить, часто не влезают в 80Gb (да-да дожились). Либо работают долго
Из моих последних использований:
1. Open-Sora для генерации видео лезет только в 4GPU, если генерить в 720p. У меня получилось уместить с приседаниями, но все же
2. Flux для генерации изображений - генерит одну картинку 30 сек на А100, что не быстро для model-surgery

🏆 Так вот если у тебя есть такая плата - ты на коне. Просто берешь почти любую модель и разворачиваешь за пару минут. Да и компьют быстрый. А не мучаешься с model/sequence/tensor параллелизмом

Для инференса эта штука может быть полезна в контексте LLM с очень большими последовательностями - размеры KV-Cache могут быть оч большими при нагрузке. Но, думаю, врятли кто-то будет особо использовать

Ps:
Мне кажется, что amd уже очень даже конкурентноспособны для AI. У меня чешутся руки прикупить такую карточку и поделать на ней замеры
Ps2:
Мы такие платы пока не получим, H100 и так с скрипом завозят, а эти лимитированы и продаются избранным, не слышал, чтобы у кого-то были

Please open Telegram to view this post

VIEW IN TELEGRAM

276 views06:53

Давай деплой ML!

253 views06:54

Давай деплой ML!

vLLM или алгоритмические ускорения инференса LLM

Тот случай, когда фреймворк инференса выбирается из-за алгоритмических фичей и простоты использования

В чем тут проблема?
При генерации токенов llm имеет две стадии:
1. Prefill - обработка контекста и заполнение KVCache
Compute-bound задача (умножение больших матриц)
2. Decode - генерация новых токенов авторегрессионно (сгенерировали токен, добавили к текущему накопленному промпту, повторили, пока не сгенерируете достаточно)
Memory-bound задача (больше таскаем KVCache и собираем матрицы, чем умножаем)

Получается, GPU недоутилизируется на Decode, а также наивная реализация KV-Cache приводит к переаллокациям (внутренняя фрагментация) или невозможности эффективного исполнения батча запросов

Одно из первых решений - vllm. Его же многие сейчас берут как бейзлайн, благодаря простоте использования.
Python фреймворк с биндингами на кернелы, кстати

От них выступление с картиночками на английском
Статья про PagedAttention

Они не придумали все, есть много похожих статей. Часть фичей по мотивам они сделали и у себя (например, разбиение контекста на чанки)
Основной вклад:
1. Paged attention - делаем страничную виртуальную память для кешей как в OS и провязываем его напрямую в блок внимания. Тот случай, когда аккуратно написанный кернел делает разницу
2. Эффективная реализация батчинга - если KVCache блочен, то ничего не мешает нам батчевать запросы (не нужно физически собирать матрицу батча в последовательную память)

*восстановлен после случайного удаления

331 views08:04

Давай деплой ML!

ggml - с++ библиотека тензорных операций

🤩 Написана на базовых и интуитивно понятных абстракциях. Все под чистым cmake (попробуйте пособирать executorch с их buck системой над cmake, например. Мне надоело). И при этом есть широкий выбор бэкендов: cuda, amd hip, huawei ascend, x86, arm

Мне рекомендовали фреймворк в контексте мобильных девайсов. Но, знаете, эта штука просто супер как базовый compute слой для серверного инференса 🙂
🚀 Берете любой нативный для вас сетевой фреймворк (хоть внутренний кастом) и в путь - гибкости вы не потеряете
✨ И да, оно очень эффективно работает с памятью, на десятки процентов лучше, чем у условного executorch. Соседняя конкурентная нагрузка скажет спасибо (думаю, в торче память излишне кешируется, либо я что-то не оптимизировал. Но круто, что такая разница из коробки)

Тот самый фреймворк инференса, из-за которого написан пост
Появился как библиотека движка для llama.cpp и whisper.cpp
Если интересно, почитайте пост с hf, скрин с фичами прикрепил

ggml - это некий баланс между "возьмем triton от Nvidia для производительности" (но про кастомизацию забудем) и "нам надо кастом, поэтому пишем сами ядра на cublas и Intrinsics/asm"
И вот на мой взгляд для производительной разработки это сейчас одно из лучших решений

😐 Из минусов - часть операций может быть не реализована эффективно, в любом случае нужны сравнительные замеры, на сколько это критично для ваших моделей. Ну и формат хранения GGUF. Но на hf под популярные модели есть уже сконверченные веса

Please open Telegram to view this post

VIEW IN TELEGRAM

259 views08:05

Давай деплой ML!

🎄 Дорогие друзья,
Поздравляю вас с наступающим Новым годом!
Надеюсь, что 2024 был для вас продуктивным. Пусть 2025 будет еще лучше и принесет больше новых возможностей!

Спасибо, за то, что читаете и комментируете. За год посты стали глубже и качественней благодаря вам ❤
Скоро появится новый контент с замерами, будет круче и полезнее (и, может, даже веселее). Начнем с жизненных мемов, пока не собран сетап 🎄

Please open Telegram to view this post

VIEW IN TELEGRAM

247 views08:07

Давай деплой ML!

За последние два года опубликовано много крутых статей по спекулятивному инференсу для llm - собрал из них небольшой обзор

Для поста слишком много информации, поэтому разместил на Хабре:
Обзор алгоритмов спекулятивного инференса для llm
Внутри много полезных ссылок на статьи и код

Кстати, схемы в статье сам рисовал. Как вам формат?
🔥 - Круто, мне помогает быстрее понять идею
🗿 - Мне важен первоисточник, перехожу по всем ссылкам

Алгоритмы спекулятивного инференса LLM

Введение За последние годы качество LLM моделей сильно выросло, методы квантизации стали лучше, а видеокарты мощнее. Тем не менее качество генерации все еще напрямую зависит от размера весов и, как...

311 views10:00

Давай деплой ML!

Добро пожаловать в матрицу?

Сейчас набирает обороты рисерч моделей мира, где вместо отрисовки графики картинку полностью генерирует модель по промптам (архитектуры те же, что у моделей генерации видео)

Рисерчеры постили на старых игрушках
Doom - https://gamengen.github.io/
Minecraft - https://oasis-model.github.io/
Что скорее для забавы

Но Nvidia сегодня выкатила свой фреймворк физичных world моделей. Качество генерации ооч крутое
Code - https://github.com/NVIDIA/Cosmos
Article - https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai

Кажется, будет появляться больше хороших синтетических датасетов, хоть и за счет тонны компьюта.
Ну и удачи тому чудаку, который будет делать инфренс этих моделей at scale 🚬

@deploy_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

244 viewsedited 07:04

Давай деплой ML!

Новые ~~игровые~~ пользовательские GPU, какие они?

Прошел этап анонсов видеокарт - Nvidia, amd и intel зарелизили свои карты нового поколения.
Мы не геймеры, но игровые карты стали best-value-to-money решениями, по крайней мере для инференса. Но сейчас не об этом - сейчас хочу поделиться своим мнением по каждому релизу.

🏆

intel
Классные бюджетные карты за 250$. Они так зашли на старте, что ниже 350-400$ их теперь не купить, а стоки раскупаются быстрее поставок. Думаю, это дело времени, через пару месяцев должно отпрыгнуть к изначальным ценам.

16gb GDDR6 - это круто за свою цену. По слухам, будет еще версия 24Gb. Для компьютерного зрения, даунстрим тасок и прочего, что должно держать нагрузку, кажется, будет хорошим решением.

Для компании intel, находящейся в не очень хорошем состоянии (процессоры серьезно проигрывают борьбу AMD на всех рынках), GPU - непрофильный эксперимент с большим бюджетом. Если бы battlemage не зашли, подразделение могли закрыть полностью в рамках снижения затрат.

🤐

Amd
Тут полный байт, посмотрите комменты под видео с презентации на CES.
Спойлер - гпу там не показали, но есть пару слайдов без бенчмарков.

Кажется, это не капитуляция, и у этого есть объяснение - идет процесс унификации серверных и игровых карт. Будет новая архитектура UDNA в 2026, анонсированная еще в сентябре.
И потому текущее поколение "пропущено" - будут какие-то проходные варианты и amd просто пытается понять, какой выставить цену, чтобы не словить хейта. И если бы они сейчас показали бенчмарки, мог быть антипиар.

И, кстати, тезис "мы за бюджетный сегмент, не будем соревноваться с Nvidia 5090" видимо был пылью в глаза.
Судя по всему еще как будут, просто не успели сделать нормально)

🤑

Nvidia
Из крутого - 32Gb памяти у 5090. Не то чтобы это сделает супер разницу с 24, но сможете втиснуть чуть больше батч на вход.

Дальше классический маркетинг. Видишь слайд "5070 is better than 4090, but cost 549$" и такой ваааааау. Смотришь спеки, а там куда ядер сильно меньше. И вообще у 5090 куда ядер всего на 33% больше чем у 4090. Тут ты напрягаешься, откуда заявленная почти x3 AI производительность? Может из-за почти в 2 раза возросшей пропускной способности GDDR7? Нееее.

Следите за руками. Производительность указана в AITops. Не fp, не bf, не int операций, а вот этого маркетингово чуда. Теперь смотрим в описание и понимаем "fp8 == 4090 AITops == 5090 AITops == fp4". А, как вам финт ушами?
На деле скорость возрастет примерно на 30% в среднем, судя по первым бенчам на играх. Так что расходимся, нас заскамили.

Итог
Intel - молодцы, будем смотреть бенчи на моделях
AMD - терпят до объединения игровых и серверных карт
Nvidia - скамеры, но за 32Gb респект

@deploy_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

290 viewsedited 16:02

Давай деплой ML!

Стандартизация - это тяжело. Или в чем проблема mlops

Вчера пришел друг с интересной проблемой
— Как экспортировать из pytorch в onnxruntime трансформерную модель?
— Ну как, берешь, экспортируешь
— Так оно без кастомного трансформерного слоя будет, а нам надо. Я бы готов был согласиться на flash_attention, но трейс будет без него

Дальше я просто попытался эффективно перенести torch.nn.functional.scaled_dot_product_attention в onnx и onnxruntime

Пару запросов и мы находим кернел в onnxrt для атеншена
Но если просто сделать torch.onnx.export, то вы получите честный граф со всеми matmul из формулы, что не приближает к результату

Дальше в похожих issue [еще одно] в onnx тебя отправляют в graph optimizer или в написание кастомного слоя
В graph optimizer есть таки AttentionFusing. Я его попробовал, получил разлет версий и спустя 30 минут смог таки скомпилить слой и не уронить оптимизатор графа
Но на выходе я получил просто fused matmul. Ну не превратиться он волшебным образом во что-то внятное в рантайме. Да и руками это не выпарсить в код обратно

Таким образом мы не можем без написания кастомного слоя перенести красиво в инференс обычную операцию внимания. А еще, пока я подгонял версии torch и onnxscript чтобы оно не разваливалось - результирующий граф жил своей жизнью (что будет и при ваших обновлениях библиотек)

Получается train, mlops, inference - выбери два, которые будут у тебя нормально сделаны
train - забить нельзя, команда потеряет скорость в экспериментах и нервы
inference - нельзя, потому что это эффективность, надежность и операционные затраты бизнеса

mlops при таком подходе остается быть мостиком из костылей
Ps: друг написал свою конвертацию атеншена через autograd. Не красиво, но задача решена

@deploy_ml

305 views15:16

Давай деплой ML!

Пришло время обновить интро

👋

Меня зовут Данил, я автор этого канала. Работаю в rnd, занимаюсь исследованиями в ML инфре. Пишу на с++ и python, еще умею в go/rust. Работал в rnd командах облака и нейросетевой инфраструктуре контекстной рекламы

Чем занимаюсь:
1. Архитектурю ml продукты и системы
2. Поднимаю инференс
3. Продираюсь через библиотеки с эффективными ~~джунглями~~ реализациями
4. Подбираю фреймворки, библиотеки и базы под конкретные задачи

Что почитать на канале:
🚀 Инференс
- ggml - лучшая библиотека для реализации серверного инференса
- inference, train, mlops - выбери два, сломай лицо об третье
- Как выбирать движок инференса

🖥 Алгоритмы
- Ускорение LLM через PagedAttention и батчинг
- Спекулятивный декодинг - как маленькой llm ускорить громадную

⚙️

Железки
- AMD Instinct™ MI325X - мега gpu на 256Gb памяти
- Будущее серверных железяк
- Какие карты использовать для инференса

Если есть идеи по темам постов, вопросы или обратная связь, пишите в комменты или в личку @svt_danny

Спасибо что подписываетесь и читаете ❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

363 viewsedited 08:02

Давай деплой ML!

Обзор баз данных за 2024

Каждый год обновляется профессором CMU Andy Pavlo. Оригинальная статья
Почему-то особо про векторные базы не написал. На них сейчас особый хайп. Но мы это отдельно рассмотрим

Кратко события за год:
1. Redis поменял лицензию на смесь Redis Source Available License and MongoDB SSPL
Хотят больше зарабатывать и боятся облаков, которые очень много зарабатывают и не делятся прибылью

Сообщество обозлилось и начало делать форки. Самые известные - Valkey и Redict. На сколько я слышу, у нас больше пересели на Valkey
Еще есть dragonfly - по многочисленным отзывам написан очень круто и намного лучше держит нагрузку

Elasticsearch вернул опенсурс лицензию, после нескольких лет попыток противостоять AWS. Кажется, редис ждет та же участь

2. Баталии Databricks и Snowflake
Обе компании выросли до лидеров на огромном конкурентном рынке хранения и обработки данных. Оба, кстати, стартовали из исследователей (phd thesis M.Zukowski - snowflake. M.Zaharia - Databricks)
Теперь цапаются друг на друга, игнорируя все вокруг и тратя огромные ресурсы. Сравниваются стоимостями и производительностями сервисов, а также качеством своих llm.

Тем временем Databricks поднял раунд на 10млрд $, чтобы выкупить акции у сотрудников, которые ~~демотивированны~~ ждут обещанного IPO

3. Интеграция DuckDB повсюду
Анализ Snowflake и Redshift показывает, что средний аналитический запрос затрагивает 100Mb данных, для чего достаточно простого движка. DuckDB как раз имеет хорошую встраиваимость, потому полюбился для реализации аналитических плагинов для postgres

Еще один игрок, решающий хорошо схожую задачу - clickhouse. Энди пишет, что раньше его было сложно поднимать и настраивать, а также не хватало гибкости, потому duckdb популярнее в контексте расширения баз (на малых среднестатистических нагрузках удобство важнее, тем более в контексте встраиваемости)

4. Новая коммерческая база - CedarDB
Основана на коде Umbra, разрабатываемой Томасом Ньюманом. Но он хочет продолжать работать над ней как над исследовательским проектом, а не строить очередной стартап. При этом не стал мешать одному из своих phd студентов форкнуть код и открыть стартап под названием CedarDB

@deploy_ml

368 views16:11

Давай деплой ML!

Подборка статей MLSys 2024 (part 1)

Давний подписчик предложил добавить подборки по статьям и фреймворкам.
У меня большая кубышка такого контента 😏. Давайте начнем с более практичных вариантов
MLSys - хорошая конференция, с очень качественными принятыми статьями. Если что, в 2024 приняли только 37 статей

Полный список

Что запомнилось мне:
1. AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration [poster][paper] - best paper award
Одна из самых хайповых квантизаций. Поддержана во всех крутых фреймворках

2. Q-Hitter: A Better Token Oracle for Efficient LLM Inference via Sparse-Quantized KV Cache [poster][paper]
На больших контекстах decode становится memory-bound. В статье - как эффективно совместить разрежение и квантизацию KVCache

3. Punica: Multi-Tenant LoRA Serving [poster][paper]
Развили идею батчевания lora адаптеров на планирование по всему кластеру

4. DiffusionPipe: Training Large Diffusion Models with Efficient Pipelines [poster][paper]
Минимизируют простои ресурсов через аккуратное планирование обучаемых и замороженных частей пайплайна

5. SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable Large Mixture-of-Experts Models [poster][paper]
MoE модели активируют небольшую часть весов для инференса каждого запроса. Это же преимущество приводит к проблемам с эффективным инференсом в проде, которые решают в статье - нужно уметь эффективно управлять доступной RAM и GPU памятью

6. Disaggregated Multi-Tower: Topology-aware Modeling Technique for Efficient Large Scale Recommendation [poster][paper]
Кластера обучения не однородны по топологии транспорта. В статье адаптируют большую и плоскую нейросетевую рекомендательную модель к обучению на масштабах датацентра

@deploy_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

491 viewsedited 15:46

Давай деплой ML!

Дистилляты deepseek r1 и жизненные проблемы

Я задал одни и те же вопросы разным дистиллятам deepseek r1:
qwen 1.5b, qwen 7b, llama 8b, qwen 32b - именно эти модели, скорее всего, будут интересны большинству на практике.

Спросил бытовое: как приготовить окрошку, поменять пробитую шину и выжить в лесу. В картинках можете сравнить, как они справились ⬇️ (на картинках - qwen32b, в комментах - другие модели)

Вспомнился давний мем с Зоей Вексельштейн:
Какая у вашей модели reasoning? Как она performing?

А как быстро запустить инференс таких моделей - смотрите в моем

мини туториале на habr

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

613 views07:25