Давай деплой ML!

Чего хотеть от фреймворка инференса?

Первое что приходит в голову - производительности 😎
Но сосредоточиться только на ней будет ошибкой

Вот несколько других параметров:

1. Язык реализации. Если у вас малые нейронки или размеры входов, то издержки взаимодействия с питоном будут существенны под нагрузкой и стоит смотреть c++ фреймворки. Если матрицы большие, то, на самом деле, можно вполне пользоваться питоном пока нагрузки не велики (те же llm могут тратить десятки секунд на обработку контекста). Да и сами операции в питон фреймворках реализованы через биндинги С/С++

2. Среда использования. Если вы экспериментируете с составом кластера, и у вас наряду с nvidia картами есть еще и amd/intel/huawei - хорошей идеей будет подумать об одном общем фреймворке с реализацией нужных бекендов

3. Сборка. Просто ли собрать код, загрузить его на сервер и запустить? Контейнер может весить 10-20Гб и загрузка его с диска на рестартах может занимать десятки минут. Если уходить еще ниже на уровень бинарей, то возить с собой все .so библиотеки может быть проблематично. И, кстати, никто не обещал что залинкованная динамически библиотека на сборке не крашнет вам бинарь в неподходящий момент

4. Память. Если ваша нагрузка memory-bound (GPU VRAM переполнена), то имеет смысл смотреть реальную занимаемую память на нагрузке для одного запроса

5. Наличие хаков для нишевых сценариев. Инференсить llm без спекулятивного декодинга, kv cache, квантизаций, батчевания prefill/decode - равно тратить в разы больше ресурсов. В некоторых движках этих фичей может не быть

6. Качество кода. Разные фреймворки написаны с разным отношением. Кто-то пишет интуитивно понятный код, который легко раздебажить, а кто-то пишет все в одном файле на 3к строк и потом с пеной у рта говорит про эффективность (удачи дебажить ошибки в коде nvidia 🚬, но их не поймут, если они напишут не самый оптимальный код). В любом коде будут ошибки, любой будет падать - это просто факт, посмотрите в Release notes на исправленные в патчах ошибки, и вам покажется, что фреймворк вообще своей жизнью живет, иногда новые релизы просто не собираются
Так вот вы либо имеете контроль над кодом и можете на своей стороне сделать патч, либо с синими глазами даунгрейдите версию фреймворка в надежде поймать фикс и ждете исправлений в апстриме

📝 В общем, тут все не так однозначно. И кстати интересная тенденция - чем сложнее система и больше продакшен, тем большей простоты от кода и сборки стараются достичь. Потому что, когда все упадет, спросят с тебя, а не с разработчиков TensorRT

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤1

286 views06:56