#ml #cpu #inference #tflight #paddlepaddle #onnx #openvino #tvm
По итогу рекомендуют onnx runtime, ускорение прогнозов в среднем от 20% до 400%. TVM интересен поддержкой множества форматов и компиляцией моделек напрямую в системные .dll и .so файлы.
https://www.youtube.com/watch?v=FHt0QtqQpxE
По итогу рекомендуют onnx runtime, ускорение прогнозов в среднем от 20% до 400%. TVM интересен поддержкой множества форматов и компиляцией моделек напрямую в системные .dll и .so файлы.
https://www.youtube.com/watch?v=FHt0QtqQpxE
YouTube
Артём Земляк | Лёгкие пути оптимизации инференса ML моделей на CPU
Data Fest Siberia 3 & Halloween 2022:https://ods.ai/tracks/groups/data-fest-siberia-3-halloweenТрек MLOps:https://ods.ai/tracks/sibfest3-mlopsНаши соц.сети:T...
#pytorch #inference #training #lightning #mojo #triton
Ландон из зе кэпитал оф Грейт Бритайн ) Russian schoolboy accent detected. Но доклад и правда полезный.
https://www.youtube.com/watch?v=94gShEYPCCQ
Ландон из зе кэпитал оф Грейт Бритайн ) Russian schoolboy accent detected. Но доклад и правда полезный.
https://www.youtube.com/watch?v=94gShEYPCCQ
YouTube
Vladimir Osin - Taming the Machine: Basics of ML Models Training and Inference Optimization
This introductory talk is designed to address the prevalent industry challenge of Machine Learning (ML) model deployment. Given the plethora of frameworks, compilers, and runtimes, ML engineers and Data Scientists often find this a daunting task. Our discussion…
#inference
Как выбирать модельку под задачи с учётом латентности.
https://www.youtube.com/watch?v=uQCLHHyGc3c
Как выбирать модельку под задачи с учётом латентности.
https://www.youtube.com/watch?v=uQCLHHyGc3c
YouTube
Talk | The Challenges in Hardware Aware Inference Optimization in Deep Learning
The increasing size of modern deep neural models makes it harder to meet cost-effective inference performance requirements without hardware-aware optimizatio...
#hardware #inference
"В рамках конференции Cloud Next на этой неделе компания Google представила новый специализированный ИИ-чип Ironwood. Это уже седьмое поколение ИИ-процессоров компании и первый TPU, оптимизированный для инференса — работы уже обученных ИИ-моделей. Процессор будет использоваться в Google Cloud и поставляться в системах двух конфигураций: серверах из 256 таких процессоров и кластеров из 9216 таких чипов.
Анонс Ironwood состоялся на фоне усиливающейся конкуренции в сегменте разработок проприетарных ИИ-ускорителей. Хотя Nvidia доминирует на этом рынке, свои технологические решения также продвигают Amazon и Microsoft. Первая разработала ИИ-процессоры Trainium, Inferentia и Graviton, которые используются в её облачной инфраструктуре AWS, а Microsoft применяет собственные ИИ-чипы Cobalt 100 в облачных инстансах Azure.
Ironwood обладает пиковой вычислительной производительностью 4614 Тфлопс или 4614 триллионов операций в секунду. Таким образом кластер из 9216 таких чипов предложит производительность в 42,5 Экзафлопс.
Каждый процессор оснащён 192 Гбайт выделенной оперативной памяти с пропускной способностью 7,4 Тбит/с. Также чип включает усовершенствованное специализированное ядро SparseCore для обработки типов данных, распространённых в рабочих нагрузках «расширенного ранжирования» и «рекомендательных систем» (например, алгоритм, предлагающий одежду, которая может вам понравиться). Архитектура TPU оптимизирована для минимизации перемещения данных и задержек, что, по утверждению Google, приводит к значительной экономии энергии.
Компания планирует использовать Ironwood в своём модульном вычислительном кластере AI Hypercomputer в составе Google Cloud."
https://3dnews.ru/1121018/google-predstavila-svoy-samiy-moshchniy-iiprotsessor-ironwood-do-46-kvadrilliona-operatsiy-v-sekundu
"В рамках конференции Cloud Next на этой неделе компания Google представила новый специализированный ИИ-чип Ironwood. Это уже седьмое поколение ИИ-процессоров компании и первый TPU, оптимизированный для инференса — работы уже обученных ИИ-моделей. Процессор будет использоваться в Google Cloud и поставляться в системах двух конфигураций: серверах из 256 таких процессоров и кластеров из 9216 таких чипов.
Анонс Ironwood состоялся на фоне усиливающейся конкуренции в сегменте разработок проприетарных ИИ-ускорителей. Хотя Nvidia доминирует на этом рынке, свои технологические решения также продвигают Amazon и Microsoft. Первая разработала ИИ-процессоры Trainium, Inferentia и Graviton, которые используются в её облачной инфраструктуре AWS, а Microsoft применяет собственные ИИ-чипы Cobalt 100 в облачных инстансах Azure.
Ironwood обладает пиковой вычислительной производительностью 4614 Тфлопс или 4614 триллионов операций в секунду. Таким образом кластер из 9216 таких чипов предложит производительность в 42,5 Экзафлопс.
Каждый процессор оснащён 192 Гбайт выделенной оперативной памяти с пропускной способностью 7,4 Тбит/с. Также чип включает усовершенствованное специализированное ядро SparseCore для обработки типов данных, распространённых в рабочих нагрузках «расширенного ранжирования» и «рекомендательных систем» (например, алгоритм, предлагающий одежду, которая может вам понравиться). Архитектура TPU оптимизирована для минимизации перемещения данных и задержек, что, по утверждению Google, приводит к значительной экономии энергии.
Компания планирует использовать Ironwood в своём модульном вычислительном кластере AI Hypercomputer в составе Google Cloud."
https://3dnews.ru/1121018/google-predstavila-svoy-samiy-moshchniy-iiprotsessor-ironwood-do-46-kvadrilliona-operatsiy-v-sekundu
3DNews - Daily Digital Digest
Google представила свой самый мощный ИИ-процессор Ironwood — до 4,6 квадриллиона операций в секунду
В рамках конференции Cloud Next на этой неделе компания Google представила новый специализированный ИИ-чип Ironwood.
#inference #optimization #blackwell
https://developer.nvidia.com/blog/blackwell-breaks-the-1000-tps-user-barrier-with-metas-llama-4-maverick/
https://developer.nvidia.com/blog/blackwell-breaks-the-1000-tps-user-barrier-with-metas-llama-4-maverick/
NVIDIA Technical Blog
Blackwell Breaks the 1,000 TPS/User Barrier With Meta’s Llama 4 Maverick
NVIDIA has achieved a world-record large language model (LLM) inference speed. A single NVIDIA DGX B200 node with eight NVIDIA Blackwell GPUs can achieve over 1,000 tokens per second (TPS) per user on…