血衫的一己之见
1.53K subscribers
14K photos
494 videos
167 files
3.01K links
分享动漫与技术
Download Telegram
西瓜书🍉,蛤蛤蛤
GPU编程5:GPU和CPU异构编程 - 宇文树雪的文章 - 知乎
https://zhuanlan.zhihu.com/p/567659717

结果不如人意,GPU调用的函数比直接用CPU计算的事件慢了一倍。可能的原因:1 硬件限制:MX150低端显卡算力有限,运算核心只有384个;但是后期重新用RTX2060显卡跑后发现,整体效果仍然不好,所以不是这个原因。2 数据传输:从耗时可以看出,GPU和CPU之间传输数据耗费了大量时间。如果并行计算的规模不大,并行计算的时间优势会被数据传输耗时抵消甚至拖累。从上图RTX2060显卡的结果看出,高性能显卡的确能缩短核函数运算时间,但是GPU和CPU之间的数据传输耗时差别相对较小。因此,数据传输是重要瓶颈。3 数据原因:本案例的矩阵加法案例相对简单,CPU也能快速计算;4 未知原因:可能是这个案例的写法存在问题,懂的朋友可以共同讨论。
血衫的一己之见
https://tech.meituan.com/2023/02/09/inference-optimization-on-gpu-by-meituan-vision.html
这种优化方式具有一个核心思想:在CPU运算是瓶颈的推理服务中,将模型的CPU和GPU运算部分拆分,单独部署成CPU/GPU微服务
根据这种思想,我们提出一种通用高效的推理服务部署架构。如下图10所示,底层使用通用的部署框架(TF-Serving/Triton等),将模型中CPU运算部分如预处理、后处理拆分单独部署成CPU微服务,主干网络模型部署成GPU服务,上层调度服务串联模型微服务实现整体功能逻辑。
https://ngabbs.com/read.php?tid=19750879

[破事水]只有我一个人把手柄ab键功能对调了吗