我奶奶都看得懂的解读,关于Deepseek刚开源的DeepEP
1. DeepEP 是干嘛用的?
想象一下,你要训练一个超级大的“AI大脑”(比如 GPT 这种大模型)
这个里面有很多“小专家”(Experts),每个专家处理不同的任务
当数据传给这些专家时,需要把数据发给它们(分发),处理完后再把结果汇总(合并)
这个过程需要大量的通信,就像在各个办公室之间送文件一样
但传统的方法效率很低,经常会出现以下问题⬇️
1️⃣ 快递太慢:数据在 GPU 和网络之间来回传,浪费时间
2️⃣ 堵车:太多数据同时传输,导致网络瘫痪
3️⃣ 算力浪费:GPU 在等数据的时候干着急,没法工作
DeepEP 就像是一个超级高效的“物流公司”,专门优化这种通信过程,让数据传得更快、更不堵车,还能让 GPU 一边算一边等数据,不浪费时间
2. 它有哪些厉害的功能?
1️⃣ 超快“分拣中心”
FP8/BF16 支持:用更少的数据位数(比如 FP8 是半精度浮点数)传输,省带宽、省时间,还能保持结果基本准确
硬件直连:专门为Hopper GPU 设计,直接利用显卡内部的超高速通道(NVLink)和网卡(RDMA)传输数据,就像给快递车装上了火箭引擎🚀
2️⃣ 智能“交通调度”
虚拟车道隔离:给不同的任务(比如训练和推理)分配独立的网络通道,避免互相干扰(就像高铁和公交车走不同的轨道)
自适应路由:自动避开网络拥堵路段,但可能会稍微增加一点延迟(适合对延迟要求不高的场景)
3️⃣ 边算边传(不堵车)
零 SM 占用通信:在传输数据时,GPU 的计算单元(SM)可以继续工作,不用停下来等数据(就像你边做饭边接电话,互不打扰)
双微批重叠:把一个小批次的数据分成两次传输,中间插着计算任务,充分利用时间差
4. 性能有多牛?(举个栗子🌰
假设你要给 64 个专家(EP)分发数据:
🚲普通方法:传输速度46GB/s,延迟300us(像骑电动车送货)
✈️用DeepEP:传输速度46 GB/s,但延迟下降到了160us(相当于坐超音速飞机送货)
而且,它还能根据你的硬件环境(比如用多少 GPU、多大的网卡)自动调优,就像有个AI调度员帮你安排最优路线
这波还是在Nv上的优化,dpsk你不会真的在拉nv市值吧hhhhh
然后第五天来个大的🤣🤣🤣
1. DeepEP 是干嘛用的?
想象一下,你要训练一个超级大的“AI大脑”(比如 GPT 这种大模型)
这个里面有很多“小专家”(Experts),每个专家处理不同的任务
当数据传给这些专家时,需要把数据发给它们(分发),处理完后再把结果汇总(合并)
这个过程需要大量的通信,就像在各个办公室之间送文件一样
但传统的方法效率很低,经常会出现以下问题⬇️
1️⃣ 快递太慢:数据在 GPU 和网络之间来回传,浪费时间
2️⃣ 堵车:太多数据同时传输,导致网络瘫痪
3️⃣ 算力浪费:GPU 在等数据的时候干着急,没法工作
DeepEP 就像是一个超级高效的“物流公司”,专门优化这种通信过程,让数据传得更快、更不堵车,还能让 GPU 一边算一边等数据,不浪费时间
2. 它有哪些厉害的功能?
1️⃣ 超快“分拣中心”
FP8/BF16 支持:用更少的数据位数(比如 FP8 是半精度浮点数)传输,省带宽、省时间,还能保持结果基本准确
硬件直连:专门为Hopper GPU 设计,直接利用显卡内部的超高速通道(NVLink)和网卡(RDMA)传输数据,就像给快递车装上了火箭引擎🚀
2️⃣ 智能“交通调度”
虚拟车道隔离:给不同的任务(比如训练和推理)分配独立的网络通道,避免互相干扰(就像高铁和公交车走不同的轨道)
自适应路由:自动避开网络拥堵路段,但可能会稍微增加一点延迟(适合对延迟要求不高的场景)
3️⃣ 边算边传(不堵车)
零 SM 占用通信:在传输数据时,GPU 的计算单元(SM)可以继续工作,不用停下来等数据(就像你边做饭边接电话,互不打扰)
双微批重叠:把一个小批次的数据分成两次传输,中间插着计算任务,充分利用时间差
4. 性能有多牛?(举个栗子🌰
假设你要给 64 个专家(EP)分发数据:
🚲普通方法:传输速度46GB/s,延迟300us(像骑电动车送货)
✈️用DeepEP:传输速度46 GB/s,但延迟下降到了160us(相当于坐超音速飞机送货)
而且,它还能根据你的硬件环境(比如用多少 GPU、多大的网卡)自动调优,就像有个AI调度员帮你安排最优路线
这波还是在Nv上的优化,dpsk你不会真的在拉nv市值吧hhhhh
然后第五天来个大的🤣🤣🤣
❤1👍1
阿里云的函数计算上线了一个儿童有声读物的模板
研究了下工作流,主要用到了remotion+ComfyUI+LLM,通过LLM生成文本然后再转tts,最后用remotion合成视频
完整的教程地址在这里:https://www.bilibili.com/video/BV1fkASeMEUS
Invalid media: video
研究了下工作流,主要用到了remotion+ComfyUI+LLM,通过LLM生成文本然后再转tts,最后用remotion合成视频
完整的教程地址在这里:https://www.bilibili.com/video/BV1fkASeMEUS
Invalid media: video
“选公司不仅要看人、看事、看平台,还要看这个公司的底层商业模式好不好。如果是赚辛苦钱的公司,不管人好不好,底层和大面上一定得卷,因为苦哈哈不卷就挣不到钱;赚快活钱的公司,整体上一定相对轻松友好,因为卷不卷区别不大。”
想了想,有点道理?所以和流去各个公司的产培朋友聊,确实觉得整体而言腾讯会更加友好,可能是因为底子上有游戏和社交两大金山,挣的是“快活钱”。
想想在微信的时候,大家非常注重“思考”也未必是说逼格比其他部门/公司要高,可能就是业务太稳了,卷执行卷死了可能对整体产出帮助也不大,但是多多思考做些创新的效益反而更大。
所以理想的环境,也一样需要现实的物质基础兜底。
不过这只是宏观维度,落到个体身上(尤其是职业早期)可能局部环境(人、事、平台)还是依旧影响重大。
想了想,有点道理?所以和流去各个公司的产培朋友聊,确实觉得整体而言腾讯会更加友好,可能是因为底子上有游戏和社交两大金山,挣的是“快活钱”。
想想在微信的时候,大家非常注重“思考”也未必是说逼格比其他部门/公司要高,可能就是业务太稳了,卷执行卷死了可能对整体产出帮助也不大,但是多多思考做些创新的效益反而更大。
所以理想的环境,也一样需要现实的物质基础兜底。
不过这只是宏观维度,落到个体身上(尤其是职业早期)可能局部环境(人、事、平台)还是依旧影响重大。
喜欢当用户产品经理。
因为它简单、纯粹
只要认真去做产品本身,满足用户的需求,或者是让你自己作为用户本身喜欢用。不需要依赖任何人。他必然可以吸引到用户。不需要去依附任何人与人的关系。
因为不依赖,所以独立,所以简单
因为它简单、纯粹
只要认真去做产品本身,满足用户的需求,或者是让你自己作为用户本身喜欢用。不需要依赖任何人。他必然可以吸引到用户。不需要去依附任何人与人的关系。
因为不依赖,所以独立,所以简单
👍2
后续来啦~欢迎朋友们体验或提出建议呀!
又是经过了几天的熬夜改bug😇
小红书图片批量生成器 v1.0 上线😏
在线地址:https://xhs.1da.top/
————
说说为啥我要搞它吧:
在使用Deepseek的过程中,我时常会遇到一些精彩的回答,很想将它们收藏起来。然而,直接收藏的文字多为Markdown格式,阅读体验欠佳。于是,我便创建了这个网页,它能够自动识别Markdown格式的内容,并将其转化为一张张精美的小卡片。
又是经过了几天的熬夜改bug😇
小红书图片批量生成器 v1.0 上线😏
在线地址:https://xhs.1da.top/
————
说说为啥我要搞它吧:
在使用Deepseek的过程中,我时常会遇到一些精彩的回答,很想将它们收藏起来。然而,直接收藏的文字多为Markdown格式,阅读体验欠佳。于是,我便创建了这个网页,它能够自动识别Markdown格式的内容,并将其转化为一张张精美的小卡片。
👍4