本文深入解析了 DeepSeek-V4 在低配硬件(8 卡节点 + IB 网络)上训练大规模 MoE 模型时采用的并行策略和计算通信遮掩技术,重点介绍了 PP+EP+ZeRO-1 的组合选择、DualPipe 和 Waved-EP 两种通信遮掩方案的设计原理与适用场景。
📝 详细摘要
文章从 MoE 模型训练中 MFU 暴跌的实际问题出发,系统性地介绍了 GPU 分布式并行计算的核心概念和 DeepSeek 的实践方案。首先厘清了 DP、TP、PP、EP、CP 等并行策略的定义和适用场景,并解释了为何 DeepSeek 选择了 PP+EP+ZeRO-1 的组合,而刻意避免使用 TP 和 ZeRO-2/3,核心目的是将宝贵的跨节点 IB 带宽留给 EP 通信。接着,文章深入分析了 PP 的气泡问题及 ZB1P 的优化思路,并重点介绍了 DeepSeek-V3 引入的 DualPipe 方案,该方案通过在 PP 上形成两条反向的 micro-batch,实现了计算与 EP 通信的完美遮掩。最后,文章详细解读了 DeepSeek-V4 提出的 Waved-EP 方案,这是一个 kernel 级别的通信遮掩方案,通过将 Expert 切分为多个 wave,在 wave 之间实现 dispatch、计算和 combine 的并行,解决了 DualPipe 在小 batch 场景(如 RL 或推理)下遮掩效果不佳的问题。文章还提到了 TileLang 框架在实现这种精细控制中的关键作用。
💡 主要观点
- DeepSeek 选择 PP+EP+ZeRO-1 的组合,核心是为了避免与 EP 抢占有限的跨节点 IB 带宽。 ZeRO-2/3 和 TP 在每次 micro-batch 中都会产生大量跨节点通信,与 EP 的 all-to-all 通信形成带宽竞争。ZeRO-1 仅在优化器步骤有通信,且通信量与普通 DP 一致,因此将宝贵的 IB 带宽留给了 EP。
💬 文章金句
- 深入理解这个问题,就是理解 GPU 的分布式并行计算,要在计算和访存 bound 之外,引入通信 bound。
- EP 是唯一一个'在 forward pass 内部把 token 重新换主'的并行维度。
- DeepSeek 选择把宝贵的 IB 带宽留给了 EP 的通信。
- Waved-EP 是一个 DeepSeek-V4 的新的 EP 计算通信遮掩方案,一个 kernel 直接在 MoE 层解决问题,不再依赖 PP 调度了。
- Triton 不是为通信和计算融合设计的...TileLang 的优势不只是'更容易控制通信遮掩',而是它能写出 Triton 写不出来的 kernel。
📊 文章信息
AI 初评:87
来源:青稞AI
作者:青稞AI
分类:人工智能
语言:中文
阅读时间:28 分钟
字数:6815
标签: DeepSeek-V4, 并行策略, 计算通信遮掩, MoE, EP