DeepSeek-V4 的并行策略和计算通信遮掩

📌 一句话摘要

本文深入解析了 DeepSeek-V4 在低配硬件（8 卡节点 + IB 网络）上训练大规模 MoE 模型时采用的并行策略和计算通信遮掩技术，重点介绍了 PP+EP+ZeRO-1 的组合选择、DualPipe 和 Waved-EP 两种通信遮掩方案的设计原理与适用场景。

📝 详细摘要

文章从 MoE 模型训练中 MFU 暴跌的实际问题出发，系统性地介绍了 GPU 分布式并行计算的核心概念和 DeepSeek 的实践方案。首先厘清了 DP、TP、PP、EP、CP 等并行策略的定义和适用场景，并解释了为何 DeepSeek 选择了 PP+EP+ZeRO-1 的组合，而刻意避免使用 TP 和 ZeRO-2/3，核心目的是将宝贵的跨节点 IB 带宽留给 EP 通信。接着，文章深入分析了 PP 的气泡问题及 ZB1P 的优化思路，并重点介绍了 DeepSeek-V3 引入的 DualPipe 方案，该方案通过在 PP 上形成两条反向的 micro-batch，实现了计算与 EP 通信的完美遮掩。最后，文章详细解读了 DeepSeek-V4 提出的 Waved-EP 方案，这是一个 kernel 级别的通信遮掩方案，通过将 Expert 切分为多个 wave，在 wave 之间实现 dispatch、计算和 combine 的并行，解决了 DualPipe 在小 batch 场景（如 RL 或推理）下遮掩效果不佳的问题。文章还提到了 TileLang 框架在实现这种精细控制中的关键作用。

💡 主要观点

- DeepSeek 选择 PP+EP+ZeRO-1 的组合，核心是为了避免与 EP 抢占有限的跨节点 IB 带宽。 ZeRO-2/3 和 TP 在每次 micro-batch 中都会产生大量跨节点通信，与 EP 的 all-to-all 通信形成带宽竞争。ZeRO-1 仅在优化器步骤有通信，且通信量与普通 DP 一致，因此将宝贵的 IB 带宽留给了 EP。

DualPipe 通过双向流水线实现了 EP 通信与 PP 计算的完美遮掩，但依赖大 batch 的稳态阶段。 DualPipe 在 PP 上形成两条反向的 micro-batch 流，在稳态阶段，一个方向的 forward 与另一个方向的 backward 交叠，使得 EP 的 all-to-all 通信被计算遮掩。但 warmup 和 cooldown 阶段无法遮掩，因此需要大 batch 来延长稳态占比。

Waved-EP 是 kernel 级别的通信遮掩方案，不依赖 PP 调度，适用于小 batch 的 RL 和推理场景。 Waved-EP 将 Expert 切分为多个 wave，在第一个 wave 进行 dispatch 通信时，第二个 wave 的计算可以同时进行，实现了 wave 间的并行。该方案使用 TileLang 框架实现，能精细控制通信和计算，解决了 DualPipe 在小 batch 下的局限性。

💬 文章金句

- 深入理解这个问题，就是理解 GPU 的分布式并行计算，要在计算和访存 bound 之外，引入通信 bound。

EP 是唯一一个'在 forward pass 内部把 token 重新换主'的并行维度。
DeepSeek 选择把宝贵的 IB 带宽留给了 EP 的通信。
Waved-EP 是一个 DeepSeek-V4 的新的 EP 计算通信遮掩方案，一个 kernel 直接在 MoE 层解决问题，不再依赖 PP 调度了。
Triton 不是为通信和计算融合设计的...TileLang 的优势不只是'更容易控制通信遮掩'，而是它能写出 Triton 写不出来的 kernel。

📊 文章信息

AI 初评：87

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：28 分钟

字数：6815

标签： DeepSeek-V4, 并行策略, 计算通信遮掩, MoE, EP

阅读完整文章

DeepSeek-V4 的并行策略和计算通信遮掩

🤖 問 AI