DeepSeek-V4 的并行策略和计算通信遮掩

📌 一句话摘要

本文深入解析了 DeepSeek-V4 训练中采用的 GPU 并行策略，重点阐述了其通过 PP、EP、DP ZeRO-1 的组合以及 DualPipe 和 Waved-EP 等创新技术，在低带宽 IB 网络下实现计算与通信高效遮掩的核心原理。

📝 详细摘要

本文以 DeepSeek-V4 的并行策略为核心，系统性地讲解了大规模分布式训练中 GPU 并行计算的关键技术。文章首先从 MoE 模型训练中 MFU 下降的实际问题切入，引出通信 bound 的概念。接着，详细介绍了 DP、TP、PP、EP、CP 等基础并行策略的原理、适用场景及显存占用计算。文章重点剖析了 DeepSeek 为何选择 PP + EP + DP ZeRO-1 的组合，并解释了其避免使用 TP 和 ZeRO-2/3 以节省 IB 带宽的深层考量。随后，文章深入讲解了 PP 的气泡问题及 ZB1P、DualPipe 等优化方案，并重点阐述了 DualPipe 如何通过双向流水线和专用通信 SM 实现 EP 通信与计算的完美遮掩。最后，文章介绍了 DeepSeek-V4 中新的 Waved-EP 方案，该方案通过将 Expert 分组为多个 wave 并在 kernel 级别实现通信遮掩，解决了 DualPipe 在小 batch 场景下遮掩效果不佳的问题。文章还对比了 TileLang 与 Triton 在实现此类精细控制 kernel 上的能力差异，并总结了 DeepSeek 工程实践对硬件发展的启示。

💡 主要观点

- DeepSeek-V4 采用 PP + EP + DP ZeRO-1 的并行策略组合，核心目标是节省宝贵的跨节点 IB 带宽。 PP 通信量小适合跨节点，EP 是 MoE 标配但通信量大，DP ZeRO-1 在非优化器步无通信，三者组合避免了在每次 micro-batch 中与 EP 抢占 IB 带宽，这是 DeepSeek 能在低配硬件上训练超大模型的关键。

DualPipe 通过双向流水线和专用通信 SM，在 PP 层面实现了 EP 通信与计算的 100% 遮掩。 DualPipe 在 ZB1P 基础上引入两条反向的 micro-batch，使 Forward 和 Backward 的计算与 EP 的 all-to-all 通信在时间上完美错开。同时，从 132 个 SM 中划出 20 个专门运行自研 PTX 级通信 kernel，进一步确保了通信效率。

Waved-EP 是 DeepSeek-V4 提出的 kernel 级通信遮掩方案，解决了 DualPipe 在小 batch 场景下的局限性。 Waved-EP 将 Expert 分成多个 wave，在单个 MoE 层内通过 wave 间的流水线实现 dispatch、计算和 combine 的并行，不依赖 PP 调度。这使得其在 RL 或推理等小 batch 场景下也能获得显著的加速效果。

💬 文章金句

- 深入理解这个问题，就是理解 GPU 的分布式并行计算，要在计算和访存 bound 之外，引入通信 bound。

EP 是唯一一个'在 forward pass 内部把 token 重新换主'的并行维度。
DeepSeek 选择把宝贵的 IB 带宽留给了 EP 的通信。
DualPipe 的副作用就是显存占用增加了一倍，PP+EP+ZeRO-1 已经把显存占用切到很小了，V3 paper 说这可以接受。
我觉得在这种极致地工程能力下，在计算和通信上的平衡堪称艺术，比那种模型结构的奇技淫巧要高牛的多。

📊 文章信息

AI 初评：88

来源：AINLP

作者：AINLP

分类：人工智能

语言：中文

阅读时间：26 分钟

字数：6378

标签： DeepSeek-V4, GPU 并行策略, MoE, 通信遮掩, DualPipe

阅读完整文章

DeepSeek-V4 的并行策略和计算通信遮掩

🤖 問 AI