本文深入解析了 DeepSeek-V4 训练中采用的 GPU 并行策略,重点阐述了其通过 PP、EP、DP ZeRO-1 的组合以及 DualPipe 和 Waved-EP 等创新技术,在低带宽 IB 网络下实现计算与通信高效遮掩的核心原理。
📝 详细摘要
本文以 DeepSeek-V4 的并行策略为核心,系统性地讲解了大规模分布式训练中 GPU 并行计算的关键技术。文章首先从 MoE 模型训练中 MFU 下降的实际问题切入,引出通信 bound 的概念。接着,详细介绍了 DP、TP、PP、EP、CP 等基础并行策略的原理、适用场景及显存占用计算。文章重点剖析了 DeepSeek 为何选择 PP + EP + DP ZeRO-1 的组合,并解释了其避免使用 TP 和 ZeRO-2/3 以节省 IB 带宽的深层考量。随后,文章深入讲解了 PP 的气泡问题及 ZB1P、DualPipe 等优化方案,并重点阐述了 DualPipe 如何通过双向流水线和专用通信 SM 实现 EP 通信与计算的完美遮掩。最后,文章介绍了 DeepSeek-V4 中新的 Waved-EP 方案,该方案通过将 Expert 分组为多个 wave 并在 kernel 级别实现通信遮掩,解决了 DualPipe 在小 batch 场景下遮掩效果不佳的问题。文章还对比了 TileLang 与 Triton 在实现此类精细控制 kernel 上的能力差异,并总结了 DeepSeek 工程实践对硬件发展的启示。
💡 主要观点
- DeepSeek-V4 采用 PP + EP + DP ZeRO-1 的并行策略组合,核心目标是节省宝贵的跨节点 IB 带宽。 PP 通信量小适合跨节点,EP 是 MoE 标配但通信量大,DP ZeRO-1 在非优化器步无通信,三者组合避免了在每次 micro-batch 中与 EP 抢占 IB 带宽,这是 DeepSeek 能在低配硬件上训练超大模型的关键。
💬 文章金句
- 深入理解这个问题,就是理解 GPU 的分布式并行计算,要在计算和访存 bound 之外,引入通信 bound。
- EP 是唯一一个'在 forward pass 内部把 token 重新换主'的并行维度。
- DeepSeek 选择把宝贵的 IB 带宽留给了 EP 的通信。
- DualPipe 的副作用就是显存占用增加了一倍,PP+EP+ZeRO-1 已经把显存占用切到很小了,V3 paper 说这可以接受。
- 我觉得在这种极致地工程能力下,在计算和通信上的平衡堪称艺术,比那种模型结构的奇技淫巧要高牛的多。
📊 文章信息
AI 初评:88
来源:AINLP
作者:AINLP
分类:人工智能
语言:中文
阅读时间:26 分钟
字数:6378
标签: DeepSeek-V4, GPU 并行策略, MoE, 通信遮掩, DualPipe