← 回總覽

DeepSeek-V4 的并行策略和计算通信遮掩

📅 2026-05-05 00:01 青稞AI 人工智能 2 分鐘 1968 字 評分: 87
DeepSeek-V4 并行策略 计算通信遮掩 MoE EP
📌 一句话摘要 本文深入解析了 DeepSeek-V4 在低配硬件(8 卡节点 + IB 网络)上训练大规模 MoE 模型时采用的并行策略和计算通信遮掩技术,重点介绍了 PP+EP+ZeRO-1 的组合选择、DualPipe 和 Waved-EP 两种通信遮掩方案的设计原理与适用场景。 📝 详细摘要 文章从 MoE 模型训练中 MFU 暴跌的实际问题出发,系统性地介绍了 GPU 分布式并行计算的核心概念和 DeepSeek 的实践方案。首先厘清了 DP、TP、PP、EP、CP 等并行策略的定义和适用场景,并解释了为何 DeepSeek 选择了 PP+EP+ZeRO-1 的组合,而刻意避免使

📌 一句话摘要

本文深入解析了 DeepSeek-V4 在低配硬件(8 卡节点 + IB 网络)上训练大规模 MoE 模型时采用的并行策略和计算通信遮掩技术,重点介绍了 PP+EP+ZeRO-1 的组合选择、DualPipe 和 Waved-EP 两种通信遮掩方案的设计原理与适用场景。

📝 详细摘要

文章从 MoE 模型训练中 MFU 暴跌的实际问题出发,系统性地介绍了 GPU 分布式并行计算的核心概念和 DeepSeek 的实践方案。首先厘清了 DP、TP、PP、EP、CP 等并行策略的定义和适用场景,并解释了为何 DeepSeek 选择了 PP+EP+ZeRO-1 的组合,而刻意避免使用 TP 和 ZeRO-2/3,核心目的是将宝贵的跨节点 IB 带宽留给 EP 通信。接着,文章深入分析了 PP 的气泡问题及 ZB1P 的优化思路,并重点介绍了 DeepSeek-V3 引入的 DualPipe 方案,该方案通过在 PP 上形成两条反向的 micro-batch,实现了计算与 EP 通信的完美遮掩。最后,文章详细解读了 DeepSeek-V4 提出的 Waved-EP 方案,这是一个 kernel 级别的通信遮掩方案,通过将 Expert 切分为多个 wave,在 wave 之间实现 dispatch、计算和 combine 的并行,解决了 DualPipe 在小 batch 场景(如 RL 或推理)下遮掩效果不佳的问题。文章还提到了 TileLang 框架在实现这种精细控制中的关键作用。

💡 主要观点

- DeepSeek 选择 PP+EP+ZeRO-1 的组合,核心是为了避免与 EP 抢占有限的跨节点 IB 带宽。 ZeRO-2/3 和 TP 在每次 micro-batch 中都会产生大量跨节点通信,与 EP 的 all-to-all 通信形成带宽竞争。ZeRO-1 仅在优化器步骤有通信,且通信量与普通 DP 一致,因此将宝贵的 IB 带宽留给了 EP。

DualPipe 通过双向流水线实现了 EP 通信与 PP 计算的完美遮掩,但依赖大 batch 的稳态阶段。 DualPipe 在 PP 上形成两条反向的 micro-batch 流,在稳态阶段,一个方向的 forward 与另一个方向的 backward 交叠,使得 EP 的 all-to-all 通信被计算遮掩。但 warmup 和 cooldown 阶段无法遮掩,因此需要大 batch 来延长稳态占比。
Waved-EP 是 kernel 级别的通信遮掩方案,不依赖 PP 调度,适用于小 batch 的 RL 和推理场景。 Waved-EP 将 Expert 切分为多个 wave,在第一个 wave 进行 dispatch 通信时,第二个 wave 的计算可以同时进行,实现了 wave 间的并行。该方案使用 TileLang 框架实现,能精细控制通信和计算,解决了 DualPipe 在小 batch 下的局限性。

💬 文章金句

- 深入理解这个问题,就是理解 GPU 的分布式并行计算,要在计算和访存 bound 之外,引入通信 bound。

  • EP 是唯一一个'在 forward pass 内部把 token 重新换主'的并行维度。
  • DeepSeek 选择把宝贵的 IB 带宽留给了 EP 的通信。
  • Waved-EP 是一个 DeepSeek-V4 的新的 EP 计算通信遮掩方案,一个 kernel 直接在 MoE 层解决问题,不再依赖 PP 调度了。
  • Triton 不是为通信和计算融合设计的...TileLang 的优势不只是'更容易控制通信遮掩',而是它能写出 Triton 写不出来的 kernel。

📊 文章信息

AI 初评:87

来源:青稞AI

作者:青稞AI

分类:人工智能

语言:中文

阅读时间:28 分钟

字数:6815

标签: DeepSeek-V4, 并行策略, 计算通信遮掩, MoE, EP

阅读完整文章

查看原文 → 發佈: 2026-05-05 00:01:00 收錄: 2026-05-05 22:00:54

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。