← 回總覽

DeepSeek-V4 的并行策略和计算通信遮掩

📅 2026-05-07 20:16 AINLP 人工智能 2 分鐘 1925 字 評分: 88
DeepSeek-V4 GPU 并行策略 MoE 通信遮掩 DualPipe
📌 一句话摘要 本文深入解析了 DeepSeek-V4 训练中采用的 GPU 并行策略,重点阐述了其通过 PP、EP、DP ZeRO-1 的组合以及 DualPipe 和 Waved-EP 等创新技术,在低带宽 IB 网络下实现计算与通信高效遮掩的核心原理。 📝 详细摘要 本文以 DeepSeek-V4 的并行策略为核心,系统性地讲解了大规模分布式训练中 GPU 并行计算的关键技术。文章首先从 MoE 模型训练中 MFU 下降的实际问题切入,引出通信 bound 的概念。接着,详细介绍了 DP、TP、PP、EP、CP 等基础并行策略的原理、适用场景及显存占用计算。文章重点剖析了 DeepS

📌 一句话摘要

本文深入解析了 DeepSeek-V4 训练中采用的 GPU 并行策略,重点阐述了其通过 PP、EP、DP ZeRO-1 的组合以及 DualPipe 和 Waved-EP 等创新技术,在低带宽 IB 网络下实现计算与通信高效遮掩的核心原理。

📝 详细摘要

本文以 DeepSeek-V4 的并行策略为核心,系统性地讲解了大规模分布式训练中 GPU 并行计算的关键技术。文章首先从 MoE 模型训练中 MFU 下降的实际问题切入,引出通信 bound 的概念。接着,详细介绍了 DP、TP、PP、EP、CP 等基础并行策略的原理、适用场景及显存占用计算。文章重点剖析了 DeepSeek 为何选择 PP + EP + DP ZeRO-1 的组合,并解释了其避免使用 TP 和 ZeRO-2/3 以节省 IB 带宽的深层考量。随后,文章深入讲解了 PP 的气泡问题及 ZB1P、DualPipe 等优化方案,并重点阐述了 DualPipe 如何通过双向流水线和专用通信 SM 实现 EP 通信与计算的完美遮掩。最后,文章介绍了 DeepSeek-V4 中新的 Waved-EP 方案,该方案通过将 Expert 分组为多个 wave 并在 kernel 级别实现通信遮掩,解决了 DualPipe 在小 batch 场景下遮掩效果不佳的问题。文章还对比了 TileLang 与 Triton 在实现此类精细控制 kernel 上的能力差异,并总结了 DeepSeek 工程实践对硬件发展的启示。

💡 主要观点

- DeepSeek-V4 采用 PP + EP + DP ZeRO-1 的并行策略组合,核心目标是节省宝贵的跨节点 IB 带宽。 PP 通信量小适合跨节点,EP 是 MoE 标配但通信量大,DP ZeRO-1 在非优化器步无通信,三者组合避免了在每次 micro-batch 中与 EP 抢占 IB 带宽,这是 DeepSeek 能在低配硬件上训练超大模型的关键。

DualPipe 通过双向流水线和专用通信 SM,在 PP 层面实现了 EP 通信与计算的 100% 遮掩。 DualPipe 在 ZB1P 基础上引入两条反向的 micro-batch,使 Forward 和 Backward 的计算与 EP 的 all-to-all 通信在时间上完美错开。同时,从 132 个 SM 中划出 20 个专门运行自研 PTX 级通信 kernel,进一步确保了通信效率。
Waved-EP 是 DeepSeek-V4 提出的 kernel 级通信遮掩方案,解决了 DualPipe 在小 batch 场景下的局限性。 Waved-EP 将 Expert 分成多个 wave,在单个 MoE 层内通过 wave 间的流水线实现 dispatch、计算和 combine 的并行,不依赖 PP 调度。这使得其在 RL 或推理等小 batch 场景下也能获得显著的加速效果。

💬 文章金句

- 深入理解这个问题,就是理解 GPU 的分布式并行计算,要在计算和访存 bound 之外,引入通信 bound。

  • EP 是唯一一个'在 forward pass 内部把 token 重新换主'的并行维度。
  • DeepSeek 选择把宝贵的 IB 带宽留给了 EP 的通信。
  • DualPipe 的副作用就是显存占用增加了一倍,PP+EP+ZeRO-1 已经把显存占用切到很小了,V3 paper 说这可以接受。
  • 我觉得在这种极致地工程能力下,在计算和通信上的平衡堪称艺术,比那种模型结构的奇技淫巧要高牛的多。

📊 文章信息

AI 初评:88

来源:AINLP

作者:AINLP

分类:人工智能

语言:中文

阅读时间:26 分钟

字数:6378

标签: DeepSeek-V4, GPU 并行策略, MoE, 通信遮掩, DualPipe

阅读完整文章

查看原文 → 發佈: 2026-05-07 20:16:00 收錄: 2026-05-08 00:00:33

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。