本文报道了 DeepSeek 在其开源高性能计算库 DeepGEMM 中引入 Mega MoE 和 FP4 Indexer 等新特性,旨在通过内核融合和通信重叠等技术,将 MoE 架构的计算效率推向极限。
📝 详细摘要
文章报道了 DeepSeek 对其开源高性能计算库 DeepGEMM 的一次重要更新。此次更新并非发布新模型,而是聚焦于底层基础设施的优化,核心是引入了名为 Mega MoE 的新特性。Mega MoE 通过将 MoE 架构中原本分散的多个计算步骤(如分发、线性变换、激活、合并)融合到一个统一的 mega-kernel 中,并实现计算与 GPU 间数据通信的重叠,从而大幅提升 GPU 利用率和整体计算效率。文章用生动的比喻解释了传统 MoE 流水线的低效问题,并阐述了 Mega MoE 如何通过“焊死流水线”来解决。此外,更新还包括了 FP8 × FP4 混合精度、用于 MQA logits 的 FP4 indexer 等优化,显示出 DeepSeek 在极致压榨算力方面的努力。文章最后探讨了此次更新可能暗示 DeepSeek 仍在采用英伟达顶级 AI 加速卡进行训练,并认为这是 DeepSeek 将 MoE 从理论推向高效工程实践的重要一步。
💡 主要观点
- Mega MoE 通过内核融合与通信重叠,大幅提升 MoE 架构的计算效率。 它将传统 MoE 流水线中多个独立的 kernel 和通信步骤融合到一个统一的 mega-kernel 中,让计算和 GPU 间的数据通信同时进行,解决了 GPU 频繁停顿的问题,尤其利好多卡、大规模 MoE 场景。
💬 文章金句
- Mega MoE 想做的是把这条流水线直接焊死:它把 dispatch、两层线性、SwiGLU、combine 这些步骤全部 fuse 到一个 mega-kernel 里。
- 更关键的是,它不只是「合并步骤」,还在做一件更狠的事情:让数据通信和计算同时发生。也就是说,一边在 Tensor Core 上算,一边在 NVLink 上传,不再是你等我、我等你。
- 此做法的影响很直接:GPU 不再频繁停顿,利用率更高,尤其是在多卡、大规模 MoE 场景下,这种优化能被直接感受到。
- 这是一次基础设施层的重构尝试。DeepSeek 正在把 MoE 从一种「理论上很美好,但工程上很折腾」的架构,往「可以被大规模、高效率跑起来」的方向推进。
📊 文章信息
AI 初评:87
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:6 分钟
字数:1431
标签: DeepSeek, MoE, 高性能计算, GPU 优化, 内核融合