DeepSeek 悄悄更新：Mega MoE、FP4 Indexer 来了

📌 一句话摘要

本文报道了 DeepSeek 在其开源高性能计算库 DeepGEMM 中引入 Mega MoE 和 FP4 Indexer 等新特性，旨在通过内核融合和通信重叠等技术，将 MoE 架构的计算效率推向极限。

📝 详细摘要

文章报道了 DeepSeek 对其开源高性能计算库 DeepGEMM 的一次重要更新。此次更新并非发布新模型，而是聚焦于底层基础设施的优化，核心是引入了名为 Mega MoE 的新特性。Mega MoE 通过将 MoE 架构中原本分散的多个计算步骤（如分发、线性变换、激活、合并）融合到一个统一的 mega-kernel 中，并实现计算与 GPU 间数据通信的重叠，从而大幅提升 GPU 利用率和整体计算效率。文章用生动的比喻解释了传统 MoE 流水线的低效问题，并阐述了 Mega MoE 如何通过“焊死流水线”来解决。此外，更新还包括了 FP8 × FP4 混合精度、用于 MQA logits 的 FP4 indexer 等优化，显示出 DeepSeek 在极致压榨算力方面的努力。文章最后探讨了此次更新可能暗示 DeepSeek 仍在采用英伟达顶级 AI 加速卡进行训练，并认为这是 DeepSeek 将 MoE 从理论推向高效工程实践的重要一步。

💡 主要观点

- Mega MoE 通过内核融合与通信重叠，大幅提升 MoE 架构的计算效率。 它将传统 MoE 流水线中多个独立的 kernel 和通信步骤融合到一个统一的 mega-kernel 中，让计算和 GPU 间的数据通信同时进行，解决了 GPU 频繁停顿的问题，尤其利好多卡、大规模 MoE 场景。

此次更新是 DeepSeek 对 AI 基础设施层的深度重构，旨在将 MoE 推向工程实用化。 更新内容不仅包括 Mega MoE，还涉及 FP4/FP8 混合精度、GEMM 重构和 JIT 编译加速等，目标是将 MoE 从“理论上美好但工程折腾”的架构，转变为可以大规模、高效率运行的方案。

DeepSeek 的优化方向暗示其可能仍在采用英伟达顶级 AI 加速卡进行训练。 文中引用的社区解读认为，Mega MoE 对 NVLink 通信重叠的极致优化，可能暗示 DeepSeek 使用的训练硬件仍是英伟达最新的 B 系列加速卡，而非此前传闻的国产卡。

💬 文章金句

- Mega MoE 想做的是把这条流水线直接焊死：它把 dispatch、两层线性、SwiGLU、combine 这些步骤全部 fuse 到一个 mega-kernel 里。

更关键的是，它不只是「合并步骤」，还在做一件更狠的事情：让数据通信和计算同时发生。也就是说，一边在 Tensor Core 上算，一边在 NVLink 上传，不再是你等我、我等你。
此做法的影响很直接：GPU 不再频繁停顿，利用率更高，尤其是在多卡、大规模 MoE 场景下，这种优化能被直接感受到。
这是一次基础设施层的重构尝试。DeepSeek 正在把 MoE 从一种「理论上很美好，但工程上很折腾」的架构，往「可以被大规模、高效率跑起来」的方向推进。

📊 文章信息

AI 初评：87

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：6 分钟

字数：1431

标签： DeepSeek, MoE, 高性能计算, GPU 优化, 内核融合

阅读完整文章

DeepSeek 悄悄更新：Mega MoE、FP4 Indexer 来了

🤖 問 AI