← 回總覽

DeepSeek 悄悄更新:Mega MoE、FP4 Indexer 来了

📅 2026-04-17 11:03 机器之心 人工智能 2 分鐘 1624 字 評分: 87
DeepSeek MoE 高性能计算 GPU 优化 内核融合
📌 一句话摘要 本文报道了 DeepSeek 在其开源高性能计算库 DeepGEMM 中引入 Mega MoE 和 FP4 Indexer 等新特性,旨在通过内核融合和通信重叠等技术,将 MoE 架构的计算效率推向极限。 📝 详细摘要 文章报道了 DeepSeek 对其开源高性能计算库 DeepGEMM 的一次重要更新。此次更新并非发布新模型,而是聚焦于底层基础设施的优化,核心是引入了名为 **Mega MoE** 的新特性。Mega MoE 通过将 MoE 架构中原本分散的多个计算步骤(如分发、线性变换、激活、合并)融合到一个统一的 mega-kernel 中,并实现计算与 GPU 间数

📌 一句话摘要

本文报道了 DeepSeek 在其开源高性能计算库 DeepGEMM 中引入 Mega MoE 和 FP4 Indexer 等新特性,旨在通过内核融合和通信重叠等技术,将 MoE 架构的计算效率推向极限。

📝 详细摘要

文章报道了 DeepSeek 对其开源高性能计算库 DeepGEMM 的一次重要更新。此次更新并非发布新模型,而是聚焦于底层基础设施的优化,核心是引入了名为 Mega MoE 的新特性。Mega MoE 通过将 MoE 架构中原本分散的多个计算步骤(如分发、线性变换、激活、合并)融合到一个统一的 mega-kernel 中,并实现计算与 GPU 间数据通信的重叠,从而大幅提升 GPU 利用率和整体计算效率。文章用生动的比喻解释了传统 MoE 流水线的低效问题,并阐述了 Mega MoE 如何通过“焊死流水线”来解决。此外,更新还包括了 FP8 × FP4 混合精度、用于 MQA logits 的 FP4 indexer 等优化,显示出 DeepSeek 在极致压榨算力方面的努力。文章最后探讨了此次更新可能暗示 DeepSeek 仍在采用英伟达顶级 AI 加速卡进行训练,并认为这是 DeepSeek 将 MoE 从理论推向高效工程实践的重要一步。

💡 主要观点

- Mega MoE 通过内核融合与通信重叠,大幅提升 MoE 架构的计算效率。 它将传统 MoE 流水线中多个独立的 kernel 和通信步骤融合到一个统一的 mega-kernel 中,让计算和 GPU 间的数据通信同时进行,解决了 GPU 频繁停顿的问题,尤其利好多卡、大规模 MoE 场景。

此次更新是 DeepSeek 对 AI 基础设施层的深度重构,旨在将 MoE 推向工程实用化。 更新内容不仅包括 Mega MoE,还涉及 FP4/FP8 混合精度、GEMM 重构和 JIT 编译加速等,目标是将 MoE 从“理论上美好但工程折腾”的架构,转变为可以大规模、高效率运行的方案。
DeepSeek 的优化方向暗示其可能仍在采用英伟达顶级 AI 加速卡进行训练。 文中引用的社区解读认为,Mega MoE 对 NVLink 通信重叠的极致优化,可能暗示 DeepSeek 使用的训练硬件仍是英伟达最新的 B 系列加速卡,而非此前传闻的国产卡。

💬 文章金句

- Mega MoE 想做的是把这条流水线直接焊死:它把 dispatch、两层线性、SwiGLU、combine 这些步骤全部 fuse 到一个 mega-kernel 里。

  • 更关键的是,它不只是「合并步骤」,还在做一件更狠的事情:让数据通信和计算同时发生。也就是说,一边在 Tensor Core 上算,一边在 NVLink 上传,不再是你等我、我等你。
  • 此做法的影响很直接:GPU 不再频繁停顿,利用率更高,尤其是在多卡、大规模 MoE 场景下,这种优化能被直接感受到。
  • 这是一次基础设施层的重构尝试。DeepSeek 正在把 MoE 从一种「理论上很美好,但工程上很折腾」的架构,往「可以被大规模、高效率跑起来」的方向推进。

📊 文章信息

AI 初评:87

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:6 分钟

字数:1431

标签: DeepSeek, MoE, 高性能计算, GPU 优化, 内核融合

阅读完整文章

查看原文 → 發佈: 2026-04-17 11:03:00 收錄: 2026-04-17 18:00:57

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。