← 回總覽

详解 DeepSeek V4:Infra 巨鲸 “四连击”,百万上下文走进现实

📅 2026-05-02 19:44 晚点LatePost 人工智能 2 分鐘 2019 字 評分: 88
DeepSeek-V4 混合注意力 Muon优化器 FP4训练 mHC残差
📌 一句话摘要 本文通过深度访谈两位一线 AI 从业者,详细解析了 DeepSeek-V4 在混合注意力、mHC 残差、Muon 优化器和 FP4 训练等四个层面的系统级创新,并探讨了其百万上下文效率提升背后的工程挑战与行业影响。 📝 详细摘要 本文是《晚点 LatePost》对 UCLA 博士刘益枫和 SGLang 核心开发者赵晨阳的深度访谈实录。文章以 DeepSeek-V4 技术报告为切入点,系统拆解了 V4 在注意力机制(CSA/HCA 混合稀疏注意力)、残差连接(mHC)、优化器(Muon)和训练精度(FP4)四个维度的核心创新。两位嘉宾从算法和 Infra 两个视角,深入分析了

📌 一句话摘要

本文通过深度访谈两位一线 AI 从业者,详细解析了 DeepSeek-V4 在混合注意力、mHC 残差、Muon 优化器和 FP4 训练等四个层面的系统级创新,并探讨了其百万上下文效率提升背后的工程挑战与行业影响。

📝 详细摘要

本文是《晚点 LatePost》对 UCLA 博士刘益枫和 SGLang 核心开发者赵晨阳的深度访谈实录。文章以 DeepSeek-V4 技术报告为切入点,系统拆解了 V4 在注意力机制(CSA/HCA 混合稀疏注意力)、残差连接(mHC)、优化器(Muon)和训练精度(FP4)四个维度的核心创新。两位嘉宾从算法和 Infra 两个视角,深入分析了 V4 放弃 MLA、重回 MQA 的技术决策逻辑,以及系统级耦合优化比单点创新更难的工程现实。文章还横向对比了 Kimi、GLM、Qwen、MiniMax 等中国大模型团队的技术路线差异,讨论了中美 AI 模型发展的不同取向——美国追求领域创新和高定价,中国侧重性价比和工程极限。此外,访谈涉及了 TileLang 开源生态、FP4 训练的实际工程实现、后训练中的多专家蒸馏策略,以及当前 Benchmark 的可信危机等前沿话题。

💡 主要观点

- DeepSeek-V4 放弃了从 V2 延续到 V3 的 MLA 架构,重回 MQA 并引入混合稀疏注意力机制。 V4 每层同时运行滑动窗口注意力和长距注意力(CSA 或 HCA),CSA 做 4:1 压缩后 top-k 选取,HCA 做 128:1 激进压缩保持稠密注意力,这种 token-wise 压缩机制是 V4 实现百万上下文效率提升的核心。

V4 在优化器、残差连接、训练精度和 Infra 四个层面实现了系统级耦合优化,其工程难度远超单点创新。 一次性引入混合注意力、mHC、Muon 优化器和 FP4 训练四个互相耦合的新技术,任何一个单独上线都需要大规模 debug,四个一起上的复杂度呈组合式爆炸,体现了 DeepSeek 极强的工程能力。
V4 的激活参数比降至约 3%,是业界最激进的 MoE 稀疏化实践,但并非越低越好。 从 V3 的 5.5%降至 V4 的 3%,比从 5%降到 4%难得多。过低激活比会带来负载不均、专家训练不充分、路由抖动等问题,能把 3%稳定训下来本身就是工程能力的证明。
Muon 优化器已成为检验大模型团队工程能力的试金石,但并非简单替换 AdamW。 Muon 是矩阵级别优化,需要大量分布式计算和复杂的并行策略适配。DeepSeek V4 将 Muon 与 AdamW 的学习率比例精确调整为 0.18,并采用十次牛顿-舒尔茨迭代,比 Kimi 的 0.2 更精确。
中美 AI 模型发展路径分化:美国追求领域创新和高定价,中国侧重性价比和工程极限。 美国模型更追求长上下文、多模态融合、Agent 能力等新领域能力,且定价较高;中国模型在同等能力下收费低一个数量级,更注重架构创新密度和工程完成度,这与充足的技术人员储备和有限的算力资源有关。

💬 文章金句

- 这种系统级的耦合优化比单点创新更难,更体现一个团队的工程深度。

  • V4 整体保留了 DeepSeekMoE 框架和 MTP 策略,但在四个层面做了改造:注意力、残差、优化器、Infra。这四件事的共同主题是:让 1M 上下文从'理论可行'变成'成本可接受'。
  • Muon 不是简单替换 AdamW,而是用大量人力和工程复杂度换取大量显存和收敛效率。这笔账值不值得,取决于团队的工程水平、显卡数量和模型规模。
  • DeepSeek 不再靠'成本叙事'定义自己,而是用模型能力说话。
  • 现在评估也越来越难,因为场景越来越复杂。整个行业必须把评估做好,否则很容易陷入自欺欺人的循环。

📊 文章信息

AI 初评:88

来源:晚点LatePost

作者: 晚点LatePost

分类:人工智能

语言:中文

阅读时间:69 分钟

字数:17071

标签: DeepSeek-V4, 混合注意力, Muon优化器, FP4训练, mHC残差

阅读完整文章

查看原文 → 發佈: 2026-05-02 19:44:00 收錄: 2026-05-02 22:00:04

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。