详解 DeepSeek V4：Infra 巨鲸 “四连击”，百万上下文走进现实

📌 一句话摘要

本文通过深度访谈两位一线 AI 从业者，详细解析了 DeepSeek-V4 在混合注意力、mHC 残差、Muon 优化器和 FP4 训练等四个层面的系统级创新，并探讨了其百万上下文效率提升背后的工程挑战与行业影响。

📝 详细摘要

本文是《晚点 LatePost》对 UCLA 博士刘益枫和 SGLang 核心开发者赵晨阳的深度访谈实录。文章以 DeepSeek-V4 技术报告为切入点，系统拆解了 V4 在注意力机制（CSA/HCA 混合稀疏注意力）、残差连接（mHC）、优化器（Muon）和训练精度（FP4）四个维度的核心创新。两位嘉宾从算法和 Infra 两个视角，深入分析了 V4 放弃 MLA、重回 MQA 的技术决策逻辑，以及系统级耦合优化比单点创新更难的工程现实。文章还横向对比了 Kimi、GLM、Qwen、MiniMax 等中国大模型团队的技术路线差异，讨论了中美 AI 模型发展的不同取向——美国追求领域创新和高定价，中国侧重性价比和工程极限。此外，访谈涉及了 TileLang 开源生态、FP4 训练的实际工程实现、后训练中的多专家蒸馏策略，以及当前 Benchmark 的可信危机等前沿话题。

💡 主要观点

- DeepSeek-V4 放弃了从 V2 延续到 V3 的 MLA 架构，重回 MQA 并引入混合稀疏注意力机制。 V4 每层同时运行滑动窗口注意力和长距注意力（CSA 或 HCA），CSA 做 4:1 压缩后 top-k 选取，HCA 做 128:1 激进压缩保持稠密注意力，这种 token-wise 压缩机制是 V4 实现百万上下文效率提升的核心。

V4 在优化器、残差连接、训练精度和 Infra 四个层面实现了系统级耦合优化，其工程难度远超单点创新。 一次性引入混合注意力、mHC、Muon 优化器和 FP4 训练四个互相耦合的新技术，任何一个单独上线都需要大规模 debug，四个一起上的复杂度呈组合式爆炸，体现了 DeepSeek 极强的工程能力。

V4 的激活参数比降至约 3%，是业界最激进的 MoE 稀疏化实践，但并非越低越好。 从 V3 的 5.5%降至 V4 的 3%，比从 5%降到 4%难得多。过低激活比会带来负载不均、专家训练不充分、路由抖动等问题，能把 3%稳定训下来本身就是工程能力的证明。

Muon 优化器已成为检验大模型团队工程能力的试金石，但并非简单替换 AdamW。 Muon 是矩阵级别优化，需要大量分布式计算和复杂的并行策略适配。DeepSeek V4 将 Muon 与 AdamW 的学习率比例精确调整为 0.18，并采用十次牛顿-舒尔茨迭代，比 Kimi 的 0.2 更精确。

中美 AI 模型发展路径分化：美国追求领域创新和高定价，中国侧重性价比和工程极限。 美国模型更追求长上下文、多模态融合、Agent 能力等新领域能力，且定价较高；中国模型在同等能力下收费低一个数量级，更注重架构创新密度和工程完成度，这与充足的技术人员储备和有限的算力资源有关。

💬 文章金句

- 这种系统级的耦合优化比单点创新更难，更体现一个团队的工程深度。

V4 整体保留了 DeepSeekMoE 框架和 MTP 策略，但在四个层面做了改造：注意力、残差、优化器、Infra。这四件事的共同主题是：让 1M 上下文从'理论可行'变成'成本可接受'。
Muon 不是简单替换 AdamW，而是用大量人力和工程复杂度换取大量显存和收敛效率。这笔账值不值得，取决于团队的工程水平、显卡数量和模型规模。
DeepSeek 不再靠'成本叙事'定义自己，而是用模型能力说话。
现在评估也越来越难，因为场景越来越复杂。整个行业必须把评估做好，否则很容易陷入自欺欺人的循环。

📊 文章信息

AI 初评：88

来源：晚点LatePost

作者：晚点LatePost

分类：人工智能

语言：中文

阅读时间：69 分钟

字数：17071

标签： DeepSeek-V4, 混合注意力, Muon优化器, FP4训练, mHC残差

阅读完整文章

详解 DeepSeek V4：Infra 巨鲸 “四连击”，百万上下文走进现实

🤖 問 AI