DeepSeek V4 报告太详尽了！484 天换代之路全公开

📌 一句话摘要

DeepSeek V4 系列模型正式发布，通过 mHC 架构、混合注意力机制和 Muon 优化器，实现了百万 token 上下文下 KV cache 仅为 V3.2 的 10%，并全面开源、支持国产芯片。

📝 详细摘要

本文详细解读了 DeepSeek V4 系列模型的技术报告。V4 在架构上进行了重大革新，核心包括：引入流形约束超连接（mHC）强化残差连接稳定性；设计 CSA 和 HCA 交替的混合注意力机制，将百万 token 长文的计算效率提升至极致；采用 Muon 优化器替代 AdamW 进行大规模训练。V4 系列包含 Pro（1.6T 参数）和 Flash（284B 参数）两个版本，均支持 1M 上下文。在性能上，V4-Pro-Max 在多项基准上匹敌甚至超越 GPT-5.4 和 Gemini-3.1-Pro，开源模型首次真正追平闭源头部。文章还介绍了后训练阶段的 On-Policy Distillation 方法论、国产芯片适配进展，以及团队在 484 天研发历程中的技术取舍与工程智慧。

💡 主要观点

- DeepSeek V4 通过 mHC 架构解决了超大规模模型残差连接的数值不稳定问题。 mHC 将残差流扩展为多条并行通道，并通过约束矩阵为双随机矩阵，确保谱范数不超过 1，从根本上防止了梯度爆炸，使得训练 1.6T 参数的 MoE 模型成为可能。

混合注意力机制（CSA + HCA）是 V4 实现百万 token 高效推理的核心。 CSA 通过压缩和稀疏选择，将 1M token 的注意力计算量降至仅关注 1024 个压缩块；HCA 则进行更激进的全局压缩，两者交替使用，兼顾了精细检索与全局信号汇总。

V4 采用 Muon 优化器并成功适配大规模训练，标志着优化器领域的范式转变。 Muon 基于矩阵正交化，在 V4 中替代了 AdamW 用于绝大多数参数优化。DeepSeek 通过混合 Newton-Schulz 迭代和注意力层的 RMSNorm，解决了 Muon 在 LLM 训练中的稳定性问题。

V4 在后训练阶段用 On-Policy Distillation 替代了传统的混合 RL。 先训练多个领域专家模型，再通过 on-policy distillation 将它们的能力合并到一个统一的 student 模型中，实现了更高效、更精准的能力对齐。

V4 在多项基准上匹敌甚至超越闭源模型，但最前沿推理任务仍有 3-6 个月差距。 V4-Pro-Max 在 Codeforces 上超越 GPT-5.4，但在 HLE 等前沿推理基准上仍落后于 Gemini-3.1-Pro 和 Claude-Opus-4.6-Max，表明开源模型在顶尖能力上仍有追赶空间。

💬 文章金句

- 百万 token 不是一个新的能力，是同一个上下文窗口被压到可以承担的成本。

DeepSeek 这几年做的事，底层动作很清晰，一直在删。从 V2 的 MLA 开始，每一代都在删 KV cache、删激活参数、删注意力计算量。
一个训练了两个万亿参数 MoE 的团队公开承认「我们不知道为什么这两个 trick 管用」，在 2026 年已经是一件挺稀罕的事。
DeepSeek-V4-Pro-Max 在标准推理 benchmark 上优于 GPT-5.2 和 Gemini-3.0-Pro，但略落后于 GPT-5.4 和 Gemini-3.1-Pro。这表明其发展轨迹大约落后最前沿闭源模型 3 到 6 个月。
一如既往，我们始终坚持长期主义和全民开源。AGI 属于每个人。

📊 文章信息

AI 初评：93

来源：量子位

作者：henry

分类：人工智能

语言：中文

阅读时间：26 分钟

字数：6258

标签： DeepSeek V4, 大语言模型, MoE, 混合注意力, Muon 优化器

阅读完整文章

DeepSeek V4 报告太详尽了！484 天换代之路全公开

🤖 問 AI