DeepSeek V4 系列模型正式发布,通过 mHC 架构、混合注意力机制和 Muon 优化器,实现了百万 token 上下文下 KV cache 仅为 V3.2 的 10%,并全面开源、支持国产芯片。
📝 详细摘要
本文详细解读了 DeepSeek V4 系列模型的技术报告。V4 在架构上进行了重大革新,核心包括:引入流形约束超连接(mHC)强化残差连接稳定性;设计 CSA 和 HCA 交替的混合注意力机制,将百万 token 长文的计算效率提升至极致;采用 Muon 优化器替代 AdamW 进行大规模训练。V4 系列包含 Pro(1.6T 参数)和 Flash(284B 参数)两个版本,均支持 1M 上下文。在性能上,V4-Pro-Max 在多项基准上匹敌甚至超越 GPT-5.4 和 Gemini-3.1-Pro,开源模型首次真正追平闭源头部。文章还介绍了后训练阶段的 On-Policy Distillation 方法论、国产芯片适配进展,以及团队在 484 天研发历程中的技术取舍与工程智慧。
💡 主要观点
- DeepSeek V4 通过 mHC 架构解决了超大规模模型残差连接的数值不稳定问题。 mHC 将残差流扩展为多条并行通道,并通过约束矩阵为双随机矩阵,确保谱范数不超过 1,从根本上防止了梯度爆炸,使得训练 1.6T 参数的 MoE 模型成为可能。
💬 文章金句
- 百万 token 不是一个新的能力,是同一个上下文窗口被压到可以承担的成本。
- DeepSeek 这几年做的事,底层动作很清晰,一直在删。从 V2 的 MLA 开始,每一代都在删 KV cache、删激活参数、删注意力计算量。
- 一个训练了两个万亿参数 MoE 的团队公开承认「我们不知道为什么这两个 trick 管用」,在 2026 年已经是一件挺稀罕的事。
- DeepSeek-V4-Pro-Max 在标准推理 benchmark 上优于 GPT-5.2 和 Gemini-3.0-Pro,但略落后于 GPT-5.4 和 Gemini-3.1-Pro。这表明其发展轨迹大约落后最前沿闭源模型 3 到 6 个月。
- 一如既往,我们始终坚持长期主义和全民开源。AGI 属于每个人。
📊 文章信息
AI 初评:93
来源:量子位
作者:henry
分类:人工智能
语言:中文
阅读时间:26 分钟
字数:6258
标签: DeepSeek V4, 大语言模型, MoE, 混合注意力, Muon 优化器