读完这篇，你就搞懂 DeepSeek v4 了

📌 一句话摘要

本文深入解读了 DeepSeek V4 的技术报告，系统分析了其在架构层面的三项核心创新（mHC、CSA/HCA、Muon）和工程优化，论证了其如何通过系统级重构实现百万 token 上下文和接近闭源三巨头的性能。

📝 详细摘要

文章以 DeepSeek V4 技术报告为基础，从架构创新和工程优化两个维度进行了深度解读。架构层面，文章详细阐述了三大核心机制：多流约束残差连接（mHC）通过将残差映射矩阵约束为双随机矩阵，解决了标准残差在深层网络中的容量瓶颈和训练不稳定问题；混合稀疏注意力机制（CSA/HCA）通过压缩稀疏注意力和高度压缩注意力实现三层处理，大幅优化了超长上下文中的计算量和 KV-Cache 消耗；Muon 优化器通过梯度正交化和 QK RMSNorm 提升了训练稳定性和收敛速度。工程层面，文章介绍了细粒度计算通信重叠、TileLang 算子开发、批无关性与计算确定性、FP4 量化感知训练以及训练/推理框架的针对性优化。文章认为，V4 的动人之处在于将每一项已知技术重新雕琢并组织成系统级闭环，让开源模型向前迈出了决定性的一步。

💡 主要观点

- DeepSeek V4 通过 mHC 机制解决了标准残差在深层网络中的容量瓶颈和训练不稳定问题。 mHC 将残差映射矩阵约束为双随机矩阵，利用其乘法封闭性确保历史层系数始终在 (0，1) 之间，从根本上解决了梯度消失/爆炸问题，同时多流并行提升了网络表达能力。

CSA/HCA 混合稀疏注意力机制是实现百万 token 上下文的关键。 通过压缩稀疏注意力（CSA）和高度压缩注意力（HCA）实现内容海选-精选-稀疏采样三层处理，大幅降低超长上下文中的注意力计算量和 KV-Cache 消耗。

Muon 优化器通过梯度正交化和 QK RMSNorm 提升了训练稳定性和收敛速度。 梯度正交化解耦各方向更新，减少震荡；QK RMSNorm 在 Softmax 前抑制 Logits 爆炸，两者共同作用使训练更稳定、收敛更快。

工程层面的细粒度计算通信重叠和 TileLang 算子开发是实现高效训练和推理的保障。 更细粒度的调度方案几乎完全消除了 MoE 模块中的气泡现象；TileLang 实现了数据流逻辑与调度策略解耦，使复杂算子的开发效率与性能兼得。

💬 文章金句

- V4 没有发明新的轮子。mHC、CSA/HCA、Muon、TileLang、QAT——每一块拆开看原理，都似曾相识，但 V4 把它们逐一重新雕琢了一次，让它们都重新升华了。

V4 的动人之处，不只在每一块的精进，更在系统级的优雅。
从评分上看，这次的模型已经非常接近'闭源三巨头'的水平了，同时也是当之无愧的'地表最强开源模型'。
1M 上下文绝不仅仅是'能写更长的 prompt'，而是让 Agent、整库代码、长文档等任务的执行真正可以高效执行并落地。

📊 文章信息

AI 初评：90

来源：腾讯技术工程

作者：腾讯技术工程

分类：人工智能

语言：中文

阅读时间：42 分钟

字数：10481

标签： DeepSeek V4, 大语言模型, MoE, 长上下文, 残差连接

阅读完整文章

读完这篇，你就搞懂 DeepSeek v4 了

🤖 問 AI