DeepSeek V4 重磅开源！首次打通华为 Ascend，也没丢掉英伟达，百万上下文夺回国产模型话语权

📌 一句话摘要

DeepSeek 正式发布并开源 V4 系列模型，采用混合注意力机制、Engram 记忆模块和 mHC 流形约束超连接等多项创新，实现百万上下文、Agent 能力大幅提升，并首次验证了在华为 Ascend NPU 上的跨算力适配能力。

📝 详细摘要

本文详细报道了 DeepSeek-V4 系列模型的发布。V4 分为 Pro 和 Flash 两个版本，均支持百万 token 上下文。文章深入拆解了 V4 的关键技术创新：混合注意力机制（CSA 与 HCA）大幅降低长序列计算复杂度；Engram 条件记忆模块将记忆与推理分离，通过哈希查找实现 O(1) 知识调用；mHC 流形约束超连接解决了极深网络训练不稳定性问题。此外，文章还介绍了 Muon 优化器、FP4 量化、专家并行、确定性内核、TileLang DSL 等工程优化。值得关注的是，V4 在 NVIDIA GPU 和华为 Ascend NPU 上均完成了专家并行验证，展现出跨算力平台的适配能力。在性能方面，V4-Pro 在 Agent、知识和推理三大维度上比肩顶级闭源模型，V4-Flash 则主攻性价比。文章还回顾了 DeepSeek 过去一年的重要发布历程。

💡 主要观点

- DeepSeek-V4 发布 Pro 和 Flash 两个版本，均支持百万 token 上下文。 Pro 版本追求极致性能，在 Agent、知识和推理上比肩顶级闭源模型；Flash 版本主攻性价比，推理能力接近 Pro 但知识储备稍逊。

V4 首次在华为 Ascend NPU 上验证了专家并行方案，具备跨算力平台适配能力。 细粒度专家并行方案同时在 NVIDIA GPU 和华为 Ascend NPU 上完成验证，但当前开源版本仍基于 CUDA 工具链，为未来多算力环境预留空间。

混合注意力机制（CSA + HCA）是 V4 最关键的架构创新之一。 CSA 通过压缩和稀疏注意力降低计算量，HCA 采用更激进压缩率处理低信息密度场景，两者交错堆叠兼顾效率与表达力。

Engram 条件记忆模块将记忆与推理分离，实现高效知识调用。 通过哈希查找替代矩阵运算，以 O(1) 复杂度调用固定知识，释放注意力资源用于复杂推理，在等参数等算力条件下显著提升性能。

V4 在训练和推理工程层面进行了大量优化，包括 Muon 优化器、FP4 量化和确定性内核。 首次在万亿参数 MoE 模型上采用 Muon 优化器；FP4 量化实现无损压缩和推理加速；确定性内核保障大规模训练的可复现性。

💬 文章金句

- DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能三大维度上均实现了国内与开源领域的领先。

一边在 CUDA 生态持续极致优化，一边为华为 Ascend 等多算力环境预留空间。
Engram 将模型能力从连续的神经计算转移到确定性的哈希查找。
该查表的查表，该算的算。
V4-Pro 在 Agentic Coding 评测中已达到当前开源模型最佳水平，交付质量接近 Opus 4.6 非思考模式。

📊 文章信息

AI 初评：88

来源：InfoQ 中文

作者：InfoQ 中文

分类：人工智能

语言：中文

阅读时间：30 分钟

字数：7364

标签： DeepSeek-V4, 大语言模型, 开源模型, 混合注意力, Engram

阅读完整文章

DeepSeek V4 重磅开源！首次打通华为 Ascend，也没丢掉英伟达，百万上下文夺回国产模型话语权

🤖 問 AI