← 回總覽

DeepSeek V4 重磅开源!首次打通华为 Ascend,也没丢掉英伟达,百万上下文夺回国产模型话语权

📅 2026-04-24 12:15 InfoQ 中文 人工智能 2 分鐘 1650 字 評分: 88
DeepSeek-V4 大语言模型 开源模型 混合注意力 Engram
📌 一句话摘要 DeepSeek 正式发布并开源 V4 系列模型,采用混合注意力机制、Engram 记忆模块和 mHC 流形约束超连接等多项创新,实现百万上下文、Agent 能力大幅提升,并首次验证了在华为 Ascend NPU 上的跨算力适配能力。 📝 详细摘要 本文详细报道了 DeepSeek-V4 系列模型的发布。V4 分为 Pro 和 Flash 两个版本,均支持百万 token 上下文。文章深入拆解了 V4 的关键技术创新:混合注意力机制(CSA 与 HCA)大幅降低长序列计算复杂度;Engram 条件记忆模块将记忆与推理分离,通过哈希查找实现 O(1) 知识调用;mHC 流形约

📌 一句话摘要

DeepSeek 正式发布并开源 V4 系列模型,采用混合注意力机制、Engram 记忆模块和 mHC 流形约束超连接等多项创新,实现百万上下文、Agent 能力大幅提升,并首次验证了在华为 Ascend NPU 上的跨算力适配能力。

📝 详细摘要

本文详细报道了 DeepSeek-V4 系列模型的发布。V4 分为 Pro 和 Flash 两个版本,均支持百万 token 上下文。文章深入拆解了 V4 的关键技术创新:混合注意力机制(CSA 与 HCA)大幅降低长序列计算复杂度;Engram 条件记忆模块将记忆与推理分离,通过哈希查找实现 O(1) 知识调用;mHC 流形约束超连接解决了极深网络训练不稳定性问题。此外,文章还介绍了 Muon 优化器、FP4 量化、专家并行、确定性内核、TileLang DSL 等工程优化。值得关注的是,V4 在 NVIDIA GPU 和华为 Ascend NPU 上均完成了专家并行验证,展现出跨算力平台的适配能力。在性能方面,V4-Pro 在 Agent、知识和推理三大维度上比肩顶级闭源模型,V4-Flash 则主攻性价比。文章还回顾了 DeepSeek 过去一年的重要发布历程。

💡 主要观点

- DeepSeek-V4 发布 Pro 和 Flash 两个版本,均支持百万 token 上下文。 Pro 版本追求极致性能,在 Agent、知识和推理上比肩顶级闭源模型;Flash 版本主攻性价比,推理能力接近 Pro 但知识储备稍逊。

V4 首次在华为 Ascend NPU 上验证了专家并行方案,具备跨算力平台适配能力。 细粒度专家并行方案同时在 NVIDIA GPU 和华为 Ascend NPU 上完成验证,但当前开源版本仍基于 CUDA 工具链,为未来多算力环境预留空间。
混合注意力机制(CSA + HCA)是 V4 最关键的架构创新之一。 CSA 通过压缩和稀疏注意力降低计算量,HCA 采用更激进压缩率处理低信息密度场景,两者交错堆叠兼顾效率与表达力。
Engram 条件记忆模块将记忆与推理分离,实现高效知识调用。 通过哈希查找替代矩阵运算,以 O(1) 复杂度调用固定知识,释放注意力资源用于复杂推理,在等参数等算力条件下显著提升性能。
V4 在训练和推理工程层面进行了大量优化,包括 Muon 优化器、FP4 量化和确定性内核。 首次在万亿参数 MoE 模型上采用 Muon 优化器;FP4 量化实现无损压缩和推理加速;确定性内核保障大规模训练的可复现性。

💬 文章金句

- DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能三大维度上均实现了国内与开源领域的领先。

  • 一边在 CUDA 生态持续极致优化,一边为华为 Ascend 等多算力环境预留空间。
  • Engram 将模型能力从连续的神经计算转移到确定性的哈希查找。
  • 该查表的查表,该算的算。
  • V4-Pro 在 Agentic Coding 评测中已达到当前开源模型最佳水平,交付质量接近 Opus 4.6 非思考模式。

📊 文章信息

AI 初评:88

来源:InfoQ 中文

作者:InfoQ 中文

分类:人工智能

语言:中文

阅读时间:30 分钟

字数:7364

标签: DeepSeek-V4, 大语言模型, 开源模型, 混合注意力, Engram

阅读完整文章

查看原文 → 發佈: 2026-04-24 12:15:00 收錄: 2026-04-24 18:00:46

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。