DeepSeek 正式发布并开源 V4 系列模型,采用混合注意力机制、Engram 记忆模块和 mHC 流形约束超连接等多项创新,实现百万上下文、Agent 能力大幅提升,并首次验证了在华为 Ascend NPU 上的跨算力适配能力。
📝 详细摘要
本文详细报道了 DeepSeek-V4 系列模型的发布。V4 分为 Pro 和 Flash 两个版本,均支持百万 token 上下文。文章深入拆解了 V4 的关键技术创新:混合注意力机制(CSA 与 HCA)大幅降低长序列计算复杂度;Engram 条件记忆模块将记忆与推理分离,通过哈希查找实现 O(1) 知识调用;mHC 流形约束超连接解决了极深网络训练不稳定性问题。此外,文章还介绍了 Muon 优化器、FP4 量化、专家并行、确定性内核、TileLang DSL 等工程优化。值得关注的是,V4 在 NVIDIA GPU 和华为 Ascend NPU 上均完成了专家并行验证,展现出跨算力平台的适配能力。在性能方面,V4-Pro 在 Agent、知识和推理三大维度上比肩顶级闭源模型,V4-Flash 则主攻性价比。文章还回顾了 DeepSeek 过去一年的重要发布历程。
💡 主要观点
- DeepSeek-V4 发布 Pro 和 Flash 两个版本,均支持百万 token 上下文。 Pro 版本追求极致性能,在 Agent、知识和推理上比肩顶级闭源模型;Flash 版本主攻性价比,推理能力接近 Pro 但知识储备稍逊。
💬 文章金句
- DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能三大维度上均实现了国内与开源领域的领先。
- 一边在 CUDA 生态持续极致优化,一边为华为 Ascend 等多算力环境预留空间。
- Engram 将模型能力从连续的神经计算转移到确定性的哈希查找。
- 该查表的查表,该算的算。
- V4-Pro 在 Agentic Coding 评测中已达到当前开源模型最佳水平,交付质量接近 Opus 4.6 非思考模式。
📊 文章信息
AI 初评:88
来源:InfoQ 中文
作者:InfoQ 中文
分类:人工智能
语言:中文
阅读时间:30 分钟
字数:7364
标签: DeepSeek-V4, 大语言模型, 开源模型, 混合注意力, Engram