DeepSeek-V4 技术报告深度解读,聚焦百万上下文基础设施重构、CSA/HCA 混合注意力架构、Specialist+OPD 后训练范式以及 Agent 训练基础设施的四根支柱。
📝 详细摘要
本文是对 DeepSeek-V4 技术报告的深度解读,核心叙事是将百万 token 上下文从「能跑」变为「可用」。文章系统梳理了 V4 的全栈重构:架构层面引入 CSA(压缩稀疏注意力)+ HCA(重度压缩注意力)混合注意力机制,配合 mHC(流形约束超连接)替代传统残差连接,以及 Muon 优化器;Infra 层面重写了 MegaMoE 超融合 EP kernel、TileLang DSL、确定性 kernel 库和 FP4 QAT 管线;后训练层面用 Specialist + 全词表 OPD 蒸馏替代了传统的 mixed RL 范式。文章特别强调了 Agent 训练基础设施的四根支柱:执行真实性、打分可用性、轨迹可复现性和能力可融合性,指出 DSec 沙箱、trajectory log 和 preemptible rollout service 是 Agent 能力的关键底座。在效果上,V4-Pro-Max 在 Codeforces 达到 3206 rating,SWE Verified 80.6,多项基准开源登顶。
💡 主要观点
- CSA + HCA 混合注意力是长上下文效率的关键突破。 CSA 以 4 倍压缩率做稀疏 top-k 检索,HCA 以 128 倍压缩率做全局 dense 记忆,配合滑窗注意力补局部细节,使 1M 上下文下 V4-Pro 的 FLOPs 仅为 V3.2 的 27%,KV cache 仅需 10%。
💬 文章金句
- V4 的核心叙事就是:要把 1M context 变成日常可用。
- 对于超长上下文,压缩 KV cache 比硬算稀疏 top-k 更根本地降低 FLOPs 与访存。
- V4 反复强调 agent 能力的核心不是「模型会不会调用工具」,而是「能不能稳定地生成高质量多步轨迹」。
- V4 把 agent 训练变成了一个 infra 问题:只要沙箱足够多、足够快、trajectory 可追溯、reward 可获取,specialist + OPD 的范式就能把 agent 能力蒸进统一模型。
- V4 没有完全披露 agent 数据合成的具体 prompt/task/reward 细节,但它把 agent 训练变成了一个 infra 问题。
📊 文章信息
AI 初评:88
来源:青稞AI
作者:青稞AI
分类:人工智能
语言:中文
阅读时间:46 分钟
字数:11437
标签: DeepSeek-V4, MoE, 长上下文, 混合注意力, 后训练