DeepSeek-V4 技术报告解读: 从架构到 Infra 的全栈重构

📌 一句话摘要

DeepSeek-V4 技术报告深度解读，聚焦百万上下文基础设施重构、CSA/HCA 混合注意力架构、Specialist+OPD 后训练范式以及 Agent 训练基础设施的四根支柱。

📝 详细摘要

本文是对 DeepSeek-V4 技术报告的深度解读，核心叙事是将百万 token 上下文从「能跑」变为「可用」。文章系统梳理了 V4 的全栈重构：架构层面引入 CSA（压缩稀疏注意力）+ HCA（重度压缩注意力）混合注意力机制，配合 mHC（流形约束超连接）替代传统残差连接，以及 Muon 优化器；Infra 层面重写了 MegaMoE 超融合 EP kernel、TileLang DSL、确定性 kernel 库和 FP4 QAT 管线；后训练层面用 Specialist + 全词表 OPD 蒸馏替代了传统的 mixed RL 范式。文章特别强调了 Agent 训练基础设施的四根支柱：执行真实性、打分可用性、轨迹可复现性和能力可融合性，指出 DSec 沙箱、trajectory log 和 preemptible rollout service 是 Agent 能力的关键底座。在效果上，V4-Pro-Max 在 Codeforces 达到 3206 rating，SWE Verified 80.6，多项基准开源登顶。

💡 主要观点

- CSA + HCA 混合注意力是长上下文效率的关键突破。 CSA 以 4 倍压缩率做稀疏 top-k 检索，HCA 以 128 倍压缩率做全局 dense 记忆，配合滑窗注意力补局部细节，使 1M 上下文下 V4-Pro 的 FLOPs 仅为 V3.2 的 27%，KV cache 仅需 10%。

Specialist + 全词表 OPD 蒸馏替代了传统 mixed RL 后训练范式。 先针对 math/code/agent/IF 等域独立训练专家模型，再通过学生自采样的 trajectory 上拟合 10+ 专家的全词表 logits 分布，有效避免多能力混训时的干扰和抵消。

Agent 训练的核心是基础设施而非数据配方。 V4 将 Agent 能力训练转化为 infra 问题，通过 DSec 沙箱（支持 Function Call/Container/microVM/fullVM）、全序 trajectory log 和可恢复 rollout 服务，确保执行真实性、打分可用性、轨迹可复现性和能力可融合性。

V4-Pro-Max 在多项基准上达到或接近闭源前沿水平。 Codeforces Rating 3206 与 GPT-5.4-xHigh 持平，SWE Verified 80.6，SimpleQA-Verified 57.9 开源登顶，在竞赛编程和形式化数学上首次与闭源模型打平。

💬 文章金句

- V4 的核心叙事就是：要把 1M context 变成日常可用。

对于超长上下文，压缩 KV cache 比硬算稀疏 top-k 更根本地降低 FLOPs 与访存。
V4 反复强调 agent 能力的核心不是「模型会不会调用工具」，而是「能不能稳定地生成高质量多步轨迹」。
V4 把 agent 训练变成了一个 infra 问题：只要沙箱足够多、足够快、trajectory 可追溯、reward 可获取，specialist + OPD 的范式就能把 agent 能力蒸进统一模型。
V4 没有完全披露 agent 数据合成的具体 prompt/task/reward 细节，但它把 agent 训练变成了一个 infra 问题。

📊 文章信息

AI 初评：88

来源：青稞AI

作者：青稞AI

分类：人工智能

语言：中文

阅读时间：46 分钟

字数：11437

标签： DeepSeek-V4, MoE, 长上下文, 混合注意力, 后训练

阅读完整文章

DeepSeek-V4 技术报告解读: 从架构到 Infra 的全栈重构

🤖 問 AI