← 回總覽

DeepSeek-V4 技术报告解读: 从架构到 Infra 的全栈重构

📅 2026-04-28 12:06 青稞AI 人工智能 2 分鐘 1932 字 評分: 88
DeepSeek-V4 MoE 长上下文 混合注意力 后训练
📌 一句话摘要 DeepSeek-V4 技术报告深度解读,聚焦百万上下文基础设施重构、CSA/HCA 混合注意力架构、Specialist+OPD 后训练范式以及 Agent 训练基础设施的四根支柱。 📝 详细摘要 本文是对 DeepSeek-V4 技术报告的深度解读,核心叙事是将百万 token 上下文从「能跑」变为「可用」。文章系统梳理了 V4 的全栈重构:架构层面引入 CSA(压缩稀疏注意力)+ HCA(重度压缩注意力)混合注意力机制,配合 mHC(流形约束超连接)替代传统残差连接,以及 Muon 优化器;Infra 层面重写了 MegaMoE 超融合 EP kernel、TileL

📌 一句话摘要

DeepSeek-V4 技术报告深度解读,聚焦百万上下文基础设施重构、CSA/HCA 混合注意力架构、Specialist+OPD 后训练范式以及 Agent 训练基础设施的四根支柱。

📝 详细摘要

本文是对 DeepSeek-V4 技术报告的深度解读,核心叙事是将百万 token 上下文从「能跑」变为「可用」。文章系统梳理了 V4 的全栈重构:架构层面引入 CSA(压缩稀疏注意力)+ HCA(重度压缩注意力)混合注意力机制,配合 mHC(流形约束超连接)替代传统残差连接,以及 Muon 优化器;Infra 层面重写了 MegaMoE 超融合 EP kernel、TileLang DSL、确定性 kernel 库和 FP4 QAT 管线;后训练层面用 Specialist + 全词表 OPD 蒸馏替代了传统的 mixed RL 范式。文章特别强调了 Agent 训练基础设施的四根支柱:执行真实性、打分可用性、轨迹可复现性和能力可融合性,指出 DSec 沙箱、trajectory log 和 preemptible rollout service 是 Agent 能力的关键底座。在效果上,V4-Pro-Max 在 Codeforces 达到 3206 rating,SWE Verified 80.6,多项基准开源登顶。

💡 主要观点

- CSA + HCA 混合注意力是长上下文效率的关键突破。 CSA 以 4 倍压缩率做稀疏 top-k 检索,HCA 以 128 倍压缩率做全局 dense 记忆,配合滑窗注意力补局部细节,使 1M 上下文下 V4-Pro 的 FLOPs 仅为 V3.2 的 27%,KV cache 仅需 10%。

Specialist + 全词表 OPD 蒸馏替代了传统 mixed RL 后训练范式。 先针对 math/code/agent/IF 等域独立训练专家模型,再通过学生自采样的 trajectory 上拟合 10+ 专家的全词表 logits 分布,有效避免多能力混训时的干扰和抵消。
Agent 训练的核心是基础设施而非数据配方。 V4 将 Agent 能力训练转化为 infra 问题,通过 DSec 沙箱(支持 Function Call/Container/microVM/fullVM)、全序 trajectory log 和可恢复 rollout 服务,确保执行真实性、打分可用性、轨迹可复现性和能力可融合性。
V4-Pro-Max 在多项基准上达到或接近闭源前沿水平。 Codeforces Rating 3206 与 GPT-5.4-xHigh 持平,SWE Verified 80.6,SimpleQA-Verified 57.9 开源登顶,在竞赛编程和形式化数学上首次与闭源模型打平。

💬 文章金句

- V4 的核心叙事就是:要把 1M context 变成日常可用。

  • 对于超长上下文,压缩 KV cache 比硬算稀疏 top-k 更根本地降低 FLOPs 与访存。
  • V4 反复强调 agent 能力的核心不是「模型会不会调用工具」,而是「能不能稳定地生成高质量多步轨迹」。
  • V4 把 agent 训练变成了一个 infra 问题:只要沙箱足够多、足够快、trajectory 可追溯、reward 可获取,specialist + OPD 的范式就能把 agent 能力蒸进统一模型。
  • V4 没有完全披露 agent 数据合成的具体 prompt/task/reward 细节,但它把 agent 训练变成了一个 infra 问题。

📊 文章信息

AI 初评:88

来源:青稞AI

作者:青稞AI

分类:人工智能

语言:中文

阅读时间:46 分钟

字数:11437

标签: DeepSeek-V4, MoE, 长上下文, 混合注意力, 后训练

阅读完整文章

查看原文 → 發佈: 2026-04-28 12:06:00 收錄: 2026-04-28 22:00:17

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。