本文通过深度访谈两位一线 AI 从业者,详细解析了 DeepSeek-V4 在混合注意力、mHC 残差、Muon 优化器和 FP4 训练等四个层面的系统级创新,并探讨了其百万上下文效率提升背后的工程挑战与行业影响。
📝 详细摘要
本文是《晚点 LatePost》对 UCLA 博士刘益枫和 SGLang 核心开发者赵晨阳的深度访谈实录。文章以 DeepSeek-V4 技术报告为切入点,系统拆解了 V4 在注意力机制(CSA/HCA 混合稀疏注意力)、残差连接(mHC)、优化器(Muon)和训练精度(FP4)四个维度的核心创新。两位嘉宾从算法和 Infra 两个视角,深入分析了 V4 放弃 MLA、重回 MQA 的技术决策逻辑,以及系统级耦合优化比单点创新更难的工程现实。文章还横向对比了 Kimi、GLM、Qwen、MiniMax 等中国大模型团队的技术路线差异,讨论了中美 AI 模型发展的不同取向——美国追求领域创新和高定价,中国侧重性价比和工程极限。此外,访谈涉及了 TileLang 开源生态、FP4 训练的实际工程实现、后训练中的多专家蒸馏策略,以及当前 Benchmark 的可信危机等前沿话题。
💡 主要观点
- DeepSeek-V4 放弃了从 V2 延续到 V3 的 MLA 架构,重回 MQA 并引入混合稀疏注意力机制。 V4 每层同时运行滑动窗口注意力和长距注意力(CSA 或 HCA),CSA 做 4:1 压缩后 top-k 选取,HCA 做 128:1 激进压缩保持稠密注意力,这种 token-wise 压缩机制是 V4 实现百万上下文效率提升的核心。
💬 文章金句
- 这种系统级的耦合优化比单点创新更难,更体现一个团队的工程深度。
- V4 整体保留了 DeepSeekMoE 框架和 MTP 策略,但在四个层面做了改造:注意力、残差、优化器、Infra。这四件事的共同主题是:让 1M 上下文从'理论可行'变成'成本可接受'。
- Muon 不是简单替换 AdamW,而是用大量人力和工程复杂度换取大量显存和收敛效率。这笔账值不值得,取决于团队的工程水平、显卡数量和模型规模。
- DeepSeek 不再靠'成本叙事'定义自己,而是用模型能力说话。
- 现在评估也越来越难,因为场景越来越复杂。整个行业必须把评估做好,否则很容易陷入自欺欺人的循环。
📊 文章信息
AI 初评:88
来源:晚点LatePost
作者: 晚点LatePost
分类:人工智能
语言:中文
阅读时间:69 分钟
字数:17071
标签: DeepSeek-V4, 混合注意力, Muon优化器, FP4训练, mHC残差