163: 详解 DeepSeek V4：Infra 巨鲸、百万上下文走进现实、极致效率优化

📌 一句话摘要

邀请一线 AI 从业者深度拆解 DeepSeek V4 技术报告，探讨混合稀疏注意力、Muon 优化器、MHC 残差连接及 FP4 训练等组合创新，如何让百万上下文从理论走向实用。

📝 详细摘要

本期播客邀请 RadixArk 工程师（SGLang 核心开发者）赵晨阳和 UCLA 博士生刘益枫，围绕 DeepSeek V4 技术报告展开深度技术解析。节目首先定位 V4 并非范式级创新，而是沿 R1 开创的「测试时扩展」范式，通过一系列耦合紧密的工程创新，将百万上下文推理成本降至可商用水平。嘉宾逐层剖析了 V4 的四大核心改进：1）注意力机制上放弃 MLA 回归 MQA，采用滑动窗口（SWA）+ 压缩稀疏注意力（CSA）+ 高度压缩注意力（HCA）的混合策略，实现极致稀疏化；2）优化器从 AdamW 切换到 Muon，本文详细分析了 Muon 的矩阵级更新优势及其分布式训练挑战，并以 Moonlight 和 V4 对学习率系数的精确调整（0.18）为例说明行业适配进展；3）引入流形约束超连（mHC）改进残差连接，拓宽层间信息通道；4）Infra 层面采用 TileLang 编译器和 FP4 低精度训练，在 1.6T 参数规模上实现高效训练。讨论还涉及模型评估的挑战（Benchmark 危机）、中美模型路线差异（中国重性价比，美国重性能上限），以及 Agent 场景对长上下文能力的需求。节目技术深度极高，对理解当前大模型工程优化前沿具有重要参考价值。

💡 主要观点

- V4 是 R1 范式的工程深化，而非范式创新 嘉宾强调 V4 并未提出新范式，而是沿 R1 开创的「测试时扩展」路线，通过组合创新（新注意力+Muon+mHC+FP4）解决百万上下文从理论到实用的工程难题，其系统级耦合工作将是未来一两年的主旋律。

混合稀疏注意力机制实现极致压缩与效率提升 V4 放弃 MLA 回到 MQA 架构，采用每层 SWA+CSA 或 HCA 的预定义混合策略。CSA 做 4:1 压缩+Top-K 选取，HCA 做 128:1 稠密压缩，层间分工使单 token 推理 flops 降至 V3 的 27%，KV cache 降至 10%，长上下文场景下效率优势显著。

Muon 优化器正成为检验团队工程能力的试金石 Muon 的矩阵级更新比 AdamW 逐元素更新更高效，但分布式训练中需处理矩阵聚合与切分，调度复杂度远超以往。从 Moonlight 的 0.2 到 V4 的 0.18，参数调优日趋精确，但仍有 embedding 层等需保留 AdamW，体现混合优化器策略。

mHC 通过拓宽层间信息流提升模型推理能力 mHC 在传统低维残差连接上新增 channel 维度，将信息宽度扩大数十倍，并通过双随机矩阵约束保证训练稳定性。与 kimi 的 Attention Residuals 跨层直接连接形成思路互补，共同推动 layer-wise 信息流改进。

💬 文章金句

- 范式变化这个词在 AI 圈子被用的有点叙事过载了。范式这个东西没定成一种十年一遇，甚至更加稀疏。V4 自己的技术报告也非常坦诚的承认说，其实也是 follow 了 R1 开创的范式。

V4 的激活比例是 3%，即 1.6T 总参数只激活约 50B。MOE 的核心价值就是把总参数和激活参数解耦，V4 又把这种解耦推到了一个更加极端的位置。
现在的 token 浪费，有种拿着高压水枪浇花的美感。模型忠实的反应它受到的训练是什么样子的，解决同一个问题的 token 越来越长，这个循环不太健康。
Muon 优化器是检验一个团队工程优化上线的一个很好试金石。你可以想象我们用了大量的人力、大量的 infra 复杂度去置换出来了一个单量的显存和收敛效率。
我们可能能在 one million token 里面做更多的事情。现在可能我需要 Cloud、我需要 open Cloud，它吐出的 token 量是一个非常恐怖的数量级，重要的是减少推理的量。

📊 文章信息

AI 初评：88

来源：晚点聊 LateTalk

作者：晚点聊 LateTalk

分类：人工智能

语言：中文

阅读时间：140 分钟

字数：34987

标签： DeepSeek V4, 混合稀疏注意力, Muon 优化器, MHC, FP4 训练

收听完整播客

163: 详解 DeepSeek V4：Infra 巨鲸、百万上下文走进现实、极致效率优化

🤖 問 AI