邀请一线 AI 从业者深度拆解 DeepSeek V4 技术报告,探讨混合稀疏注意力、Muon 优化器、MHC 残差连接及 FP4 训练等组合创新,如何让百万上下文从理论走向实用。
📝 详细摘要
本期播客邀请 RadixArk 工程师(SGLang 核心开发者)赵晨阳和 UCLA 博士生刘益枫,围绕 DeepSeek V4 技术报告展开深度技术解析。节目首先定位 V4 并非范式级创新,而是沿 R1 开创的「测试时扩展」范式,通过一系列耦合紧密的工程创新,将百万上下文推理成本降至可商用水平。嘉宾逐层剖析了 V4 的四大核心改进:1)注意力机制上放弃 MLA 回归 MQA,采用滑动窗口(SWA)+ 压缩稀疏注意力(CSA)+ 高度压缩注意力(HCA)的混合策略,实现极致稀疏化;2)优化器从 AdamW 切换到 Muon,本文详细分析了 Muon 的矩阵级更新优势及其分布式训练挑战,并以 Moonlight 和 V4 对学习率系数的精确调整(0.18)为例说明行业适配进展;3)引入流形约束超连(mHC)改进残差连接,拓宽层间信息通道;4)Infra 层面采用 TileLang 编译器和 FP4 低精度训练,在 1.6T 参数规模上实现高效训练。讨论还涉及模型评估的挑战(Benchmark 危机)、中美模型路线差异(中国重性价比,美国重性能上限),以及 Agent 场景对长上下文能力的需求。节目技术深度极高,对理解当前大模型工程优化前沿具有重要参考价值。
💡 主要观点
- V4 是 R1 范式的工程深化,而非范式创新 嘉宾强调 V4 并未提出新范式,而是沿 R1 开创的「测试时扩展」路线,通过组合创新(新注意力+Muon+mHC+FP4)解决百万上下文从理论到实用的工程难题,其系统级耦合工作将是未来一两年的主旋律。
💬 文章金句
- 范式变化这个词在 AI 圈子被用的有点叙事过载了。范式这个东西没定成一种十年一遇,甚至更加稀疏。V4 自己的技术报告也非常坦诚的承认说,其实也是 follow 了 R1 开创的范式。
- V4 的激活比例是 3%,即 1.6T 总参数只激活约 50B。MOE 的核心价值就是把总参数和激活参数解耦,V4 又把这种解耦推到了一个更加极端的位置。
- 现在的 token 浪费,有种拿着高压水枪浇花的美感。模型忠实的反应它受到的训练是什么样子的,解决同一个问题的 token 越来越长,这个循环不太健康。
- Muon 优化器是检验一个团队工程优化上线的一个很好试金石。你可以想象我们用了大量的人力、大量的 infra 复杂度去置换出来了一个单量的显存和收敛效率。
- 我们可能能在 one million token 里面做更多的事情。现在可能我需要 Cloud、我需要 open Cloud,它吐出的 token 量是一个非常恐怖的数量级,重要的是减少推理的量。
📊 文章信息
AI 初评:88
来源:晚点聊 LateTalk
作者:晚点聊 LateTalk
分类:人工智能
语言:中文
阅读时间:140 分钟
字数:34987
标签: DeepSeek V4, 混合稀疏注意力, Muon 优化器, MHC, FP4 训练