← 回總覽

163: 详解 DeepSeek V4:Infra 巨鲸、百万上下文走进现实、极致效率优化

📅 2026-04-30 14:00 晚点聊 LateTalk 人工智能 2 分鐘 2124 字 評分: 88
DeepSeek V4 混合稀疏注意力 Muon 优化器 MHC FP4 训练
📌 一句话摘要 邀请一线 AI 从业者深度拆解 DeepSeek V4 技术报告,探讨混合稀疏注意力、Muon 优化器、MHC 残差连接及 FP4 训练等组合创新,如何让百万上下文从理论走向实用。 📝 详细摘要 本期播客邀请 RadixArk 工程师(SGLang 核心开发者)赵晨阳和 UCLA 博士生刘益枫,围绕 DeepSeek V4 技术报告展开深度技术解析。节目首先定位 V4 并非范式级创新,而是沿 R1 开创的「测试时扩展」范式,通过一系列耦合紧密的工程创新,将百万上下文推理成本降至可商用水平。嘉宾逐层剖析了 V4 的四大核心改进:1)注意力机制上放弃 MLA 回归 MQA,采用

📌 一句话摘要

邀请一线 AI 从业者深度拆解 DeepSeek V4 技术报告,探讨混合稀疏注意力、Muon 优化器、MHC 残差连接及 FP4 训练等组合创新,如何让百万上下文从理论走向实用。

📝 详细摘要

本期播客邀请 RadixArk 工程师(SGLang 核心开发者)赵晨阳和 UCLA 博士生刘益枫,围绕 DeepSeek V4 技术报告展开深度技术解析。节目首先定位 V4 并非范式级创新,而是沿 R1 开创的「测试时扩展」范式,通过一系列耦合紧密的工程创新,将百万上下文推理成本降至可商用水平。嘉宾逐层剖析了 V4 的四大核心改进:1)注意力机制上放弃 MLA 回归 MQA,采用滑动窗口(SWA)+ 压缩稀疏注意力(CSA)+ 高度压缩注意力(HCA)的混合策略,实现极致稀疏化;2)优化器从 AdamW 切换到 Muon,本文详细分析了 Muon 的矩阵级更新优势及其分布式训练挑战,并以 Moonlight 和 V4 对学习率系数的精确调整(0.18)为例说明行业适配进展;3)引入流形约束超连(mHC)改进残差连接,拓宽层间信息通道;4)Infra 层面采用 TileLang 编译器和 FP4 低精度训练,在 1.6T 参数规模上实现高效训练。讨论还涉及模型评估的挑战(Benchmark 危机)、中美模型路线差异(中国重性价比,美国重性能上限),以及 Agent 场景对长上下文能力的需求。节目技术深度极高,对理解当前大模型工程优化前沿具有重要参考价值。

💡 主要观点

- V4 是 R1 范式的工程深化,而非范式创新 嘉宾强调 V4 并未提出新范式,而是沿 R1 开创的「测试时扩展」路线,通过组合创新(新注意力+Muon+mHC+FP4)解决百万上下文从理论到实用的工程难题,其系统级耦合工作将是未来一两年的主旋律。

混合稀疏注意力机制实现极致压缩与效率提升 V4 放弃 MLA 回到 MQA 架构,采用每层 SWA+CSA 或 HCA 的预定义混合策略。CSA 做 4:1 压缩+Top-K 选取,HCA 做 128:1 稠密压缩,层间分工使单 token 推理 flops 降至 V3 的 27%,KV cache 降至 10%,长上下文场景下效率优势显著。
Muon 优化器正成为检验团队工程能力的试金石 Muon 的矩阵级更新比 AdamW 逐元素更新更高效,但分布式训练中需处理矩阵聚合与切分,调度复杂度远超以往。从 Moonlight 的 0.2 到 V4 的 0.18,参数调优日趋精确,但仍有 embedding 层等需保留 AdamW,体现混合优化器策略。
mHC 通过拓宽层间信息流提升模型推理能力 mHC 在传统低维残差连接上新增 channel 维度,将信息宽度扩大数十倍,并通过双随机矩阵约束保证训练稳定性。与 kimi 的 Attention Residuals 跨层直接连接形成思路互补,共同推动 layer-wise 信息流改进。

💬 文章金句

- 范式变化这个词在 AI 圈子被用的有点叙事过载了。范式这个东西没定成一种十年一遇,甚至更加稀疏。V4 自己的技术报告也非常坦诚的承认说,其实也是 follow 了 R1 开创的范式。

  • V4 的激活比例是 3%,即 1.6T 总参数只激活约 50B。MOE 的核心价值就是把总参数和激活参数解耦,V4 又把这种解耦推到了一个更加极端的位置。
  • 现在的 token 浪费,有种拿着高压水枪浇花的美感。模型忠实的反应它受到的训练是什么样子的,解决同一个问题的 token 越来越长,这个循环不太健康。
  • Muon 优化器是检验一个团队工程优化上线的一个很好试金石。你可以想象我们用了大量的人力、大量的 infra 复杂度去置换出来了一个单量的显存和收敛效率。
  • 我们可能能在 one million token 里面做更多的事情。现在可能我需要 Cloud、我需要 open Cloud,它吐出的 token 量是一个非常恐怖的数量级,重要的是减少推理的量。

📊 文章信息

AI 初评:88

来源:晚点聊 LateTalk

作者:晚点聊 LateTalk

分类:人工智能

语言:中文

阅读时间:140 分钟

字数:34987

标签: DeepSeek V4, 混合稀疏注意力, Muon 优化器, MHC, FP4 训练

收听完整播客

查看原文 → 發佈: 2026-04-30 14:00:00 收錄: 2026-04-30 18:00:08

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。