本文系统梳理了 Muon 优化器的数学原理、分布式训练工程挑战及工业落地案例,涵盖 Moonlight、Kimi K2、GLM-4.5、DeepSeek-V4 等主流大模型的应用实践。
📝 详细摘要
本文对 Muon 优化器进行了全面而深入的技术梳理。文章首先从数学原理出发,解释了 Muon 通过 Newton-Schulz 迭代将动量矩阵谱正交化,等价于在谱范数下做最陡下降,并分析了其与 Shampoo、Orthogonal-SGDM 等优化器的关系。随后,文章重点探讨了将 Muon 扩展到大规模 LLM 训练时遇到的关键挑战及解决方案,包括 Moonlight 引入的 Decoupled Weight Decay 和 RMS-Matched Adjusted LR 以解决权重范数增长和更新 RMS 不一致问题。文章的核心部分详细分析了分布式训练中的工程挑战,特别是 Newton-Schulz 迭代与参数 Sharding(如 ZeRO、FSDP)的根本冲突,并介绍了 Moonshot 提出的 Distributed Muon 算法及其与 Megatron-LM 的集成方案。最后,文章梳理了多个工业落地案例:Kimi K2 的 MuonClip 机制解决 Attention logit 爆炸、智谱 GLM-4.5/GLM-5 的 Muon-split 和零冗余通信优化、阿里的 Canzona 框架、微软的 Dion 以及 DeepSeek-V4 的 Hybrid Newton-Schulz 和混合 ZeRO 分桶策略。文章信息密度高,技术分析深入,对关注大模型训练技术的从业者具有很高的参考价值。
💡 主要观点
- Muon 优化器通过 Newton-Schulz 迭代将动量矩阵谱正交化,在谱范数下实现最陡下降。 Muon 的核心思想是,对梯度动量矩阵进行谱正交化(近似为 UV^T),这等价于在谱范数约束下进行最陡下降,能更均匀地更新所有奇异方向,优于 AdamW 强化主方向的做法。
💬 文章金句
- Muon 的核心思想可以简单概括为:把动量矩阵 Mt 谱正交化(近似映射到 UVT)后再做参数更新,等价于在谱范数(spectral / Schatten-∞ 范数)下做最陡下降。
- Muon 的优势在超过 critical batch size(CBS) 的大批量训练区间尤为显著。
- Muon 的更新方向 UVT 是满秩(不像 Adam 主要朝少数主方向更新),导致它与原权重矩阵的奇异向量更容易'对齐'。这种对齐在 Wq 和 Wk 上累积,使得 WqWkT 的谱范数稳步增长,最终触发 Attention logit qTk 爆炸。
- 这个'自动失活'现象很重要:它表明 QK-Clip 不是一个粗暴的硬性约束,而是把训练前期的'危险窗口'温和地拉回稳定流形之后,模型自己就能维持稳定。
📊 文章信息
AI 初评:87
来源:AI闲谈
作者:AI闲谈
分类:人工智能
语言:中文
阅读时间:32 分钟
字数:8000
标签: Muon 优化器, 大模型训练, 分布式训练, Newton-Schulz, Moonshot AI