AdamW 和 Muon 的失稳根源有解了，港中文新优化器 Pion：在等谱流形上更新大模型

📌 一句话摘要

香港中文大学等机构提出 Pion 优化器，通过在等谱流形上更新参数，从根源上解决大模型训练中的谱结构失控和稳定性问题。

📝 详细摘要

本文介绍了由香港中文大学等机构提出的新型优化器 Pion。该优化器的核心创新在于，它不再像 AdamW 或 Muon 那样采用加法更新范式，而是直接在参数矩阵的等谱流形上进行优化。Pion 通过正交变换对权重矩阵进行旋转，严格保持其奇异值不变，从而从几何层面抑制了训练过程中谱范数放大、激活值漂移等失稳现象。文章通过大量实验验证了 Pion 的稳定性：在标准预训练中，其 attention logit 和激活范数保持平坦；在移除所有归一化层的压力测试中，Pion 是唯一能稳定收敛的优化器；在 200 层超深层网络中，其 loss 轨迹最为平滑。此外，Pion 还天然兼容 μP 尺度迁移理论，并能在 SFT 和 RLVR 等后训练阶段取得更优的稳定性与泛化性平衡。文章认为，Pion 代表了大模型优化器从追求「更快收敛」向「更稳定、更可控」转变的趋势。

💡 主要观点

- Pion 通过在等谱流形上更新参数，从根本上抑制了训练中的谱结构失控。 传统优化器的加法更新会无约束地改变参数矩阵的奇异值，导致谱范数放大和激活值漂移。Pion 使用正交变换进行旋转，严格保持奇异值不变，使训练动态更加稳定。

Pion 在极端压力测试下展现出远超 AdamW 和 Muon 的稳定性。 在移除所有归一化层的 60M 模型训练中，AdamW 和 Muon 均因梯度爆炸而崩溃，而 Pion 能稳定收敛。在 200 层超深层网络中，Pion 的 loss 轨迹也最为平滑。

Pion 天然兼容 μP 尺度迁移理论，可实现超参数跨模型规模迁移。 由于 Pion 保持权重谱结构稳定，它天然满足 μP 对权重矩阵谱范数的尺度规律。通过额外设计，Pion 的学习率可以在不同宽度的模型间直接迁移。

Pion 在 SFT 和 RLVR 等后训练阶段也表现出更好的稳定性与泛化性平衡。 在 SFT 中，Pion 能更好地平衡新任务学习与旧能力保留；在 RLVR 中，Pion 收敛更快、训练更稳定，表明谱保持是一种适合强化学习的优化归纳偏置。

💬 文章金句

- Pion 不再直接「拉伸」权重矩阵，而是在特征空间中对其进行旋转。

Pion 的谱保持更新，不仅稳定了训练过程，也稳定了模型知识本身。
大模型优化器的下一阶段，也许不只是更快下降，而是更可控、更结构化、更长期稳定。
谱保持优化在一定程度上能够替代架构层面的尺度控制机制，为模型训练提供一种来自优化器本身的稳定性来源。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：19 分钟

字数：4555

标签： Pion, 优化器, 大模型训练, 训练稳定性, 等谱流形

阅读完整文章

AdamW 和 Muon 的失稳根源有解了，港中文新优化器 Pion：在等谱流形上更新大模型

🤖 問 AI