香港中文大学等机构提出 Pion 优化器,通过在等谱流形上更新参数,从根源上解决大模型训练中的谱结构失控和稳定性问题。
📝 详细摘要
本文介绍了由香港中文大学等机构提出的新型优化器 Pion。该优化器的核心创新在于,它不再像 AdamW 或 Muon 那样采用加法更新范式,而是直接在参数矩阵的等谱流形上进行优化。Pion 通过正交变换对权重矩阵进行旋转,严格保持其奇异值不变,从而从几何层面抑制了训练过程中谱范数放大、激活值漂移等失稳现象。文章通过大量实验验证了 Pion 的稳定性:在标准预训练中,其 attention logit 和激活范数保持平坦;在移除所有归一化层的压力测试中,Pion 是唯一能稳定收敛的优化器;在 200 层超深层网络中,其 loss 轨迹最为平滑。此外,Pion 还天然兼容 μP 尺度迁移理论,并能在 SFT 和 RLVR 等后训练阶段取得更优的稳定性与泛化性平衡。文章认为,Pion 代表了大模型优化器从追求「更快收敛」向「更稳定、更可控」转变的趋势。
💡 主要观点
- Pion 通过在等谱流形上更新参数,从根本上抑制了训练中的谱结构失控。 传统优化器的加法更新会无约束地改变参数矩阵的奇异值,导致谱范数放大和激活值漂移。Pion 使用正交变换进行旋转,严格保持奇异值不变,使训练动态更加稳定。
💬 文章金句
- Pion 不再直接「拉伸」权重矩阵,而是在特征空间中对其进行旋转。
- Pion 的谱保持更新,不仅稳定了训练过程,也稳定了模型知识本身。
- 大模型优化器的下一阶段,也许不只是更快下降,而是更可控、更结构化、更长期稳定。
- 谱保持优化在一定程度上能够替代架构层面的尺度控制机制,为模型训练提供一种来自优化器本身的稳定性来源。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:19 分钟
字数:4555
标签: Pion, 优化器, 大模型训练, 训练稳定性, 等谱流形