← 回總覽

AdamW 和 Muon 的失稳根源有解了,港中文新优化器 Pion:在等谱流形上更新大模型

📅 2026-05-30 10:30 机器之心 人工智能 2 分鐘 1514 字 評分: 88
Pion 优化器 大模型训练 训练稳定性 等谱流形
📌 一句话摘要 香港中文大学等机构提出 Pion 优化器,通过在等谱流形上更新参数,从根源上解决大模型训练中的谱结构失控和稳定性问题。 📝 详细摘要 本文介绍了由香港中文大学等机构提出的新型优化器 Pion。该优化器的核心创新在于,它不再像 AdamW 或 Muon 那样采用加法更新范式,而是直接在参数矩阵的等谱流形上进行优化。Pion 通过正交变换对权重矩阵进行旋转,严格保持其奇异值不变,从而从几何层面抑制了训练过程中谱范数放大、激活值漂移等失稳现象。文章通过大量实验验证了 Pion 的稳定性:在标准预训练中,其 attention logit 和激活范数保持平坦;在移除所有归一化层的压

📌 一句话摘要

香港中文大学等机构提出 Pion 优化器,通过在等谱流形上更新参数,从根源上解决大模型训练中的谱结构失控和稳定性问题。

📝 详细摘要

本文介绍了由香港中文大学等机构提出的新型优化器 Pion。该优化器的核心创新在于,它不再像 AdamW 或 Muon 那样采用加法更新范式,而是直接在参数矩阵的等谱流形上进行优化。Pion 通过正交变换对权重矩阵进行旋转,严格保持其奇异值不变,从而从几何层面抑制了训练过程中谱范数放大、激活值漂移等失稳现象。文章通过大量实验验证了 Pion 的稳定性:在标准预训练中,其 attention logit 和激活范数保持平坦;在移除所有归一化层的压力测试中,Pion 是唯一能稳定收敛的优化器;在 200 层超深层网络中,其 loss 轨迹最为平滑。此外,Pion 还天然兼容 μP 尺度迁移理论,并能在 SFT 和 RLVR 等后训练阶段取得更优的稳定性与泛化性平衡。文章认为,Pion 代表了大模型优化器从追求「更快收敛」向「更稳定、更可控」转变的趋势。

💡 主要观点

- Pion 通过在等谱流形上更新参数,从根本上抑制了训练中的谱结构失控。 传统优化器的加法更新会无约束地改变参数矩阵的奇异值,导致谱范数放大和激活值漂移。Pion 使用正交变换进行旋转,严格保持奇异值不变,使训练动态更加稳定。

Pion 在极端压力测试下展现出远超 AdamW 和 Muon 的稳定性。 在移除所有归一化层的 60M 模型训练中,AdamW 和 Muon 均因梯度爆炸而崩溃,而 Pion 能稳定收敛。在 200 层超深层网络中,Pion 的 loss 轨迹也最为平滑。
Pion 天然兼容 μP 尺度迁移理论,可实现超参数跨模型规模迁移。 由于 Pion 保持权重谱结构稳定,它天然满足 μP 对权重矩阵谱范数的尺度规律。通过额外设计,Pion 的学习率可以在不同宽度的模型间直接迁移。
Pion 在 SFT 和 RLVR 等后训练阶段也表现出更好的稳定性与泛化性平衡。 在 SFT 中,Pion 能更好地平衡新任务学习与旧能力保留;在 RLVR 中,Pion 收敛更快、训练更稳定,表明谱保持是一种适合强化学习的优化归纳偏置。

💬 文章金句

- Pion 不再直接「拉伸」权重矩阵,而是在特征空间中对其进行旋转。

  • Pion 的谱保持更新,不仅稳定了训练过程,也稳定了模型知识本身。
  • 大模型优化器的下一阶段,也许不只是更快下降,而是更可控、更结构化、更长期稳定。
  • 谱保持优化在一定程度上能够替代架构层面的尺度控制机制,为模型训练提供一种来自优化器本身的稳定性来源。

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:19 分钟

字数:4555

标签: Pion, 优化器, 大模型训练, 训练稳定性, 等谱流形

阅读完整文章

查看原文 → 發佈: 2026-05-30 10:30:00 收錄: 2026-05-30 20:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。