月之暗面创始人杨植麟在 GTC 2026 上分享了 Kimi 在 Token 效率、长上下文、智能体集群及 Attention Residuals 架构方面的核心技术创新,旨在通过基础设施级的开源推动 AI 模型能力上限。
📝 详细摘要
本文详细报道了月之暗面(Kimi)创始人杨植麟在 GTC 2026 上的技术演讲。杨植麟并未展示常规产品 Demo,而是深入剖析了 Kimi 在大模型训练与架构层面的三项核心创新:通过 Muon 优化器与 QK-Clipping 提升 Token 效率;利用 Kimi Linear(KDA)架构实现高效长上下文处理;以及通过强化学习训练的智能体集群(Agent Swarms)实现任务编排的泛化。此外,文章还介绍了前沿的“Attention Residuals”架构概念,旨在优化深层信息传递。Kimi 此次不仅开源了模型方法论,更将其定位为“基础设施级”的开源策略,旨在通过优化底层算法与架构,提升开源社区的整体能力上限。
💡 主要观点
- Token 效率不仅关乎成本,更是提升智能上限的关键。 杨植麟提出在数据总量有限的约束下,通过 Muon 二阶优化器和 QK-Clipping 技术提升 Token 效率,能直接拓展模型智能所能达到的极限。
💬 文章金句
- Token 效率不仅关乎效率,它实际上关乎提高智能的上限。
- KDA 引入的 alpha 项是一个对角矩阵,控制每个通道的衰减率。这意味着模型可以同时拥有“慢衰减”通道和“快衰减”通道。
- 人工设计的工作流只能覆盖预见到的场景,而学习出来的编排能力可以泛化到全新的任务类型。
- Attention Residuals 意味着第 L 层通过一个 softmax 注意力机制,对之前所有层的输出进行加权聚合。
📊 文章信息
AI 评分:89
来源:甲子光年
作者:甲子光年
分类:人工智能
语言:中文
阅读时间:28 分钟
字数:6796
标签: Kimi, Moonshot AI, GTC 2026, 大模型架构, Muon优化器