中国 AI 创业者重登 GTC 舞台：杨植麟用技术语言讲了一个智能上限突破的浪漫故事｜甲子光年

📌 一句话摘要

月之暗面创始人杨植麟在 GTC 2026 上分享了 Kimi 在 Token 效率、长上下文、智能体集群及 Attention Residuals 架构方面的核心技术创新，旨在通过基础设施级的开源推动 AI 模型能力上限。

📝 详细摘要

本文详细报道了月之暗面（Kimi）创始人杨植麟在 GTC 2026 上的技术演讲。杨植麟并未展示常规产品 Demo，而是深入剖析了 Kimi 在大模型训练与架构层面的三项核心创新：通过 Muon 优化器与 QK-Clipping 提升 Token 效率；利用 Kimi Linear（KDA）架构实现高效长上下文处理；以及通过强化学习训练的智能体集群（Agent Swarms）实现任务编排的泛化。此外，文章还介绍了前沿的“Attention Residuals”架构概念，旨在优化深层信息传递。Kimi 此次不仅开源了模型方法论，更将其定位为“基础设施级”的开源策略，旨在通过优化底层算法与架构，提升开源社区的整体能力上限。

💡 主要观点

- Token 效率不仅关乎成本，更是提升智能上限的关键。 杨植麟提出在数据总量有限的约束下，通过 Muon 二阶优化器和 QK-Clipping 技术提升 Token 效率，能直接拓展模型智能所能达到的极限。

Kimi Linear 架构通过多层次记忆结构优化长上下文处理。 引入 KDA（Kimi Delta Attention）机制，通过对角矩阵控制通道衰减率，实现了类似人脑长短期记忆的机制，在长上下文任务中表现优于全注意力模型。

智能体集群通过强化学习实现任务编排的泛化。 不同于人工设计的工作流，Kimi 的智能体群通过强化学习训练，模型能自主学会任务分解、子智能体生成与结果聚合，具备更强的任务泛化能力。

Attention Residuals 架构优化了深层信息传递。 受“Attention 旋转 90 度”启发，该架构允许模型根据计算需求，选择性地回溯并聚合之前各层的输出，而非机械累加，提升了计算效率。

💬 文章金句

- Token 效率不仅关乎效率，它实际上关乎提高智能的上限。

KDA 引入的 alpha 项是一个对角矩阵，控制每个通道的衰减率。这意味着模型可以同时拥有“慢衰减”通道和“快衰减”通道。
人工设计的工作流只能覆盖预见到的场景，而学习出来的编排能力可以泛化到全新的任务类型。
Attention Residuals 意味着第 L 层通过一个 softmax 注意力机制，对之前所有层的输出进行加权聚合。

📊 文章信息

AI 评分：89

来源：甲子光年

作者：甲子光年

分类：人工智能

语言：中文

阅读时间：28 分钟

字数：6796

标签： Kimi, Moonshot AI, GTC 2026, 大模型架构, Muon优化器

阅读完整文章

中国 AI 创业者重登 GTC 舞台：杨植麟用技术语言讲了一个智能上限突破的浪漫故事｜甲子光年

🤖 問 AI