前有 DeepSeek，后有 Kimi！马斯克狂赞的中国双子星，炸穿大模型 10 年地基

📌 一句话摘要

本文深入解析了 Kimi（月之暗面）提出的「Attention Residuals」架构创新，探讨其如何通过改进残差连接机制解决深度模型中的信息稀释问题，并对比了其与 DeepSeek mHC 方案的差异及工程落地价值。

📝 详细摘要

文章详细解读了 Kimi 在 NVIDIA GTC 大会上发布的技术突破——Attention Residuals（AttnRes）。作者首先指出了深度学习领域沿用 10 年的标准残差连接（ResNet/Transformer 架构）存在的「PreNorm dilution」问题，即固定权重的累加导致深层语义信息被稀释。AttnRes 通过引入可学习的、依赖输入的注意力机制，实现了对历史层输出的动态聚合，从而提升了模型表达能力。文章进一步分析了工程落地方案「Block AttnRes」，该方案通过分块处理有效控制了计算与通信开销。此外，文章还将此技术创新与 DeepSeek 的 mHC 方案进行了对比，并将其置于 Kimi 近期商业估值飙升的背景下，指出这代表了 AI 行业从单纯追求规模化（Scaling）向重构底层架构规则的范式转移。

💡 主要观点

- 标准残差连接存在「PreNorm dilution」问题。 在深层网络中，固定权重的残差累加导致深层语义信息被历史信息稀释，使得深层网络难以有效保留其独特的特征更新。

Attention Residuals (AttnRes) 引入动态权重机制。 通过用可学习的、依赖输入的注意力权重替代固定的 1，使每一层能够动态选择性地聚合历史层信息，从而优化信息流动。

Block AttnRes 解决了大规模训练的工程落地难题。 通过将层分块处理，将计算复杂度从 O(L^2d) 降至 O(Nd)，在保持性能收益的同时，实现了内存和通信开销的可控。

AI 架构研究正从「Scaling」转向「重构底层规则」。 Kimi 的 AttnRes 与 DeepSeek 的 mHC 均表明，行业正在重新审视并优化深度学习最底层的基础设施，而非仅仅依赖堆叠算力。

💬 文章金句

- 很多普遍使用的技术标准，正成为大模型 Scaling 的瓶颈。

残差连接的问题，不在于它无效，而在于它太死板。它保住了信息，却把所有信息一视同仁地保住了。
既然横向的时间序列上用 Attention 能获得更智能的全局理解，为什么纵向的深度维度就不行呢？
Block AttnRes 达到的 loss，大致相当于基线模型多花 1.25 倍算力才能追上。

📊 文章信息

AI 评分：88

来源：夕小瑶科技说

作者：夕小瑶科技说

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4046

标签： Kimi, Moonshot AI, Attention Residuals, 深度学习架构, Transformer

阅读完整文章

前有 DeepSeek，后有 Kimi！马斯克狂赞的中国双子星，炸穿大模型 10 年地基

🤖 問 AI