马斯克转发 Kimi 论文引起硅谷大讨论，Attention 下一个战场是什么？

📌 一句话摘要

文章深度解析了大模型架构中的“深度诅咒”问题，并对比了 Kimi 的 AttnRes 与字节跳动 MoDA 两种引入“深度维度注意力”来优化残差连接的前沿方案。

📝 详细摘要

本文聚焦于大语言模型架构中长期存在的“深度诅咒”现象：传统的等权残差连接导致深层网络出现严重的特征稀释，甚至有近 44% 的层在做无用功。文章对比分析了 2026 年 3 月密集出现的两项突破性研究：Kimi 团队的 AttnRes 方案直接将残差加法重构为可学习的注意力路由；而字节跳动 Seed 团队的 MoDA 方案则在不改变残差的前提下，为注意力机制引入了跨层的深度维度。这些进展共同预示着注意力机制正从单一的序列维度向深度维度跨越，旨在通过将结构决策权交还给模型，彻底解决深层参数效率低下的顽疾。

💡 主要观点

- 传统残差连接在大模型中引发“深度诅咒”，导致深层网络出现严重的计算空转。 随着模型层数增加，残差流中的背景噪音不断累积，导致深层新信号被稀释。研究显示 32 层模型中可能有近 44% 的层几乎没有学到有效特征。

字节跳动的 MoDA 方案通过引入深度维度注意力，让 token 能直接回看历史层的特征。 MoDA 在序列维度外增加深度维度，利用分组重排策略和可学习路由动态选择相关的历史层 KV，在极低计算开销下显著提升了模型在下游任务中的性能。

Kimi 团队的 AttnRes 方案将固定的残差加法重构为可学习的动态注意力路由。 该方案直接对残差连接“开刀”，用注意力机制决定各历史层特征的权重，使残差连接从死板的固定公式进化为能够根据当前状态自主选择信息的智能组件。

注意力机制的下一个战场在于从序列维度向深度维度的纵向跨越。 过去八年注意力主要优化 token 间的横向联系，未来的突破点在于层与层之间的纵向信息流动，将更多结构性决策权从人类设计者手中交还给模型本身。

💬 文章金句

- 残差连接是深度学习历史上最成功的“临时方案”。

最大的效率黑洞不在注意力的二次方复杂度上，而在一个从 2015 年就没变过的加法操作上。
深度是注意力的下一个战场。
当初搭的脚手架，盖完楼忘了拆，时间一长大家以为它是承重墙。
注意力不该只看水平方向，它也应该看垂直方向。

📊 文章信息

AI 评分：88

来源：腾讯科技

作者：腾讯科技

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4126

标签： Transformer 架构, 残差连接, 深度诅咒, AttnRes, MoDA

阅读完整文章

马斯克转发 Kimi 论文引起硅谷大讨论，Attention 下一个战场是什么？

🤖 問 AI