大模型架构的下半场

📌 一句话摘要

本文提出大模型架构已进入以「扩展通信」为核心的下半场，批判了传统残差连接的「累加」范式，并介绍了通过 Flash Depth Attention 和 MoDA 实现层间「选择性检索」的创新方案。

📝 详细摘要

文章由华中科技大学王兴刚团队投稿，系统论述了大模型架构发展的新阶段。作者指出，过去十年模型扩展主要聚焦于参数、数据和序列长度（层内能力），而层间通信机制自 ResNet 以来几乎停滞，仍依赖简单的残差累加（x + F(x)），导致深层网络出现「信息稀释」问题。文章批判了将层间通信视为「累加」的范畴谬误，提出应转向基于内容的「选择性检索」范式，即在深度维度引入注意力机制。团队为此开发了 Flash Depth Attention 以解决工程效率瓶颈，并进一步提出混合深度注意力（MoDA），将序列维度和深度维度的检索统一到一个 softmax 中。实验表明，该方案在主流开源模型上全面提升了性能，标志着大模型架构从「扩展组件」进入「扩展通信」的下半场。

💡 主要观点

- 大模型架构进入下半场，核心从「扩展组件」转向「扩展通信」。 过去十年模型在参数、数据、序列长度上成功扩展，但层间通信机制自 2015 年 ResNet 的残差连接以来未有根本性革新，成为新的瓶颈。

传统残差连接的「累加」范式存在「信息稀释」问题，限制了深度网络的有效性。 深层网络中，原始信号与层层叠加的信息混合，导致靠后的层难以有效访问早期层的特定信息，许多层因此变得「沉默」，实际有效深度不足。

层间通信应从「累加」范式转向「选择性检索」范式，即在深度维度引入注意力机制。 借鉴序列维度注意力成功的经验，让每一层能根据当前内容（Query）直接检索（Key-Value）历史层中的特定信息，而非被动混合所有前序层输出。

Flash Depth Attention 和 MoDA 是实践「深度检索」的高效工程方案。 Flash Depth Attention 通过优化数据布局适配 GPU 硬件，解决了深度注意力计算效率低下的问题。MoDA 进一步将序列注意力和深度注意力融合到一个统一的 softmax 操作中，实现了高效的双维度信息聚合。

💬 文章金句

- 研究者们花了十年去扩展层内的计算能力，却忘了扩展层间的通信能力。

深度在数量上增长了，但在质量上却没有。层与层之间的通信机制几乎没有变化。
这就是范畴谬误：把层间通信当作累加（用学习到的或生成的系数来组合信号）而非检索（通过基于内容的匹配来选择信息）。
大模型架构的上半场是关于扩展组件的。下半场是关于扩展通信的。
深度残差的‘+’带我们跑过了一段极为精彩的旅程，但现在，是时候升级这座阶梯了。

📊 文章信息

AI 初评：92

来源：量子位

作者：衡宇

分类：人工智能

语言：中文

阅读时间：22 分钟

字数：5339

标签：大模型架构, Transformer, 深度注意力, 残差连接, 神经网络

阅读完整文章

大模型架构的下半场

🤖 問 AI