本文提出大模型架构已进入以「扩展通信」为核心的下半场,批判了传统残差连接的「累加」范式,并介绍了通过 Flash Depth Attention 和 MoDA 实现层间「选择性检索」的创新方案。
📝 详细摘要
文章由华中科技大学王兴刚团队投稿,系统论述了大模型架构发展的新阶段。作者指出,过去十年模型扩展主要聚焦于参数、数据和序列长度(层内能力),而层间通信机制自 ResNet 以来几乎停滞,仍依赖简单的残差累加(x + F(x)),导致深层网络出现「信息稀释」问题。文章批判了将层间通信视为「累加」的范畴谬误,提出应转向基于内容的「选择性检索」范式,即在深度维度引入注意力机制。团队为此开发了 Flash Depth Attention 以解决工程效率瓶颈,并进一步提出混合深度注意力(MoDA),将序列维度和深度维度的检索统一到一个 softmax 中。实验表明,该方案在主流开源模型上全面提升了性能,标志着大模型架构从「扩展组件」进入「扩展通信」的下半场。
💡 主要观点
- 大模型架构进入下半场,核心从「扩展组件」转向「扩展通信」。 过去十年模型在参数、数据、序列长度上成功扩展,但层间通信机制自 2015 年 ResNet 的残差连接以来未有根本性革新,成为新的瓶颈。
💬 文章金句
- 研究者们花了十年去扩展层内的计算能力,却忘了扩展层间的通信能力。
- 深度在数量上增长了,但在质量上却没有。层与层之间的通信机制几乎没有变化。
- 这就是范畴谬误:把层间通信当作累加(用学习到的或生成的系数来组合信号)而非检索(通过基于内容的匹配来选择信息)。
- 大模型架构的上半场是关于扩展组件的。下半场是关于扩展通信的。
- 深度残差的‘+’带我们跑过了一段极为精彩的旅程,但现在,是时候升级这座阶梯了。
📊 文章信息
AI 初评:92
来源:量子位
作者:衡宇
分类:人工智能
语言:中文
阅读时间:22 分钟
字数:5339
标签: 大模型架构, Transformer, 深度注意力, 残差连接, 神经网络