重构线性视觉 Transformer，精度与效率双平衡

📌 一句话摘要

南洋理工大学等机构提出 CARE Transformer，通过非对称特征解耦与双交互机制，在降低线性注意力计算开销的同时，显著提升了移动端视觉 Transformer 的精度与效率，在 iPhone 和 iPad 上实现了超低延迟下的高精度表现。

📝 详细摘要

本文报道了南洋理工大学、北京航空航天大学与合肥工业大学联合提出的 CARE Transformer，旨在解决移动端视觉 Transformer 在效率与精度之间难以平衡的核心瓶颈。传统方案往往通过牺牲全局建模能力来降低计算复杂度，或采用串行堆叠架构导致效率低下。CARE Transformer 的核心创新在于：1）提出非对称特征解耦策略，将输入特征在通道维度拆分，分别由线性注意力模块和深度卷积模块并行处理局部细节与全局依赖，有效降低了计算开销；2）设计动态记忆单元与双交互模块，促进局部与全局特征、以及跨层级特征之间的深度信息融合，增强了模型表达能力。实验表明，该模型在 ImageNet-1K 等基准数据集上表现优异，在 iPhone 13 和 iPad Pro 上实现了毫秒级延迟下的高精度，为端侧 AI 部署提供了新的高效范式。

💡 主要观点

- 通过非对称特征解耦，并行处理局部细节与全局依赖，从根本上优化了移动端视觉 Transformer 的设计逻辑。 将输入特征在通道维度进行非对称拆分，分别送入线性注意力模块（建模长程依赖）和局部偏置学习模块（如深度卷积），避免了传统串行架构的计算瓶颈，并降低了线性注意力的二次计算开销。

引入动态记忆单元与双交互模块，实现了特征间的深度互补与跨层级信息复用，提升了模型表达能力。 动态记忆单元保留网络关键特征，双交互模块分两步完成局部-全局特征交互以及当前层与记忆单元的特征融合，在不显著增加计算量的前提下，充分释放了解耦特征的协同价值。

在真实移动设备上实现了精度与延迟的优异平衡，打破了“效率与精度不可兼得”的困局。 实验证明，CARE Transformer 在 iPhone 13 和 iPad Pro 上以毫秒级延迟达到了高分类精度（如 ImageNet-1K 上 82.1% Top-1），为端侧视觉 AI 落地提供了切实可行的新方案。

💬 文章金句

- 当前主流的移动端高效视觉 Transformer 方案，仍面临两大无法回避的技术痛点：一是现有方案大多通过局部注意力限制感受野来降低复杂度，直接牺牲了 Transformer 核心的长距离建模能力；二是主流线性注意力优化方案采用局部增强与全局注意力堆叠的串行架构，融合方式僵化、计算效率低下。

CARE Transformer 的核心突破集中在两大核心维度，重构了线性视觉 Transformer 的设计逻辑，从底层解决了当前视觉 Transformer 的核心痛点。
CARE Transformer 表明，移动端视觉模型未必必须在「全局建模能力」和「部署效率」之间做出艰难取舍。只要更合理地组织局部信息、全局依赖以及跨层特征的协同关系，线性注意力依然有机会在真实端侧场景中释放出强大的应用潜力。

📊 文章信息

AI 初评：88

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2365

标签：视觉 Transformer, 线性注意力, 移动端 AI, 模型优化, 计算机视觉

阅读完整文章

重构线性视觉 Transformer，精度与效率双平衡 | CVPR'25

🤖 問 AI