本文解读了东南大学耿新团队在 CVPR 2026 上发表的论文《Model Merging in the Essential Subspace》,该研究提出了一种名为 ESM 的新方法,通过识别并分离模型内部决定任务性能的「关键子空间」,有效解决了多任务模型融合中因知识冲突导致性能下降的问题。
📝 详细摘要
文章深入解读了东南大学耿新团队关于模型融合的最新研究。该研究指出,传统多任务模型融合失败的核心原因并非参数平均不当,而是不同任务的知识在模型内部的「关键子空间」中发生重叠与冲突,导致能力相互「挤占」。为此,团队提出了 ESM 方法,该方法包含两个核心步骤:一是使用 ESD 分解从输出空间中提取更集中、更高效的任务关键方向,二是通过 Polarized Scaling 策略放大重要信号、抑制噪声。实验表明,ESM 在多任务融合中性能更稳定,损耗率比基线低约 20%,且对数据量依赖极低,仅需少量样本即可提取稳定的任务子空间。这项研究将模型融合的视角从参数操作提升到了知识结构重组,对理解模型内部机制和构建稳定多任务系统具有重要价值。
💡 主要观点
- 多任务融合失败的本质是知识在「关键子空间」中的冲突,而非参数融合不当。 研究揭示,模型的有效能力集中在少数关键参数方向上。当融合多个任务时,这些关键方向会发生重叠和竞争,导致重要知识被「挤掉」,这是性能下降的根本原因。
💬 文章金句
- 问题不在于模型不会,而在于它原本会的东西,被后来加入的任务‘挤掉了一部分’。
- 模型的能力并不是一块一块独立放进去的,而是共享同一套内部表示空间。简单理解,就是所有任务都在‘用同一块地方存信息’。
- ESM 已经不只是比基线略好一点,而是在明显逼近多任务融合的理想上界。
- 这说明任务子空间本身是一种低维结构,不需要大量数据去估计,模型内部其实已经编码了稳定的任务响应模式。
- 这项研究真正重要的地方,不只是把结果做高了一些,而是证明了模型融合可以从经验式参数处理,走向对知识结构的理解与重组。
📊 文章信息
AI 初评:87
来源:AI科技评论
作者:AI科技评论
分类:人工智能
语言:中文
阅读时间:20 分钟
字数:4956
标签: 模型融合, 多任务学习, 关键子空间, ESM, CVPR 2026