东南大学耿新团队：模型不是不会做，而是被「挤掉了能力」丨 CVPR 2026

📌 一句话摘要

本文解读了东南大学耿新团队在 CVPR 2026 上发表的论文《Model Merging in the Essential Subspace》，该研究提出了一种名为 ESM 的新方法，通过识别并分离模型内部决定任务性能的「关键子空间」，有效解决了多任务模型融合中因知识冲突导致性能下降的问题。

📝 详细摘要

文章深入解读了东南大学耿新团队关于模型融合的最新研究。该研究指出，传统多任务模型融合失败的核心原因并非参数平均不当，而是不同任务的知识在模型内部的「关键子空间」中发生重叠与冲突，导致能力相互「挤占」。为此，团队提出了 ESM 方法，该方法包含两个核心步骤：一是使用 ESD 分解从输出空间中提取更集中、更高效的任务关键方向，二是通过 Polarized Scaling 策略放大重要信号、抑制噪声。实验表明，ESM 在多任务融合中性能更稳定，损耗率比基线低约 20%，且对数据量依赖极低，仅需少量样本即可提取稳定的任务子空间。这项研究将模型融合的视角从参数操作提升到了知识结构重组，对理解模型内部机制和构建稳定多任务系统具有重要价值。

💡 主要观点

- 多任务融合失败的本质是知识在「关键子空间」中的冲突，而非参数融合不当。 研究揭示，模型的有效能力集中在少数关键参数方向上。当融合多个任务时，这些关键方向会发生重叠和竞争，导致重要知识被「挤掉」，这是性能下降的根本原因。

ESM 方法通过分离关键子空间和重加权信号，实现了多任务能力的稳定共存。 ESM 包含 ESD 和 Polarized Scaling 两步：ESD 从输出空间提取更高效、更集中的任务关键方向并使其正交；Polarized Scaling 则放大强信号、抑制弱噪声，从而在有限参数空间内为不同任务重建清晰的知识边界。

任务子空间是模型内在的低维结构，对数据量极不敏感。 实验表明，仅用 1-4 个无标签样本即可有效估计任务子空间，且使用不同分布的数据结果差异不大。这证明子空间反映的是模型内部已编码的稳定任务响应模式，而非数据统计结果。

该研究将模型融合从经验性参数操作，推进到对知识结构的理解与重组。 ESM 的价值不仅在于提升性能，更在于改变了问题范式。它关注「信息如何分配与共存」，为构建可稳定扩展、不易遗忘旧能力的 AI 系统提供了新的理论基础和实现路径。

💬 文章金句

- 问题不在于模型不会，而在于它原本会的东西，被后来加入的任务‘挤掉了一部分’。

模型的能力并不是一块一块独立放进去的，而是共享同一套内部表示空间。简单理解，就是所有任务都在‘用同一块地方存信息’。
ESM 已经不只是比基线略好一点，而是在明显逼近多任务融合的理想上界。
这说明任务子空间本身是一种低维结构，不需要大量数据去估计，模型内部其实已经编码了稳定的任务响应模式。
这项研究真正重要的地方，不只是把结果做高了一些，而是证明了模型融合可以从经验式参数处理，走向对知识结构的理解与重组。

📊 文章信息

AI 初评：87

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4956

标签：模型融合, 多任务学习, 关键子空间, ESM, CVPR 2026

阅读完整文章

东南大学耿新团队：模型不是不会做，而是被「挤掉了能力」丨 CVPR 2026

🤖 問 AI