← 回總覽

东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨 CVPR 2026

📅 2026-04-18 13:07 AI科技评论 人工智能 2 分鐘 1568 字 評分: 87
模型融合 多任务学习 关键子空间 ESM CVPR 2026
📌 一句话摘要 本文解读了东南大学耿新团队在 CVPR 2026 上发表的论文《Model Merging in the Essential Subspace》,该研究提出了一种名为 ESM 的新方法,通过识别并分离模型内部决定任务性能的「关键子空间」,有效解决了多任务模型融合中因知识冲突导致性能下降的问题。 📝 详细摘要 文章深入解读了东南大学耿新团队关于模型融合的最新研究。该研究指出,传统多任务模型融合失败的核心原因并非参数平均不当,而是不同任务的知识在模型内部的「关键子空间」中发生重叠与冲突,导致能力相互「挤占」。为此,团队提出了 ESM 方法,该方法包含两个核心步骤:一是使用 ES

📌 一句话摘要

本文解读了东南大学耿新团队在 CVPR 2026 上发表的论文《Model Merging in the Essential Subspace》,该研究提出了一种名为 ESM 的新方法,通过识别并分离模型内部决定任务性能的「关键子空间」,有效解决了多任务模型融合中因知识冲突导致性能下降的问题。

📝 详细摘要

文章深入解读了东南大学耿新团队关于模型融合的最新研究。该研究指出,传统多任务模型融合失败的核心原因并非参数平均不当,而是不同任务的知识在模型内部的「关键子空间」中发生重叠与冲突,导致能力相互「挤占」。为此,团队提出了 ESM 方法,该方法包含两个核心步骤:一是使用 ESD 分解从输出空间中提取更集中、更高效的任务关键方向,二是通过 Polarized Scaling 策略放大重要信号、抑制噪声。实验表明,ESM 在多任务融合中性能更稳定,损耗率比基线低约 20%,且对数据量依赖极低,仅需少量样本即可提取稳定的任务子空间。这项研究将模型融合的视角从参数操作提升到了知识结构重组,对理解模型内部机制和构建稳定多任务系统具有重要价值。

💡 主要观点

- 多任务融合失败的本质是知识在「关键子空间」中的冲突,而非参数融合不当。 研究揭示,模型的有效能力集中在少数关键参数方向上。当融合多个任务时,这些关键方向会发生重叠和竞争,导致重要知识被「挤掉」,这是性能下降的根本原因。

ESM 方法通过分离关键子空间和重加权信号,实现了多任务能力的稳定共存。 ESM 包含 ESD 和 Polarized Scaling 两步:ESD 从输出空间提取更高效、更集中的任务关键方向并使其正交;Polarized Scaling 则放大强信号、抑制弱噪声,从而在有限参数空间内为不同任务重建清晰的知识边界。
任务子空间是模型内在的低维结构,对数据量极不敏感。 实验表明,仅用 1-4 个无标签样本即可有效估计任务子空间,且使用不同分布的数据结果差异不大。这证明子空间反映的是模型内部已编码的稳定任务响应模式,而非数据统计结果。
该研究将模型融合从经验性参数操作,推进到对知识结构的理解与重组。 ESM 的价值不仅在于提升性能,更在于改变了问题范式。它关注「信息如何分配与共存」,为构建可稳定扩展、不易遗忘旧能力的 AI 系统提供了新的理论基础和实现路径。

💬 文章金句

- 问题不在于模型不会,而在于它原本会的东西,被后来加入的任务‘挤掉了一部分’。

  • 模型的能力并不是一块一块独立放进去的,而是共享同一套内部表示空间。简单理解,就是所有任务都在‘用同一块地方存信息’。
  • ESM 已经不只是比基线略好一点,而是在明显逼近多任务融合的理想上界。
  • 这说明任务子空间本身是一种低维结构,不需要大量数据去估计,模型内部其实已经编码了稳定的任务响应模式。
  • 这项研究真正重要的地方,不只是把结果做高了一些,而是证明了模型融合可以从经验式参数处理,走向对知识结构的理解与重组。

📊 文章信息

AI 初评:87

来源:AI科技评论

作者:AI科技评论

分类:人工智能

语言:中文

阅读时间:20 分钟

字数:4956

标签: 模型融合, 多任务学习, 关键子空间, ESM, CVPR 2026

阅读完整文章

查看原文 → 發佈: 2026-04-18 13:07:00 收錄: 2026-04-18 20:00:50

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。