ReCALL 框架通过「诊断-生成-校准」闭环体系,解决了多模态大模型在检索任务中的范式冲突与能力退化问题,在 CIRR 等基准测试中刷新 SOTA。
📝 详细摘要
本文介绍了由紫东太初团队与新加坡国立大学联合提出的 ReCALL 框架,旨在解决多模态大模型(MLLM)在执行组合图像检索(CIR)任务时,因生成式与判别式范式冲突导致的能力退化问题。研究指出,将生成式大模型强行压缩为判别式检索器会丢失其原生的细粒度推理天赋。ReCALL 框架通过四个阶段实现能力修复:首先进行基础检索适配;随后通过自我诊断识别检索错题;接着利用链式思考(CoT)和最小编辑原则生成高保真的纠错指令;最后通过分组对比学习将推理能力内化。该成果已被 CVPR 2026 录用,在 CIRR 和 FashionIQ 数据集上均取得了领先的性能表现。
💡 主要观点
- 揭示了 MLLM 在检索任务中的范式冲突痛点。 生成式模型擅长细粒度的链式思考,但传统检索适配将其高维思考暴力压缩为单一向量,导致模型在处理细粒度视觉关系时出现严重的「智能倒退」。
💬 文章金句
- 生成式与判别式的范式冲突,成为大模型向检索领域落地的核心壁垒。
- 模型不仅没有学到新东西,反而把原本自带的推理天赋给弄丢了!
- 用大模型原生的推理信号,来纠正检索空间中的盲区。
- 大模型做检索,不应只是粗暴地将高维的「生成式智慧」压缩降维成单一的「判别式向量」。
📊 文章信息
AI 评分:91
来源:量子位
作者:听雨
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2695
标签: 多模态大模型, 图像检索, CIR, ReCALL, CVPR 2026