← 回總覽

让大模型多模态检索全面超越 SOTA!ReCALL 框架化解生成式与判别式的范式冲突|CVPR’26

📅 2026-04-06 23:30 听雨 人工智能 1 分鐘 1115 字 評分: 91
多模态大模型 图像检索 CIR ReCALL CVPR 2026
📌 一句话摘要 ReCALL 框架通过「诊断-生成-校准」闭环体系,解决了多模态大模型在检索任务中的范式冲突与能力退化问题,在 CIRR 等基准测试中刷新 SOTA。 📝 详细摘要 本文介绍了由紫东太初团队与新加坡国立大学联合提出的 ReCALL 框架,旨在解决多模态大模型(MLLM)在执行组合图像检索(CIR)任务时,因生成式与判别式范式冲突导致的能力退化问题。研究指出,将生成式大模型强行压缩为判别式检索器会丢失其原生的细粒度推理天赋。ReCALL 框架通过四个阶段实现能力修复:首先进行基础检索适配;随后通过自我诊断识别检索错题;接着利用链式思考(CoT)和最小编辑原则生成高保真的纠错指

📌 一句话摘要

ReCALL 框架通过「诊断-生成-校准」闭环体系,解决了多模态大模型在检索任务中的范式冲突与能力退化问题,在 CIRR 等基准测试中刷新 SOTA。

📝 详细摘要

本文介绍了由紫东太初团队与新加坡国立大学联合提出的 ReCALL 框架,旨在解决多模态大模型(MLLM)在执行组合图像检索(CIR)任务时,因生成式与判别式范式冲突导致的能力退化问题。研究指出,将生成式大模型强行压缩为判别式检索器会丢失其原生的细粒度推理天赋。ReCALL 框架通过四个阶段实现能力修复:首先进行基础检索适配;随后通过自我诊断识别检索错题;接着利用链式思考(CoT)和最小编辑原则生成高保真的纠错指令;最后通过分组对比学习将推理能力内化。该成果已被 CVPR 2026 录用,在 CIRR 和 FashionIQ 数据集上均取得了领先的性能表现。

💡 主要观点

- 揭示了 MLLM 在检索任务中的范式冲突痛点。 生成式模型擅长细粒度的链式思考,但传统检索适配将其高维思考暴力压缩为单一向量,导致模型在处理细粒度视觉关系时出现严重的「智能倒退」。

提出「诊断-生成-校准」的闭环纠错机制。 通过识别检索器无法区分的负样本,利用大模型原生的推理信号生成「最小编辑」纠错指令,为检索模型提供高密度的细粒度图文对齐监督信号。
实现了多模态大模型下游任务的能力无损适配。 ReCALL 不仅刷新了 CIRR 和 FashionIQ 的 SOTA 纪录,更证明了通过内化原生推理能力而非单纯堆砌数据,可以实现大模型在垂直领域的更优落地。

💬 文章金句

- 生成式与判别式的范式冲突,成为大模型向检索领域落地的核心壁垒。

  • 模型不仅没有学到新东西,反而把原本自带的推理天赋给弄丢了!
  • 用大模型原生的推理信号,来纠正检索空间中的盲区。
  • 大模型做检索,不应只是粗暴地将高维的「生成式智慧」压缩降维成单一的「判别式向量」。

📊 文章信息

AI 评分:91

来源:量子位

作者:听雨

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2695

标签: 多模态大模型, 图像检索, CIR, ReCALL, CVPR 2026

阅读完整文章

查看原文 → 發佈: 2026-04-06 23:30:59 收錄: 2026-04-07 02:00:42

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。