浙江大学团队提出 VL-Calibration 框架,通过强化学习将多模态大模型的置信度解耦为视觉置信度和推理置信度,有效解决了模型“盲目自信”的问题,并被 ACL 2026 接收。
📝 详细摘要
本文介绍了浙江大学研究团队提出的 VL-Calibration 框架,旨在解决大型视觉语言模型(LVLMs)在多模态推理中“非常自信地胡说八道”的问题。传统方法仅输出单一全局置信度,无法区分错误源于视觉感知错误(看错)还是逻辑推理错误(想错)。VL-Calibration 通过强化学习,在生成过程中显式解耦置信度为“视觉置信度”和“推理置信度”,并采用调和平均数进行保守融合。框架包含三大核心机制:视觉与推理的显式解耦、基于模型内在分布的无监督视觉确定性估计(通过随机掩码扰动和 Token 熵)、以及细粒度的 Token 级优势重加权。实验表明,在 Qwen3-VL-4B 模型上,该方法将期望校准误差(ECE)从 0.421 降至 0.098,同时平均准确率逆势提升 2.3%-3.0%,打破了校准与准确率不可兼得的传统认知。
💡 主要观点
- 多模态大模型的错误来源是复合的,单一置信度评分无法区分“看错”和“想错”。 模型可能因视觉感知错误或逻辑推理错误导致失败,但传统方法只输出一个全局分数,掩盖了错误的根本原因,阻碍了精准定位和优化。
💬 文章金句
- 长期以来,大型视觉语言模型(LVLMs)在多模态理解与推理任务中展现了惊人的能力,但它们也面临着一个致命的弱点:经常'非常自信地胡说八道'。
- 对于视觉语言模型而言,一个错误的预测可能源于两种截然不同的失败:第一种是'看错',即视觉感知出现了幻觉或遗漏;第二种是'想错',即虽然看对了图片,但后续的逻辑推理出现了谬误。
- 置信度不应该只是一个事后输出的概率数字,它应该真实反映模型内部的感知状态与推理逻辑的解耦过程。
📊 文章信息
AI 初评:86
来源:青稞AI
作者:青稞AI
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4109
标签: 多模态大模型, 置信度校准, 强化学习, 视觉语言模型, ACL 2026