本文揭示了 VLA 模型在训练中常依赖视觉捷径而忽视语言指令的问题,并提出 LangForce 方法,通过对数似然比损失强化模型对语言的依赖,显著提升其在分布外场景中的泛化能力。
📝 详细摘要
本文由新智元报道,介绍了华中科技大学、哈工大、港科广等机构联合发表的一篇论文。该论文指出,当前视觉-语言-动作(VLA)模型在训练过程中,由于数据集中的视觉线索与动作之间存在确定性映射,模型容易形成「视觉捷径」,即仅依赖视觉信息而忽略语言指令。这种「指令跟随的幻觉」在分布外(OOD)场景中会导致灾难性失败。论文通过三项实验(识别测试、分歧情境、分布外泛化)证实了这一现象,并从信息论角度将其形式化为条件互信息(CMI)的坍缩。为解决该问题,论文提出了 LangForce 方法,核心是引入对数似然比(LLR)损失,通过双分支架构(仅视觉先验与视觉-语言后验)显式最大化动作提供的信息增益,迫使模型依赖语言指令。实验结果表明,LangForce 在 SimplerEnv、RoboCasa 和 LIBERO 等多个基准测试中均取得了显著提升,尤其是在分布外泛化任务上,平均成功率提升 11.3%。此外,该方法还能有效保留 VLM 的语言核心能力,避免标准 VLA 微调带来的语言能力退化。
💡 主要观点
- VLA 模型存在「视觉捷径」问题,会忽略语言指令。 由于训练数据中视觉与动作存在强关联,模型倾向于仅依赖视觉线索,导致语言指令变得冗余,在分布外场景中泛化能力极差。
💬 文章金句
- 当前的 VLA 模型面临一个根本问题:它们经常会形成一种「视觉捷径」,使得其忽略语言指令,而仅仅依赖视觉线索。
- 在呈现视觉上截然不同的仿真环境的 SimplerEnv 上进行评估时,仅使用视觉的基准方法取得了接近 0%的成功率。
- LangForce 在分布外泛化能力 (SimplerEnv) 平均成功率达到 66.5%,超越所有对比算法, 且相较于基线 QwenGR00T,实现了 11.3%的绝对提升。
- LangForce 的一个关键优势在于它能够保留底层视觉-语言模型的原始推理和对话能力。
📊 文章信息
AI 初评:86
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3901
标签: VLA模型, 视觉捷径, 指令跟随, 分布外泛化, LangForce