← 回總覽

VLA 模型为何忽视语言?破解指令跟随幻觉,分布外场景泛化新突破

📅 2026-05-13 12:06 新智元 人工智能 2 分鐘 1518 字 評分: 86
VLA模型 视觉捷径 指令跟随 分布外泛化 LangForce
📌 一句话摘要 本文揭示了 VLA 模型在训练中常依赖视觉捷径而忽视语言指令的问题,并提出 LangForce 方法,通过对数似然比损失强化模型对语言的依赖,显著提升其在分布外场景中的泛化能力。 📝 详细摘要 本文由新智元报道,介绍了华中科技大学、哈工大、港科广等机构联合发表的一篇论文。该论文指出,当前视觉-语言-动作(VLA)模型在训练过程中,由于数据集中的视觉线索与动作之间存在确定性映射,模型容易形成「视觉捷径」,即仅依赖视觉信息而忽略语言指令。这种「指令跟随的幻觉」在分布外(OOD)场景中会导致灾难性失败。论文通过三项实验(识别测试、分歧情境、分布外泛化)证实了这一现象,并从信息论角

📌 一句话摘要

本文揭示了 VLA 模型在训练中常依赖视觉捷径而忽视语言指令的问题,并提出 LangForce 方法,通过对数似然比损失强化模型对语言的依赖,显著提升其在分布外场景中的泛化能力。

📝 详细摘要

本文由新智元报道,介绍了华中科技大学、哈工大、港科广等机构联合发表的一篇论文。该论文指出,当前视觉-语言-动作(VLA)模型在训练过程中,由于数据集中的视觉线索与动作之间存在确定性映射,模型容易形成「视觉捷径」,即仅依赖视觉信息而忽略语言指令。这种「指令跟随的幻觉」在分布外(OOD)场景中会导致灾难性失败。论文通过三项实验(识别测试、分歧情境、分布外泛化)证实了这一现象,并从信息论角度将其形式化为条件互信息(CMI)的坍缩。为解决该问题,论文提出了 LangForce 方法,核心是引入对数似然比(LLR)损失,通过双分支架构(仅视觉先验与视觉-语言后验)显式最大化动作提供的信息增益,迫使模型依赖语言指令。实验结果表明,LangForce 在 SimplerEnv、RoboCasa 和 LIBERO 等多个基准测试中均取得了显著提升,尤其是在分布外泛化任务上,平均成功率提升 11.3%。此外,该方法还能有效保留 VLM 的语言核心能力,避免标准 VLA 微调带来的语言能力退化。

💡 主要观点

- VLA 模型存在「视觉捷径」问题,会忽略语言指令。 由于训练数据中视觉与动作存在强关联,模型倾向于仅依赖视觉线索,导致语言指令变得冗余,在分布外场景中泛化能力极差。

LangForce 通过对数似然比损失强化语言依赖。 该方法构建双分支架构,分别建模仅视觉先验和视觉-语言后验,通过最大化两者之间的对数似然比,迫使模型从语言指令中获取动作信息,从而打破视觉捷径。
LangForce 在多项基准测试中显著提升性能。 在 SimplerEnv、RoboCasa 和 LIBERO 等基准上,LangForce 均取得最优或领先结果,尤其在分布外泛化任务上提升显著,同时保留了 VLM 的语言能力。

💬 文章金句

- 当前的 VLA 模型面临一个根本问题:它们经常会形成一种「视觉捷径」,使得其忽略语言指令,而仅仅依赖视觉线索。

  • 在呈现视觉上截然不同的仿真环境的 SimplerEnv 上进行评估时,仅使用视觉的基准方法取得了接近 0%的成功率。
  • LangForce 在分布外泛化能力 (SimplerEnv) 平均成功率达到 66.5%,超越所有对比算法, 且相较于基线 QwenGR00T,实现了 11.3%的绝对提升。
  • LangForce 的一个关键优势在于它能够保留底层视觉-语言模型的原始推理和对话能力。

📊 文章信息

AI 初评:86

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:16 分钟

字数:3901

标签: VLA模型, 视觉捷径, 指令跟随, 分布外泛化, LangForce

阅读完整文章

查看原文 → 發佈: 2026-05-13 12:06:00 收錄: 2026-05-14 00:00:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。