VLA 模型为何忽视语言？破解指令跟随幻觉，分布外场景泛化新突破

📌 一句话摘要

本文揭示了 VLA 模型在训练中常依赖视觉捷径而忽视语言指令的问题，并提出 LangForce 方法，通过对数似然比损失强化模型对语言的依赖，显著提升其在分布外场景中的泛化能力。

📝 详细摘要

本文由新智元报道，介绍了华中科技大学、哈工大、港科广等机构联合发表的一篇论文。该论文指出，当前视觉-语言-动作（VLA）模型在训练过程中，由于数据集中的视觉线索与动作之间存在确定性映射，模型容易形成「视觉捷径」，即仅依赖视觉信息而忽略语言指令。这种「指令跟随的幻觉」在分布外（OOD）场景中会导致灾难性失败。论文通过三项实验（识别测试、分歧情境、分布外泛化）证实了这一现象，并从信息论角度将其形式化为条件互信息（CMI）的坍缩。为解决该问题，论文提出了 LangForce 方法，核心是引入对数似然比（LLR）损失，通过双分支架构（仅视觉先验与视觉-语言后验）显式最大化动作提供的信息增益，迫使模型依赖语言指令。实验结果表明，LangForce 在 SimplerEnv、RoboCasa 和 LIBERO 等多个基准测试中均取得了显著提升，尤其是在分布外泛化任务上，平均成功率提升 11.3%。此外，该方法还能有效保留 VLM 的语言核心能力，避免标准 VLA 微调带来的语言能力退化。

💡 主要观点

- VLA 模型存在「视觉捷径」问题，会忽略语言指令。 由于训练数据中视觉与动作存在强关联，模型倾向于仅依赖视觉线索，导致语言指令变得冗余，在分布外场景中泛化能力极差。

LangForce 通过对数似然比损失强化语言依赖。 该方法构建双分支架构，分别建模仅视觉先验和视觉-语言后验，通过最大化两者之间的对数似然比，迫使模型从语言指令中获取动作信息，从而打破视觉捷径。

LangForce 在多项基准测试中显著提升性能。 在 SimplerEnv、RoboCasa 和 LIBERO 等基准上，LangForce 均取得最优或领先结果，尤其在分布外泛化任务上提升显著，同时保留了 VLM 的语言能力。

💬 文章金句

- 当前的 VLA 模型面临一个根本问题：它们经常会形成一种「视觉捷径」，使得其忽略语言指令，而仅仅依赖视觉线索。

在呈现视觉上截然不同的仿真环境的 SimplerEnv 上进行评估时，仅使用视觉的基准方法取得了接近 0%的成功率。
LangForce 在分布外泛化能力 (SimplerEnv) 平均成功率达到 66.5%，超越所有对比算法，且相较于基线 QwenGR00T，实现了 11.3%的绝对提升。
LangForce 的一个关键优势在于它能够保留底层视觉-语言模型的原始推理和对话能力。

📊 文章信息

AI 初评：86

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3901

标签： VLA模型, 视觉捷径, 指令跟随, 分布外泛化, LangForce

阅读完整文章

VLA 模型为何忽视语言？破解指令跟随幻觉，分布外场景泛化新突破

🤖 問 AI