西湖大学与阿里巴巴达摩院等机构提出 HiF-VLA 框架,通过提取低维 Motion 向量作为动态先验,在联合专家模块中同步完成未来视觉运动预测与高精度动作序列生成,实现机器人「边想边做」的世界动作模型,被 CVPR 2026 接收。
📝 详细摘要
本文介绍了由西湖大学、浙江大学、阿里巴巴达摩院等机构联合提出的 HiF-VLA 框架,旨在解决现有 VLA(视觉-语言-动作)模型在长程任务中缺乏物理世界动态理解、易陷入因果混淆的问题。HiF-VLA 的核心创新在于以运动(Motion)为中心,构建了 Hindsight-Insight-Foresight 双向时空推理框架。它利用视频编解码器将历史帧提取为低维 Motion 向量作为记忆锚点(Hindsight),结合当前指令与观测(Insight)预测未来运动趋势(Foresight),并在一个联合专家模块中强制模型同时预测未来视觉 Motion 和生成动作序列,从而将「想」与「做」深度绑定。实验表明,在 CALVIN 和 LIBERO-LONG 等长程任务评测中,HiF-VLA 的成功率显著超越现有 SOTA 方法。相比传统堆叠多帧图像的方法,它大幅降低了显存占用和推理延迟,且随着历史窗口增长,推理延迟保持恒定,展现了优异的时间可扩展性。该工作已被 CVPR 2026 接收,代码已开源。
💡 主要观点
- HiF-VLA 以 Motion 为中心,替代冗余像素级输入,实现高效时空推理。 通过视频编解码器提取低维 Motion 向量作为动态先验,摒弃了传统堆叠多帧图像带来的静态背景冗余和算力爆炸问题,使模型专注于理解物理运动变化。
💬 文章金句
- HiF-VLA 巧妙提取低维紧凑的 Motion 向量作为动态先验,在一个创新的「联合专家」模块中,同步完成未来视觉运动的预测与高精度动作序列的生成。
- 通过将「预测未来视觉变化(想)」与「规划动作序列(做)」深度绑定,HiF-VLA 实现了真正的 Think-while-acting(边想边做)。
- 从机械的「动作模仿」进化为理解物理规律的「世界动作模型(WAM)」,HiF-VLA 迈出了至关重要的一步。
📊 文章信息
AI 初评:86
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3214
标签: 具身智能, VLA, 世界动作模型, Motion 表征, 长程任务