蚂蚁灵波等机构提出 LingBot-VA,一种自回归视频-动作世界模型,通过统一视频动态预测与动作推理,仅需 50 条数据即可解锁通用机器人操控,在多项基准上达到 SOTA。
📝 详细摘要
文章介绍了蚂蚁灵波科技、香港科技大学等机构提出的 LingBot-VA 模型,旨在解决通用机器人控制中的物理推理与长程规划难题。核心创新在于将视频帧预测与动作推理统一在自回归扩散框架下,通过交错式自回归生成、持久历史整合与噪声潜在增强等设计,让模型学会「一边思考一边行动」。实验表明,该模型在真实世界任务(长程、高精度、柔性物体操作)中仅需 50 条演示数据即可达到 SOTA,在 RoboTwin 2.0 和 LIBERO 基准上分别取得 91.1% 和 98.5% 的平均成功率。文章详细阐述了模型架构、训练策略与实验结果,并展望了未来方向。
💡 主要观点
- LingBot-VA 通过自回归扩散框架统一视频动态预测与动作推理。 模型不直接学习动作分布,而是先预测视觉世界演变,再基于预测推断动作,将物理因果结构融入控制,实现「思考-行动」循环。
💬 文章金句
- 赋予机器人物理理解和预测能力是通用操作的关键。
- LingBot-VA 试图将视频帧预测与动作推理统一起来,让机器人通过自回归扩散框架学会「一边思考一边行动」。
- 移除视频预测模块会导致成功率从 92.93% 断崖式下跌至 48.31%。
📊 文章信息
AI 初评:86
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2597
标签: 具身智能, 世界模型, 机器人操控, 自回归模型, 视频生成