蚂蚁灵波科技与港科大等合作提出的因果世界建模框架 LingBot-VA 被机器人顶会 RSS 2026 接收,该模型让机器人具备边预测环境变化边行动的能力。
📝 详细摘要
蚂蚁灵波科技与香港科技大学等高校合作的论文《Causal World Modeling for Robot Control》被机器人顶会 RSS 2026 接收。论文核心是提出面向机器人控制的因果世界建模框架,并落地为全球首个开源的自回归视频-动作世界模型 LingBot-VA。该模型让机器人不只是完成动作,还能在行动前预测世界变化,具备类似人类边观察、边判断、边行动的能力。技术实现上采用 Mixture-of-Transformers 架构,将视频预测和动作生成统一到自回归扩散框架中,并设计了闭环推演机制减少误差累积。在 RoboTwin 2.0 的 50 个双臂操作任务中,Easy 和 Hard 设置下分别取得 92.0% 和 91.1% 的平均成功率;在 LIBERO 基准上达到 98.5%。真实世界评测中,仅需 50 条真实示范数据即可完成适配,整体成功率较业界基线提升超过 20 个百分点。LingBot-VA 已开源模型权重、训练与推理代码。
💡 主要观点
- LingBot-VA 提出因果世界建模框架,让机器人具备预测环境变化的能力。 模型按真实时间顺序推演,每一步预测只依据此前观察和动作,生成可用于控制决策的因果轨迹,使机器人具备边观察边判断边行动的能力。
💬 文章金句
- LingBot-VA 的核心突破,正是把这种对未来变化的预测能力引入机器人控制,让机器人先预测世界接下来会变成什么样,再根据预测结果决定应该如何行动。
- 模型生成的就不仅仅是一段展示未来的视频,而是一条可用于机器人控制决策的因果轨迹。
- 在真实世界评测中,面对长时序、高精度以及柔性与关节物体操控这三大类 6 项高难度挑战,LingBot-VA 仅需 50 条真实示范数据即可完成适配。
📊 文章信息
AI 初评:88
来源:量子位
作者:量子位的朋友们
分类:人工智能
语言:中文
阅读时间:5 分钟
字数:1218
标签: 因果世界建模, LingBot-VA, RSS 2026, 机器人控制, 具身智能