蚂蚁灵波 LingBot-VA 论文被机器人顶会 RSS 2026 接收，让机器人边推演、边行动

📌 一句话摘要

蚂蚁灵波科技与港科大等合作提出的因果世界建模框架 LingBot-VA 被机器人顶会 RSS 2026 接收，该模型让机器人具备边预测环境变化边行动的能力。

📝 详细摘要

蚂蚁灵波科技与香港科技大学等高校合作的论文《Causal World Modeling for Robot Control》被机器人顶会 RSS 2026 接收。论文核心是提出面向机器人控制的因果世界建模框架，并落地为全球首个开源的自回归视频-动作世界模型 LingBot-VA。该模型让机器人不只是完成动作，还能在行动前预测世界变化，具备类似人类边观察、边判断、边行动的能力。技术实现上采用 Mixture-of-Transformers 架构，将视频预测和动作生成统一到自回归扩散框架中，并设计了闭环推演机制减少误差累积。在 RoboTwin 2.0 的 50 个双臂操作任务中，Easy 和 Hard 设置下分别取得 92.0% 和 91.1% 的平均成功率；在 LIBERO 基准上达到 98.5%。真实世界评测中，仅需 50 条真实示范数据即可完成适配，整体成功率较业界基线提升超过 20 个百分点。LingBot-VA 已开源模型权重、训练与推理代码。

💡 主要观点

- LingBot-VA 提出因果世界建模框架，让机器人具备预测环境变化的能力。 模型按真实时间顺序推演，每一步预测只依据此前观察和动作，生成可用于控制决策的因果轨迹，使机器人具备边观察边判断边行动的能力。

采用 Mixture-of-Transformers 架构统一视频预测和动作生成。 将视频预测和动作生成整合到同一个自回归扩散框架中，并设计闭环推演机制，在任务执行中持续接收真实环境反馈，减少长时间预测的误差累积。

在多项基准测试中表现优异，数据效率高。 在 RoboTwin 2.0 双臂操作任务中平均成功率超 91%，LIBERO 基准达 98.5%；真实世界评测仅需 50 条示范数据即可适配，成功率较基线提升超 20 个百分点。

💬 文章金句

- LingBot-VA 的核心突破，正是把这种对未来变化的预测能力引入机器人控制，让机器人先预测世界接下来会变成什么样，再根据预测结果决定应该如何行动。

模型生成的就不仅仅是一段展示未来的视频，而是一条可用于机器人控制决策的因果轨迹。
在真实世界评测中，面对长时序、高精度以及柔性与关节物体操控这三大类 6 项高难度挑战，LingBot-VA 仅需 50 条真实示范数据即可完成适配。

📊 文章信息

AI 初评：88

来源：量子位

作者：量子位的朋友们

分类：人工智能

语言：中文

阅读时间：5 分钟

字数：1218

标签：因果世界建模, LingBot-VA, RSS 2026, 机器人控制, 具身智能

阅读完整文章

蚂蚁灵波 LingBot-VA 论文被机器人顶会 RSS 2026 接收，让机器人边推演、边行动

🤖 問 AI