RSS 2026｜蚂蚁灵波提出首个自回归因果世界模型，50 条数据解锁通用机器人操控

📌 一句话摘要

蚂蚁灵波等机构提出 LingBot-VA，一种自回归视频-动作世界模型，通过统一视频动态预测与动作推理，仅需 50 条数据即可解锁通用机器人操控，在多项基准上达到 SOTA。

📝 详细摘要

文章介绍了蚂蚁灵波科技、香港科技大学等机构提出的 LingBot-VA 模型，旨在解决通用机器人控制中的物理推理与长程规划难题。核心创新在于将视频帧预测与动作推理统一在自回归扩散框架下，通过交错式自回归生成、持久历史整合与噪声潜在增强等设计，让模型学会「一边思考一边行动」。实验表明，该模型在真实世界任务（长程、高精度、柔性物体操作）中仅需 50 条演示数据即可达到 SOTA，在 RoboTwin 2.0 和 LIBERO 基准上分别取得 91.1% 和 98.5% 的平均成功率。文章详细阐述了模型架构、训练策略与实验结果，并展望了未来方向。

💡 主要观点

- LingBot-VA 通过自回归扩散框架统一视频动态预测与动作推理。 模型不直接学习动作分布，而是先预测视觉世界演变，再基于预测推断动作，将物理因果结构融入控制，实现「思考-行动」循环。

模型采用混合 Transformer 架构，解耦视频与动作流但交错处理。 高容量视频专家预测未来视觉状态，轻量级动作专家推断一致动作，在严格因果掩码下工作，兼顾复杂场景建模与低延迟动作解码。

仅需 50 条真实世界演示数据即可实现通用操控。 通过大规模视频数据学习物理先验，再以少量机器人演示数据微调，展现出极高的样本效率，在长程、高精度和柔性物体任务上均达 SOTA。

噪声潜在增强策略大幅提升推理速度，实现约 2Hz 闭环控制。 利用机器人控制仅需高级语义结构的特点，允许从部分去噪的视频潜在表示中解码动作，提前截断去噪过程，在单张 RTX 5880 Ada GPU 上每次控制步骤仅需约 0.5 秒。

💬 文章金句

- 赋予机器人物理理解和预测能力是通用操作的关键。

LingBot-VA 试图将视频帧预测与动作推理统一起来，让机器人通过自回归扩散框架学会「一边思考一边行动」。
移除视频预测模块会导致成功率从 92.93% 断崖式下跌至 48.31%。

📊 文章信息

AI 初评：86

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2597

标签：具身智能, 世界模型, 机器人操控, 自回归模型, 视频生成

阅读完整文章

RSS 2026｜蚂蚁灵波提出首个自回归因果世界模型，50 条数据解锁通用机器人操控

🤖 問 AI