← 回總覽

RSS 2026|蚂蚁灵波提出首个自回归因果世界模型,50 条数据解锁通用机器人操控

📅 2026-06-03 15:30 机器之心 人工智能 2 分鐘 1320 字 評分: 86
具身智能 世界模型 机器人操控 自回归模型 视频生成
📌 一句话摘要 蚂蚁灵波等机构提出 LingBot-VA,一种自回归视频-动作世界模型,通过统一视频动态预测与动作推理,仅需 50 条数据即可解锁通用机器人操控,在多项基准上达到 SOTA。 📝 详细摘要 文章介绍了蚂蚁灵波科技、香港科技大学等机构提出的 LingBot-VA 模型,旨在解决通用机器人控制中的物理推理与长程规划难题。核心创新在于将视频帧预测与动作推理统一在自回归扩散框架下,通过交错式自回归生成、持久历史整合与噪声潜在增强等设计,让模型学会「一边思考一边行动」。实验表明,该模型在真实世界任务(长程、高精度、柔性物体操作)中仅需 50 条演示数据即可达到 SOTA,在 Robo

📌 一句话摘要

蚂蚁灵波等机构提出 LingBot-VA,一种自回归视频-动作世界模型,通过统一视频动态预测与动作推理,仅需 50 条数据即可解锁通用机器人操控,在多项基准上达到 SOTA。

📝 详细摘要

文章介绍了蚂蚁灵波科技、香港科技大学等机构提出的 LingBot-VA 模型,旨在解决通用机器人控制中的物理推理与长程规划难题。核心创新在于将视频帧预测与动作推理统一在自回归扩散框架下,通过交错式自回归生成、持久历史整合与噪声潜在增强等设计,让模型学会「一边思考一边行动」。实验表明,该模型在真实世界任务(长程、高精度、柔性物体操作)中仅需 50 条演示数据即可达到 SOTA,在 RoboTwin 2.0 和 LIBERO 基准上分别取得 91.1% 和 98.5% 的平均成功率。文章详细阐述了模型架构、训练策略与实验结果,并展望了未来方向。

💡 主要观点

- LingBot-VA 通过自回归扩散框架统一视频动态预测与动作推理。 模型不直接学习动作分布,而是先预测视觉世界演变,再基于预测推断动作,将物理因果结构融入控制,实现「思考-行动」循环。

模型采用混合 Transformer 架构,解耦视频与动作流但交错处理。 高容量视频专家预测未来视觉状态,轻量级动作专家推断一致动作,在严格因果掩码下工作,兼顾复杂场景建模与低延迟动作解码。
仅需 50 条真实世界演示数据即可实现通用操控。 通过大规模视频数据学习物理先验,再以少量机器人演示数据微调,展现出极高的样本效率,在长程、高精度和柔性物体任务上均达 SOTA。
噪声潜在增强策略大幅提升推理速度,实现约 2Hz 闭环控制。 利用机器人控制仅需高级语义结构的特点,允许从部分去噪的视频潜在表示中解码动作,提前截断去噪过程,在单张 RTX 5880 Ada GPU 上每次控制步骤仅需约 0.5 秒。

💬 文章金句

- 赋予机器人物理理解和预测能力是通用操作的关键。

  • LingBot-VA 试图将视频帧预测与动作推理统一起来,让机器人通过自回归扩散框架学会「一边思考一边行动」。
  • 移除视频预测模块会导致成功率从 92.93% 断崖式下跌至 48.31%。

📊 文章信息

AI 初评:86

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2597

标签: 具身智能, 世界模型, 机器人操控, 自回归模型, 视频生成

阅读完整文章

查看原文 → 發佈: 2026-06-03 15:30:00 收錄: 2026-06-04 02:00:35

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。