香港科技大学开源了 StarVLA 项目,提出了一套 Backbone-Action Head 的「乐高式」统一架构,旨在解决具身智能 VLA 赛道因架构割裂、管线强耦合和评测标准不一导致的复现成本高、方法难以横向对比的问题。
📝 详细摘要
文章报道了香港科技大学开源的 StarVLA 项目,该项目针对当前具身智能 VLA 研究领域的碎片化困境,提出了一套高度模块化的统一架构。其核心洞察是将 VLM-based 与 World-Model-based 范式视为同一策略框架下不同辅助学习信号的变体,并据此构建了策略中心的统一公式。该架构实现了双向模块化:支持可插拔的 Backbone(如 Qwen3-VL、Cosmos-Predict2)和可插拔的 Action Head(包括自回归、连续回归、流匹配去噪、双系统推理等四种代表性解码器),所有变体共享统一的数据接口、训练循环与评测管线。文章详细介绍了其训练范式(SFT、多目标协同训练、跨形态混合训练)、评测与部署方案(Server-Client 架构),并展示了其在多个主流基准上的性能表现和计算效率,证明了该架构在降低复现成本、促进公平对比和推动社区标准化方面的价值。
💡 主要观点
- StarVLA 通过统一架构解决 VLA 研究碎片化问题。 项目提出 Backbone-Action Head 的乐高式设计,将不同动作解码范式(自回归、连续回归等)和主干网络(VLM、世界模型)统一到同一接口和管线下,消除了跨方法对比的隐性变量干扰。
💬 文章金句
- StarVLA 没有选择堆砌算力或盲目刷榜,而是从系统抽象层面直击痛点,提出了一套 Backbone-Action Head 的「乐高式」统一架构。
- 核心洞察在于:VLM-based 与 World-Model-based 并非根本对立的范式,而是同一策略框架下不同辅助学习信号(L_aux)的变体。
- 所有变体共享同一数据接口、训练循环与评测管线,仅需替换 Backbone 或 Action Head 即可完成范式切换。这彻底消除了跨方法对比时的「隐性变量干扰」。
- StarVLA 的价值在于为具身智能社区提供了一套可复现、可对比、可组合的基础设施标准。
- 它用工程化的克制与理论上的洞察,终结了 VLA 研究的「巴别塔」时代。
📊 文章信息
AI 初评:89
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2735
标签: 具身智能, VLA, 开源框架, 模块化架构, 机器人学习