← 回總覽

统一 VLA 范式!港科大开源 StarVLA 乐高式架构,复现成本大幅降低

📅 2026-04-13 12:04 新智元 人工智能 2 分鐘 1650 字 評分: 89
具身智能 VLA 开源框架 模块化架构 机器人学习
📌 一句话摘要 香港科技大学开源了 StarVLA 项目,提出了一套 Backbone-Action Head 的「乐高式」统一架构,旨在解决具身智能 VLA 赛道因架构割裂、管线强耦合和评测标准不一导致的复现成本高、方法难以横向对比的问题。 📝 详细摘要 文章报道了香港科技大学开源的 StarVLA 项目,该项目针对当前具身智能 VLA 研究领域的碎片化困境,提出了一套高度模块化的统一架构。其核心洞察是将 VLM-based 与 World-Model-based 范式视为同一策略框架下不同辅助学习信号的变体,并据此构建了策略中心的统一公式。该架构实现了双向模块化:支持可插拔的 Back

📌 一句话摘要

香港科技大学开源了 StarVLA 项目,提出了一套 Backbone-Action Head 的「乐高式」统一架构,旨在解决具身智能 VLA 赛道因架构割裂、管线强耦合和评测标准不一导致的复现成本高、方法难以横向对比的问题。

📝 详细摘要

文章报道了香港科技大学开源的 StarVLA 项目,该项目针对当前具身智能 VLA 研究领域的碎片化困境,提出了一套高度模块化的统一架构。其核心洞察是将 VLM-based 与 World-Model-based 范式视为同一策略框架下不同辅助学习信号的变体,并据此构建了策略中心的统一公式。该架构实现了双向模块化:支持可插拔的 Backbone(如 Qwen3-VL、Cosmos-Predict2)和可插拔的 Action Head(包括自回归、连续回归、流匹配去噪、双系统推理等四种代表性解码器),所有变体共享统一的数据接口、训练循环与评测管线。文章详细介绍了其训练范式(SFT、多目标协同训练、跨形态混合训练)、评测与部署方案(Server-Client 架构),并展示了其在多个主流基准上的性能表现和计算效率,证明了该架构在降低复现成本、促进公平对比和推动社区标准化方面的价值。

💡 主要观点

- StarVLA 通过统一架构解决 VLA 研究碎片化问题。 项目提出 Backbone-Action Head 的乐高式设计,将不同动作解码范式(自回归、连续回归等)和主干网络(VLM、世界模型)统一到同一接口和管线下,消除了跨方法对比的隐性变量干扰。

核心是策略中心的统一公式与双向模块化设计。 将训练目标统一分解为动作监督主损失和可选的辅助损失,从而在理论上统一了 VLM-based 和 WM-based 范式。实践上支持主干和动作头的自由插拔,极大提升了实验的灵活性和可复现性。
提供完整的训练、评测与部署工具链,降低研究门槛。 内置多种训练范式(如协同训练防止灾难性遗忘)、跨形态数据加载器,以及基于 WebSocket 的 Server-Client 评测抽象,实现了从仿真到真实机器人的无缝部署,并集成了七大主流基准。
实验证明架构具有强泛化性和可行性。 在极简配置下,使用公开预训练权重即可达到有竞争力的性能;主干替换几乎不损失性能;跨基准的通用模型训练显著提升了泛化能力,验证了统一管线下 All-in-One 训练的潜力。

💬 文章金句

- StarVLA 没有选择堆砌算力或盲目刷榜,而是从系统抽象层面直击痛点,提出了一套 Backbone-Action Head 的「乐高式」统一架构。

  • 核心洞察在于:VLM-based 与 World-Model-based 并非根本对立的范式,而是同一策略框架下不同辅助学习信号(L_aux)的变体。
  • 所有变体共享同一数据接口、训练循环与评测管线,仅需替换 Backbone 或 Action Head 即可完成范式切换。这彻底消除了跨方法对比时的「隐性变量干扰」。
  • StarVLA 的价值在于为具身智能社区提供了一套可复现、可对比、可组合的基础设施标准。
  • 它用工程化的克制与理论上的洞察,终结了 VLA 研究的「巴别塔」时代。

📊 文章信息

AI 初评:89

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2735

标签: 具身智能, VLA, 开源框架, 模块化架构, 机器人学习

阅读完整文章

查看原文 → 發佈: 2026-04-13 12:04:00 收錄: 2026-04-13 18:00:41

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。