统一 VLA 范式！港科大开源 StarVLA 乐高式架构，复现成本大幅降低

📌 一句话摘要

香港科技大学开源了 StarVLA 项目，提出了一套 Backbone-Action Head 的「乐高式」统一架构，旨在解决具身智能 VLA 赛道因架构割裂、管线强耦合和评测标准不一导致的复现成本高、方法难以横向对比的问题。

📝 详细摘要

文章报道了香港科技大学开源的 StarVLA 项目，该项目针对当前具身智能 VLA 研究领域的碎片化困境，提出了一套高度模块化的统一架构。其核心洞察是将 VLM-based 与 World-Model-based 范式视为同一策略框架下不同辅助学习信号的变体，并据此构建了策略中心的统一公式。该架构实现了双向模块化：支持可插拔的 Backbone（如 Qwen3-VL、Cosmos-Predict2）和可插拔的 Action Head（包括自回归、连续回归、流匹配去噪、双系统推理等四种代表性解码器），所有变体共享统一的数据接口、训练循环与评测管线。文章详细介绍了其训练范式（SFT、多目标协同训练、跨形态混合训练）、评测与部署方案（Server-Client 架构），并展示了其在多个主流基准上的性能表现和计算效率，证明了该架构在降低复现成本、促进公平对比和推动社区标准化方面的价值。

💡 主要观点

- StarVLA 通过统一架构解决 VLA 研究碎片化问题。 项目提出 Backbone-Action Head 的乐高式设计，将不同动作解码范式（自回归、连续回归等）和主干网络（VLM、世界模型）统一到同一接口和管线下，消除了跨方法对比的隐性变量干扰。

核心是策略中心的统一公式与双向模块化设计。 将训练目标统一分解为动作监督主损失和可选的辅助损失，从而在理论上统一了 VLM-based 和 WM-based 范式。实践上支持主干和动作头的自由插拔，极大提升了实验的灵活性和可复现性。

提供完整的训练、评测与部署工具链，降低研究门槛。 内置多种训练范式（如协同训练防止灾难性遗忘）、跨形态数据加载器，以及基于 WebSocket 的 Server-Client 评测抽象，实现了从仿真到真实机器人的无缝部署，并集成了七大主流基准。

实验证明架构具有强泛化性和可行性。 在极简配置下，使用公开预训练权重即可达到有竞争力的性能；主干替换几乎不损失性能；跨基准的通用模型训练显著提升了泛化能力，验证了统一管线下 All-in-One 训练的潜力。

💬 文章金句

- StarVLA 没有选择堆砌算力或盲目刷榜，而是从系统抽象层面直击痛点，提出了一套 Backbone-Action Head 的「乐高式」统一架构。

核心洞察在于：VLM-based 与 World-Model-based 并非根本对立的范式，而是同一策略框架下不同辅助学习信号（L_aux）的变体。
所有变体共享同一数据接口、训练循环与评测管线，仅需替换 Backbone 或 Action Head 即可完成范式切换。这彻底消除了跨方法对比时的「隐性变量干扰」。
StarVLA 的价值在于为具身智能社区提供了一套可复现、可对比、可组合的基础设施标准。
它用工程化的克制与理论上的洞察，终结了 VLA 研究的「巴别塔」时代。

📊 文章信息

AI 初评：89

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2735

标签：具身智能, VLA, 开源框架, 模块化架构, 机器人学习

阅读完整文章

统一 VLA 范式！港科大开源 StarVLA 乐高式架构，复现成本大幅降低

🤖 問 AI