深度｜不经后训练照样能打，这家中国公司的开源具身预训练模型如何做到？

📌 一句话摘要

本文深度解析了中国公司自变量机器人开源的具身预训练模型 Wall-OSS-0.5，该模型通过让动作能力直接进入模型主干，实现了不经任务微调即可在真实机器人上进行零样本操作的技术突破。

📝 详细摘要

本文围绕自变量机器人开源的 Wall-OSS-0.5 模型展开深度分析，探讨了具身智能领域一个核心问题：机器人预训练本身能否直接产生可部署的操作能力。文章指出，当前主流 VLA 模型普遍依赖后训练（任务微调），其所谓的「通用性」本质上仍是「更大的任务适配器」。Wall-OSS-0.5 的突破在于其「部署导向」的设计理念，通过将动作监督直接引入模型主干（backbone），使视觉、语言、动作进入统一表征空间，并让动作 token 与视觉变化建立语义绑定。文章详细阐述了该模型在动作 tokenization、flow matching 优化以及大规模协同训练系统方面的技术设计，并展示了其在 17 个真实机器人零样本任务中的表现。文章最后强调了开源策略对推动具身智能行业发展的重要性，认为 Wall-OSS-0.5 提供的不仅是模型权重，更是一套可复现的系统方案。

💡 主要观点

- Wall-OSS-0.5 的核心突破在于实现了「部署导向」的预训练，让模型不经任务微调即可在真实机器人上执行零样本操作。 与当前主流 VLA 模型依赖后训练不同，该模型在预训练阶段就将动作能力融入 backbone，使得模型在部署时无需额外适配即可展现可执行、可迁移的操作能力。

模型通过让动作监督直接进入 backbone，并赋予动作 token 语义，实现了视觉、语言、动作的统一表征。 将动作转化为类似语言 token 的形式，并与视觉变化建立因果绑定，使模型不仅学习动作轨迹，更理解动作对物理世界的影响，从而打破了过去 VLM 主干与动作模块割裂的范式。

该模型在强化动作能力的同时，并未牺牲原有的多模态理解能力，证明了动作学习与多模态理解并非冲突关系。 通过合理的系统级训练优化，模型在提升操作任务成功率的同时，保持了视觉理解和指令跟随能力，甚至反向增强了模型对物理世界的理解。

💬 文章金句

- 一个真正可信的机器人基础模型，至少应该满足三个条件：预训练之后，模型本身就应该直接具备操作能力；动作训练之后，模型原有的 VLM 能力不能崩；预训练必须成为更强的先验。

Wall-OSS-0.5 证明了：预训练本身，就应该是机器人能力。
让动作能力，第一次真正进入 foundation model 的 backbone。
机器人模型的优化目标，开始从「轨迹像不像」，转向「任务能不能完成」。
通用机器人的真正诞生，必然依赖于一个由无数创新企业共同交织、技术平权、高频迭代的开源与协作生态。

📊 文章信息

AI 初评：86

来源：Z Potentials

作者：Z Potentials

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4863

标签：具身智能, VLA, 机器人基础模型, 预训练, 零样本泛化

阅读完整文章

深度｜不经后训练照样能打，这家中国公司的开源具身预训练模型如何做到？

🤖 問 AI