银河通用 LDA 定义全域数据利用范式，跨本体世界动作大模型开启具身 GPT-2 时刻

📌 一句话摘要

银河通用发布 1.6B 参数的跨本体世界-动作基础模型 LDA-1B，首次实现异构数据（虚实、人机、有无标签）的统一有效利用，开启具身智能的 GPT-2 时刻。

📝 详细摘要

本文详细介绍了银河通用发布的 LDA-1B 模型，该模型是一个 1.6B 参数的跨本体「隐式世界-动作基础模型」。其核心创新在于提出了 WAM（世界-动作融合）路线，并构建了「银河星数」数据基础设施，首次在业界实现了对虚拟仿真、真实拍摄、人类视频、机器人记录、有无动作标签等各类异构数据的统一有效利用。LDA-1B 在一个扩散模型框架内同时学习策略学习、前向动力学、逆向动力学和视觉预测四大核心能力，打破了纯 VLA 模型和纯世界模型的技术天花板。实验表明，该模型仅需 1 小时的后训练即可实现跨具身本体的自适应，并在长程任务、灵巧操作等场景中性能领先现有模型（如 GR00T-N1.6、π0.5）高达 48%。该工作已登顶机器人顶会 RSS，代码已开源。文章还介绍了其在工厂、家庭等场景的落地潜力，并指出该模型标志着具身智能进入数据驱动的规模化发展阶段。

💡 主要观点

- LDA-1B 首次实现异构数据的统一有效利用，打破数据壁垒。 模型通过「银河星数」数据基础设施，将互联网数据、人类行为数据、仿真数据、真实遥操作数据等五层异构数据统一训练，实现了「吃数据不挑食」，大幅降低数据获取与标注成本。

LDA-1B 采用 WAM 世界-动作融合路线，在一个模型中融合 VLA 与世界模型能力。 不同于纯 VLA 或纯世界模型，LDA-1B 在单一扩散模型框架内同时学习策略、前向动力学、逆向动力学和视觉预测，构建了「感知-决策-交互-反馈」的完整闭环。

LDA-1B 展现出清晰的规模化特征，性能随数据量增加持续提升。 实验表明，即使加入无动作标注的人类视频，模型性能依然能持续提升，突破了传统行为克隆方法对高质量专家数据的依赖，复刻了大模型的 Scaling 逻辑。

LDA-1B 具备强大的跨本体泛化能力，仅需 1 小时后训练即可适配新机器人。 模型在未在预训练数据集中出现过的机器人本体（如 Galbot G1、Unitree G1）上，通过少量后训练即可实现高效自适应，展现了通用化能力。

💬 文章金句

- LDA-1B 首次在数据层面实现虚实共融、人机混合、质量参差、有无动作标签的数据统一有效利用。

没有垃圾数据，只有因训练框架被「错付」的数据。把对的数据放到对的训练目标里，每一帧都有价值。
它标志着具身智能开始真正进入以数据驱动的规模化发展阶段。
模型不仅知道「该怎么做」，更能理解「这么做会改变什么」。
从 GPT 大模型的文本智能，到 LDA-1B 的机器人具身智能，统一建模、全量数据驱动的规模化逻辑一脉相承。

📊 文章信息

AI 初评：90

来源：量子位

作者：Jay

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4811

标签： LDA-1B, 具身智能, 世界模型, VLA, WAM

阅读完整文章

银河通用 LDA 定义全域数据利用范式，跨本体世界动作大模型开启具身 GPT-2 时刻

🤖 問 AI