银河通用发布 1.6B 参数的跨本体世界-动作基础模型 LDA-1B,首次实现异构数据(虚实、人机、有无标签)的统一有效利用,开启具身智能的 GPT-2 时刻。
📝 详细摘要
本文详细介绍了银河通用发布的 LDA-1B 模型,该模型是一个 1.6B 参数的跨本体「隐式世界-动作基础模型」。其核心创新在于提出了 WAM(世界-动作融合)路线,并构建了「银河星数」数据基础设施,首次在业界实现了对虚拟仿真、真实拍摄、人类视频、机器人记录、有无动作标签等各类异构数据的统一有效利用。LDA-1B 在一个扩散模型框架内同时学习策略学习、前向动力学、逆向动力学和视觉预测四大核心能力,打破了纯 VLA 模型和纯世界模型的技术天花板。实验表明,该模型仅需 1 小时的后训练即可实现跨具身本体的自适应,并在长程任务、灵巧操作等场景中性能领先现有模型(如 GR00T-N1.6、π0.5)高达 48%。该工作已登顶机器人顶会 RSS,代码已开源。文章还介绍了其在工厂、家庭等场景的落地潜力,并指出该模型标志着具身智能进入数据驱动的规模化发展阶段。
💡 主要观点
- LDA-1B 首次实现异构数据的统一有效利用,打破数据壁垒。 模型通过「银河星数」数据基础设施,将互联网数据、人类行为数据、仿真数据、真实遥操作数据等五层异构数据统一训练,实现了「吃数据不挑食」,大幅降低数据获取与标注成本。
💬 文章金句
- LDA-1B 首次在数据层面实现虚实共融、人机混合、质量参差、有无动作标签的数据统一有效利用。
- 没有垃圾数据,只有因训练框架被「错付」的数据。把对的数据放到对的训练目标里,每一帧都有价值。
- 它标志着具身智能开始真正进入以数据驱动的规模化发展阶段。
- 模型不仅知道「该怎么做」,更能理解「这么做会改变什么」。
- 从 GPT 大模型的文本智能,到 LDA-1B 的机器人具身智能,统一建模、全量数据驱动的规模化逻辑一脉相承。
📊 文章信息
AI 初评:90
来源:量子位
作者:Jay
分类:人工智能
语言:中文
阅读时间:20 分钟
字数:4811
标签: LDA-1B, 具身智能, 世界模型, VLA, WAM