← 回總覽

银河通用 LDA 定义全域数据利用范式,跨本体世界动作大模型开启具身 GPT-2 时刻

📅 2026-04-29 10:23 Jay 人工智能 2 分鐘 1572 字 評分: 90
LDA-1B 具身智能 世界模型 VLA WAM
📌 一句话摘要 银河通用发布 1.6B 参数的跨本体世界-动作基础模型 LDA-1B,首次实现异构数据(虚实、人机、有无标签)的统一有效利用,开启具身智能的 GPT-2 时刻。 📝 详细摘要 本文详细介绍了银河通用发布的 LDA-1B 模型,该模型是一个 1.6B 参数的跨本体「隐式世界-动作基础模型」。其核心创新在于提出了 WAM(世界-动作融合)路线,并构建了「银河星数」数据基础设施,首次在业界实现了对虚拟仿真、真实拍摄、人类视频、机器人记录、有无动作标签等各类异构数据的统一有效利用。LDA-1B 在一个扩散模型框架内同时学习策略学习、前向动力学、逆向动力学和视觉预测四大核心能力,打破

📌 一句话摘要

银河通用发布 1.6B 参数的跨本体世界-动作基础模型 LDA-1B,首次实现异构数据(虚实、人机、有无标签)的统一有效利用,开启具身智能的 GPT-2 时刻。

📝 详细摘要

本文详细介绍了银河通用发布的 LDA-1B 模型,该模型是一个 1.6B 参数的跨本体「隐式世界-动作基础模型」。其核心创新在于提出了 WAM(世界-动作融合)路线,并构建了「银河星数」数据基础设施,首次在业界实现了对虚拟仿真、真实拍摄、人类视频、机器人记录、有无动作标签等各类异构数据的统一有效利用。LDA-1B 在一个扩散模型框架内同时学习策略学习、前向动力学、逆向动力学和视觉预测四大核心能力,打破了纯 VLA 模型和纯世界模型的技术天花板。实验表明,该模型仅需 1 小时的后训练即可实现跨具身本体的自适应,并在长程任务、灵巧操作等场景中性能领先现有模型(如 GR00T-N1.6、π0.5)高达 48%。该工作已登顶机器人顶会 RSS,代码已开源。文章还介绍了其在工厂、家庭等场景的落地潜力,并指出该模型标志着具身智能进入数据驱动的规模化发展阶段。

💡 主要观点

- LDA-1B 首次实现异构数据的统一有效利用,打破数据壁垒。 模型通过「银河星数」数据基础设施,将互联网数据、人类行为数据、仿真数据、真实遥操作数据等五层异构数据统一训练,实现了「吃数据不挑食」,大幅降低数据获取与标注成本。

LDA-1B 采用 WAM 世界-动作融合路线,在一个模型中融合 VLA 与世界模型能力。 不同于纯 VLA 或纯世界模型,LDA-1B 在单一扩散模型框架内同时学习策略、前向动力学、逆向动力学和视觉预测,构建了「感知-决策-交互-反馈」的完整闭环。
LDA-1B 展现出清晰的规模化特征,性能随数据量增加持续提升。 实验表明,即使加入无动作标注的人类视频,模型性能依然能持续提升,突破了传统行为克隆方法对高质量专家数据的依赖,复刻了大模型的 Scaling 逻辑。
LDA-1B 具备强大的跨本体泛化能力,仅需 1 小时后训练即可适配新机器人。 模型在未在预训练数据集中出现过的机器人本体(如 Galbot G1、Unitree G1)上,通过少量后训练即可实现高效自适应,展现了通用化能力。

💬 文章金句

- LDA-1B 首次在数据层面实现虚实共融、人机混合、质量参差、有无动作标签的数据统一有效利用。

  • 没有垃圾数据,只有因训练框架被「错付」的数据。把对的数据放到对的训练目标里,每一帧都有价值。
  • 它标志着具身智能开始真正进入以数据驱动的规模化发展阶段。
  • 模型不仅知道「该怎么做」,更能理解「这么做会改变什么」。
  • 从 GPT 大模型的文本智能,到 LDA-1B 的机器人具身智能,统一建模、全量数据驱动的规模化逻辑一脉相承。

📊 文章信息

AI 初评:90

来源:量子位

作者:Jay

分类:人工智能

语言:中文

阅读时间:20 分钟

字数:4811

标签: LDA-1B, 具身智能, 世界模型, VLA, WAM

阅读完整文章

查看原文 → 發佈: 2026-04-29 10:23:06 收錄: 2026-04-29 14:00:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。