NVIDIA 开源 Lyra 2.0,可将单张 2D 图片实时生成为可漫游的 3D 交互世界,解决了长时程 3D 生成中的空间遗忘和时间漂移两大难题。
📝 详细摘要
本文报道了 NVIDIA 正式开源 Lyra 2.0 项目,该技术能够将单张 2D 图片转化为可自由探索的 3D 交互世界。文章详细解析了 Lyra 2.0 的核心技术流程:以 Wan 2.1-14B 视频扩散模型为底座,将图片生成漫游视频,再通过前馈 3D 重建模型直接输出 3D 高斯泼溅和表面网格。针对长时程 3D 生成中普遍存在的空间遗忘和时间漂移问题,Lyra 2.0 提出了两项关键创新:一是利用 3D 几何信息作为空间记忆路由而非直接渲染条件,避免历史错误污染;二是采用自增强训练策略,让模型在训练阶段就学会纠错。在 DL3DV 和 Tanks and Temples 基准测试中,Lyra 2.0 全面超越基线方法。文章同时指出,当前 AI 3D 世界生成仍面临从视觉保真到因果世界理解的深层困境,NVIDIA 的开源策略意在汇聚全球开发者力量共同突破。
💡 主要观点
- Lyra 2.0 实现单张 2D 图片到可漫游 3D 世界的端到端生成。 技术流程为:图片输入 → Wan 2.1-14B 生成漫游视频 → 前馈 3D 重建输出高斯泼溅和网格 → 交互式 GUI 支持自由探索,最终可导出至 Isaac Sim 等物理引擎。
💬 文章金句
- 你只需要上传一张普通的 2D 图片,鼠标一点,它就能瞬间将其「吹胀」成一个深邃的、可以四处走动、可以回头张望的 3D 交互世界。
- Lyra 2.0 维护了每一帧的 3D 几何信息,但关键在于——这些几何信息只用来检索相关的历史帧并建立密集的空间对应关系,而不是直接拿去渲染或做像素级条件约束。
- NVIDIA 提出了一种「自增强训练」策略。在训练时,不总是给模型完美的真实帧作为历史条件,而是故意用模型自己一步去噪后的(带退化的)输出来替代。
- 真正的 3D 世界模型,应该能够:理解因果关系、遵循物理定律、保持语义一致性。这需要的不仅仅是更大的模型、更多的训练数据,而是 AI 在世界建模能力上的根本性突破。
📊 文章信息
AI 初评:87
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3429
标签: NVIDIA, Lyra 2.0, 3D 生成, 高斯泼溅, 开源