老黄 100%免费开源！老照片炸成可漫游 3D 宇宙

📌 一句话摘要

NVIDIA 开源 Lyra 2.0，可将单张 2D 图片实时生成为可漫游的 3D 交互世界，解决了长时程 3D 生成中的空间遗忘和时间漂移两大难题。

📝 详细摘要

本文报道了 NVIDIA 正式开源 Lyra 2.0 项目，该技术能够将单张 2D 图片转化为可自由探索的 3D 交互世界。文章详细解析了 Lyra 2.0 的核心技术流程：以 Wan 2.1-14B 视频扩散模型为底座，将图片生成漫游视频，再通过前馈 3D 重建模型直接输出 3D 高斯泼溅和表面网格。针对长时程 3D 生成中普遍存在的空间遗忘和时间漂移问题，Lyra 2.0 提出了两项关键创新：一是利用 3D 几何信息作为空间记忆路由而非直接渲染条件，避免历史错误污染；二是采用自增强训练策略，让模型在训练阶段就学会纠错。在 DL3DV 和 Tanks and Temples 基准测试中，Lyra 2.0 全面超越基线方法。文章同时指出，当前 AI 3D 世界生成仍面临从视觉保真到因果世界理解的深层困境，NVIDIA 的开源策略意在汇聚全球开发者力量共同突破。

💡 主要观点

- Lyra 2.0 实现单张 2D 图片到可漫游 3D 世界的端到端生成。 技术流程为：图片输入 → Wan 2.1-14B 生成漫游视频 → 前馈 3D 重建输出高斯泼溅和网格 → 交互式 GUI 支持自由探索，最终可导出至 Isaac Sim 等物理引擎。

创新性地解决了长时程 3D 生成中的空间遗忘和时间漂移问题。 空间遗忘方面，3D 几何仅作为检索历史帧的路由而非渲染条件，避免错误累积；时间漂移方面，自增强训练让模型在训练阶段就学会纠错，缩小训练与推理的分布差距。

NVIDIA 选择 100% 开源，意在推动具身 AI 仿真生态发展。 开源策略降低 3D 世界生成门槛，使 AI 训练不再依赖真实世界数据采集，同时汇聚全球开发者力量突破从视觉保真到因果世界理解的深层困境。

💬 文章金句

- 你只需要上传一张普通的 2D 图片，鼠标一点，它就能瞬间将其「吹胀」成一个深邃的、可以四处走动、可以回头张望的 3D 交互世界。

Lyra 2.0 维护了每一帧的 3D 几何信息，但关键在于——这些几何信息只用来检索相关的历史帧并建立密集的空间对应关系，而不是直接拿去渲染或做像素级条件约束。
NVIDIA 提出了一种「自增强训练」策略。在训练时，不总是给模型完美的真实帧作为历史条件，而是故意用模型自己一步去噪后的（带退化的）输出来替代。
真正的 3D 世界模型，应该能够：理解因果关系、遵循物理定律、保持语义一致性。这需要的不仅仅是更大的模型、更多的训练数据，而是 AI 在世界建模能力上的根本性突破。

📊 文章信息

AI 初评：87

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3429

标签： NVIDIA, Lyra 2.0, 3D 生成, 高斯泼溅, 开源

阅读完整文章

老黄 100%免费开源！老照片炸成可漫游 3D 宇宙

🤖 問 AI