← 回總覽

空间智能初探:重建与生成的双路径实践

📅 2026-05-28 16:35 InfoQ 中文 人工智能 2 分鐘 1597 字 評分: 87
世界模型 三维重建 四维生成 3D Gaussian Splatting 具身智能
📌 一句话摘要 本文系统梳理了北京科技大学彭君然团队过去三年在世界模型领域的探索历程,从三维场景重建、图形学引擎智能内容生成到四维体视频生成,逐步构建起通往四维世界模型的技术栈。 📝 详细摘要 本文整理自北京科技大学副教授彭君然博士在 QCon 2026 北京站的演讲。文章从人工智能终局判断出发,认为语言智能将在五到十年内替代虚拟空间中的一切,并必然辐射到物理空间,而世界模型是实现从认知到物理执行闭环的关键。团队自 2023 年起并行探索三条技术路线:基于 3D Gaussian Splatting 的大规模场景重建,通过引入几何先验、材质属性赋予等优化,使重建场景具备物理仿真能力;基于图

📌 一句话摘要

本文系统梳理了北京科技大学彭君然团队过去三年在世界模型领域的探索历程,从三维场景重建、图形学引擎智能内容生成到四维体视频生成,逐步构建起通往四维世界模型的技术栈。

📝 详细摘要

本文整理自北京科技大学副教授彭君然博士在 QCon 2026 北京站的演讲。文章从人工智能终局判断出发,认为语言智能将在五到十年内替代虚拟空间中的一切,并必然辐射到物理空间,而世界模型是实现从认知到物理执行闭环的关键。团队自 2023 年起并行探索三条技术路线:基于 3D Gaussian Splatting 的大规模场景重建,通过引入几何先验、材质属性赋予等优化,使重建场景具备物理仿真能力;基于图形学引擎的智能内容生成,利用 Agent 驱动实现从语言描述到完整场景的自动生成,并落地于自动驾驶仿真和具身智能服务;以及视频生成辅助重建,通过迭代 refine 解决稀疏视角下的重建退化问题。最终,团队提出了四维世界模型系统,以前馈式四维生成模型和空间 refinement 模型相互迭代,实现从 2D 视频到自由视点动态体视频的生成,从根本上消除了时空不一致性。文章指出,端到端的四维生成模型是理想中的终极形态。

💡 主要观点

- 世界模型是实现从认知到物理执行闭环的关键,需具备推演未来、内化物理规律、丰富表现形式三项能力。 大语言模型只会说不会做,世界模型提供从 action 到 observation 的闭环,是连接认知与物理世界的桥梁。理想世界模型应能推演因果、理解物理规律,并能与多种观测和交互形式对接。

团队并行探索三维重建、图形引擎和视频生成三条技术路线,逐步构建通往四维世界模型的技术栈。 三维重建提供显式几何表达但无法交互;图形引擎生成与工业管线兼容的场景但依赖人工;视频生成缺乏几何约束。团队三条路线齐头并进,最终融合为四维世界模型系统。
四维世界模型通过前馈式四维生成模型与空间 refinement 模型迭代,实现从 2D 视频到自由视点动态体视频的生成。 系统输入 2D 视频或单张图片,输出包含时空维度的四维高斯表达。通过前馈生成与空间视角 refine 的反复迭代,收敛到高质量的时空一致表达,从根本上消除时空不一致性。
四维显式表达对具身智能和自动驾驶仿真具有巨大价值,可直接提供 3D/4D 轨迹,无需逆解算。 传统 2D 生成模型需额外逆解算获取空间轨迹,而四维表达中轨迹是原始的。在自动驾驶中,可一次性输出多路几何一致的摄像头视频,并支持场景编辑操作。

💬 文章金句

- 语言智能或者说 AI 的生成能力一定会在五到十年内将虚拟空间中一切能够替代的事情替代掉。

  • 端到端的四维生成模型,是我们理想中的终极形态。
  • 千里之行始于足下。
  • 因为底层是四维显式表达,时空不一致性被从根本上消除了。

📊 文章信息

AI 初评:87

来源:InfoQ 中文

作者:InfoQ 中文

分类:人工智能

语言:中文

阅读时间:32 分钟

字数:7944

标签: 世界模型, 三维重建, 四维生成, 3D Gaussian Splatting, 具身智能

阅读完整文章

查看原文 → 發佈: 2026-05-28 16:35:00 收錄: 2026-05-28 22:00:15

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。