本文系统梳理了北京科技大学彭君然团队过去三年在世界模型领域的探索历程,从三维场景重建、图形学引擎智能内容生成到四维体视频生成,逐步构建起通往四维世界模型的技术栈。
📝 详细摘要
本文整理自北京科技大学副教授彭君然博士在 QCon 2026 北京站的演讲。文章从人工智能终局判断出发,认为语言智能将在五到十年内替代虚拟空间中的一切,并必然辐射到物理空间,而世界模型是实现从认知到物理执行闭环的关键。团队自 2023 年起并行探索三条技术路线:基于 3D Gaussian Splatting 的大规模场景重建,通过引入几何先验、材质属性赋予等优化,使重建场景具备物理仿真能力;基于图形学引擎的智能内容生成,利用 Agent 驱动实现从语言描述到完整场景的自动生成,并落地于自动驾驶仿真和具身智能服务;以及视频生成辅助重建,通过迭代 refine 解决稀疏视角下的重建退化问题。最终,团队提出了四维世界模型系统,以前馈式四维生成模型和空间 refinement 模型相互迭代,实现从 2D 视频到自由视点动态体视频的生成,从根本上消除了时空不一致性。文章指出,端到端的四维生成模型是理想中的终极形态。
💡 主要观点
- 世界模型是实现从认知到物理执行闭环的关键,需具备推演未来、内化物理规律、丰富表现形式三项能力。 大语言模型只会说不会做,世界模型提供从 action 到 observation 的闭环,是连接认知与物理世界的桥梁。理想世界模型应能推演因果、理解物理规律,并能与多种观测和交互形式对接。
💬 文章金句
- 语言智能或者说 AI 的生成能力一定会在五到十年内将虚拟空间中一切能够替代的事情替代掉。
- 端到端的四维生成模型,是我们理想中的终极形态。
- 千里之行始于足下。
- 因为底层是四维显式表达,时空不一致性被从根本上消除了。
📊 文章信息
AI 初评:87
来源:InfoQ 中文
作者:InfoQ 中文
分类:人工智能
语言:中文
阅读时间:32 分钟
字数:7944
标签: 世界模型, 三维重建, 四维生成, 3D Gaussian Splatting, 具身智能