香港大学与腾讯混元提出 PhysForge 框架,通过 VLM 规划与扩散生成两阶段策略,从单张图像生成具备部件结构、物理属性和运动学参数的可交互 3D 资产,已被 ICML 2026 接收。
📝 详细摘要
文章介绍了 PhysForge,一个面向交互式虚拟世界的 physics-grounded 3D 资产生成框架。该框架由香港大学和腾讯混元等机构提出,已被 ICML 2026 接收。PhysForge 的核心创新在于将 3D 生成从「静态外观」推进到「可交互资产」。它采用两阶段「规划-生成」策略:第一阶段利用 VLM 作为「物理架构师」,从单张图像生成层级化物理蓝图(Hierarchical Physical Blueprint),定义部件的 3D 边界框、父子关系、关节类型、材质、质量、功能状态和 affordance 等信息;第二阶段通过扩散模型,并引入 KineVoxel Injection (KVI) 机制,将关节原点、轴向和运动范围等连续运动学参数编码为 kinematic voxel,与几何 voxel 联合去噪,同步生成几何、纹理和精确运动学参数。为支撑训练,研究者构建了 PhysDB 数据集,包含 15 万来自 Objaverse 的 3D 资产,提供从整体属性到交互属性的四层细粒度物理标注。文章展示了 PhysForge 在机器人仿真、游戏引擎和具身智能 agent 交互等场景的应用潜力。
💡 主要观点
- PhysForge 将 3D 生成目标从静态外观转向可交互资产。 现有方法多停留在几何和纹理层面,缺少支撑真实交互的功能逻辑与物理结构。PhysForge 生成的资产包含部件结构、物理属性和运动学参数,可直接用于仿真和游戏引擎。
💬 文章金句
- PhysForge 将 3D 生成的目标从「生成静态外观」推进到「生成可交互资产」。
- 一个柜门不仅要有柜门的外观,还需要知道绕哪条轴旋转;一个按钮不仅要有按钮的形状,还需要具备「按下/弹起」的状态。
📊 文章信息
AI 初评:86
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2581
标签: 3D 生成, 具身智能, ICML 2026, 物理仿真, AI 研究