← 回總覽

ICML 2026 | PhysForge 框架来了,让 3D 资产从静态模型变成可交互对象

📅 2026-06-09 12:07 机器之心 人工智能 2 分鐘 1482 字 評分: 86
3D 生成 具身智能 ICML 2026 物理仿真 AI 研究
📌 一句话摘要 香港大学与腾讯混元提出 PhysForge 框架,通过 VLM 规划与扩散生成两阶段策略,从单张图像生成具备部件结构、物理属性和运动学参数的可交互 3D 资产,已被 ICML 2026 接收。 📝 详细摘要 文章介绍了 PhysForge,一个面向交互式虚拟世界的 physics-grounded 3D 资产生成框架。该框架由香港大学和腾讯混元等机构提出,已被 ICML 2026 接收。PhysForge 的核心创新在于将 3D 生成从「静态外观」推进到「可交互资产」。它采用两阶段「规划-生成」策略:第一阶段利用 VLM 作为「物理架构师」,从单张图像生成层级化物理蓝图(H

📌 一句话摘要

香港大学与腾讯混元提出 PhysForge 框架,通过 VLM 规划与扩散生成两阶段策略,从单张图像生成具备部件结构、物理属性和运动学参数的可交互 3D 资产,已被 ICML 2026 接收。

📝 详细摘要

文章介绍了 PhysForge,一个面向交互式虚拟世界的 physics-grounded 3D 资产生成框架。该框架由香港大学和腾讯混元等机构提出,已被 ICML 2026 接收。PhysForge 的核心创新在于将 3D 生成从「静态外观」推进到「可交互资产」。它采用两阶段「规划-生成」策略:第一阶段利用 VLM 作为「物理架构师」,从单张图像生成层级化物理蓝图(Hierarchical Physical Blueprint),定义部件的 3D 边界框、父子关系、关节类型、材质、质量、功能状态和 affordance 等信息;第二阶段通过扩散模型,并引入 KineVoxel Injection (KVI) 机制,将关节原点、轴向和运动范围等连续运动学参数编码为 kinematic voxel,与几何 voxel 联合去噪,同步生成几何、纹理和精确运动学参数。为支撑训练,研究者构建了 PhysDB 数据集,包含 15 万来自 Objaverse 的 3D 资产,提供从整体属性到交互属性的四层细粒度物理标注。文章展示了 PhysForge 在机器人仿真、游戏引擎和具身智能 agent 交互等场景的应用潜力。

💡 主要观点

- PhysForge 将 3D 生成目标从静态外观转向可交互资产。 现有方法多停留在几何和纹理层面,缺少支撑真实交互的功能逻辑与物理结构。PhysForge 生成的资产包含部件结构、物理属性和运动学参数,可直接用于仿真和游戏引擎。

两阶段「规划-生成」策略是核心架构创新。 VLM 先进行语义和结构规划,生成层级化物理蓝图;扩散模型再通过 KineVoxel Injection 机制,在生成几何的同时精确预测关节轴、原点等连续运动学参数,实现功能与外观的协同生成。
PhysDB 数据集为物理感知 3D 生成提供了关键数据基础。 该数据集包含 15 万资产的四层物理标注(整体、静态、功能、交互),覆盖七大类别,使模型能学习部件语义、功能状态和可交互方式,而不仅仅是部件位置。

💬 文章金句

- PhysForge 将 3D 生成的目标从「生成静态外观」推进到「生成可交互资产」。

  • 一个柜门不仅要有柜门的外观,还需要知道绕哪条轴旋转;一个按钮不仅要有按钮的形状,还需要具备「按下/弹起」的状态。

📊 文章信息

AI 初评:86

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2581

标签: 3D 生成, 具身智能, ICML 2026, 物理仿真, AI 研究

阅读完整文章

查看原文 → 發佈: 2026-06-09 12:07:00 收錄: 2026-06-10 02:00:14

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。