中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨 CVPR 2026

📌 一句话摘要

中山大学梁小丹团队在 CVPR 2026 发表 ProPhy 框架，通过引入语义级与空间级分层物理建模，并利用 VLM 进行监督，有效解决了视频生成模型视觉真实但物理逻辑缺失的问题。

📝 详细摘要

本文介绍了中山大学梁小丹团队在 CVPR 2026 发表的论文《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》。针对当前视频生成模型「视觉逼真但物理违和」的痛点，ProPhy 提出了一种分层对齐方法：通过语义级物理模块（SEB）提取全局物理先验，并利用细粒度模块（REB）进行 token 级别的空间物理建模。该方法引入视觉语言模型（VLM）作为监督信号，弥补了生成模型在物理定位上的不足，显著提升了模型在碰撞、流体等复杂场景下的物理合理性与语义一致性，推动视频生成向动态世界模拟迈进。

💡 主要观点

- 视频生成模型面临「视觉真实但物理不可信」的瓶颈。 当前模型虽然在纹理和光影上表现出色，但在处理接触、受力、流动等动态物理过程时，往往缺乏因果逻辑，导致物体穿透或运动不连贯。

ProPhy 提出分层物理对齐框架，实现从语义到空间的建模。 通过语义级模块（SEB）提取全局物理先验，配合细粒度模块（REB）在 token 层面进行空间物理建模，使模型能够区分不同区域的物理规律。

引入 VLM 作为监督教师，解决物理定位难题。 利用视觉语言模型（VLM）强大的空间理解能力，为生成模型提供物理现象发生位置的监督信号，从而实现对物理过程的精准定位与对齐。

实验验证了物理建模对动态表现的显著提升。 在 Wan2.1 和 CogVideoX 等模型上的测试表明，ProPhy 有效提升了物理合理性（PC）和语义一致性（SA），特别是在复杂交互场景下表现更佳。

💬 文章金句

- 模型擅长生成看起来像真实世界的画面，却并不真正理解现实世界是如何运作的。

这项研究不再依赖单一层面的物理提示，而是通过分层建模和逐步对齐的方式，将物理信息从全局语义逐渐细化到局部空间。
研究团队引入视觉语言模型作为中介，将其在空间理解上的优势转化为生成模型的监督信号，从而弥补生成模型在物理定位能力上的不足。

📊 文章信息

AI 评分：88

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：23 分钟

字数：5627

标签： CVPR 2026, 视频生成, 物理模拟, ProPhy, 世界模型

阅读完整文章

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨 CVPR 2026

🤖 問 AI