视启未来团队基于其全球领先的视觉大模型 DINO-X 积累,押注隐空间世界模型路线,通过引入物体理解能力构建「视觉原生世界模型」,旨在让 AI 从「看见世界」迈向「预见未来」。
📝 详细摘要
本文报道了视启未来(原 IDEA CVR 孵化团队)在隐空间世界模型方向的技术布局与战略思考。文章首先指出,Yann LeCun 离开 Meta 创办 AMI Labs 并完成 10.3 亿美元融资,押注的正是隐空间世界模型路线,而视启未来早已提前落子。与主流世界模型预测下一帧像素不同,隐空间世界模型在抽象表征空间学习动作与状态变化的因果规律。视启未来的核心创新在于将物体理解能力(来自其 DINO-X 系列视觉大模型)引入 latent 表征,使模型具备「世界由哪些物体构成、它们处于什么空间位置、具有什么语义属性」的基础认知,从而更高效地学习物理规律。文章详细阐述了这一路线的三个核心特征:Object-Centric(以物体为中心)、Action-Aligned(跨本体动作对齐)、Causality-Driven(因果驱动)。此外,文章介绍了视启未来的团队背景(张磊博士师从张钹院士、曾与沈向洋共事)、技术积累(Grounding DINO、DINO-X 等全球领先的开放世界物体理解模型),以及其最新产品 EgoTwin(人手 3D 对齐引擎,数据采集效率是行业主流的 3.75 倍),并展望了世界模型作为物理世界 AI 核心基础设施的愿景。
💡 主要观点
- 隐空间世界模型是比像素级世界模型更难但更正确的路线。 在像素空间预测未来画面易受纹理、光照等细节干扰,不利于学习因果关系;隐空间在抽象表征空间学习状态演化规律,更适合物理世界建模。
💬 文章金句
- 做世界模型很难,做隐空间世界模型更难,但我们会知难而进。
- 真正的智能,不能只停留在「看到当前状态就输出动作」的层面。
- 物理规律本质上并不作用在像素上,而是作用在物体、结构和关系上。
- 视觉,是物理智能最主要的信息入口,也是通向世界模型的关键优势方向。
📊 文章信息
AI 初评:85
来源:量子位
作者:听雨
分类:人工智能
语言:中文
阅读时间:20 分钟
字数:4751
标签: 世界模型, 视觉大模型, 具身智能, 隐空间, AI 商业化