LeCun 10 亿押注的方向，全球领先视觉大模型团队早已布局

📌 一句话摘要

视启未来团队基于其全球领先的视觉大模型 DINO-X 积累，押注隐空间世界模型路线，通过引入物体理解能力构建「视觉原生世界模型」，旨在让 AI 从「看见世界」迈向「预见未来」。

📝 详细摘要

本文报道了视启未来（原 IDEA CVR 孵化团队）在隐空间世界模型方向的技术布局与战略思考。文章首先指出，Yann LeCun 离开 Meta 创办 AMI Labs 并完成 10.3 亿美元融资，押注的正是隐空间世界模型路线，而视启未来早已提前落子。与主流世界模型预测下一帧像素不同，隐空间世界模型在抽象表征空间学习动作与状态变化的因果规律。视启未来的核心创新在于将物体理解能力（来自其 DINO-X 系列视觉大模型）引入 latent 表征，使模型具备「世界由哪些物体构成、它们处于什么空间位置、具有什么语义属性」的基础认知，从而更高效地学习物理规律。文章详细阐述了这一路线的三个核心特征：Object-Centric（以物体为中心）、Action-Aligned（跨本体动作对齐）、Causality-Driven（因果驱动）。此外，文章介绍了视启未来的团队背景（张磊博士师从张钹院士、曾与沈向洋共事）、技术积累（Grounding DINO、DINO-X 等全球领先的开放世界物体理解模型），以及其最新产品 EgoTwin（人手 3D 对齐引擎，数据采集效率是行业主流的 3.75 倍），并展望了世界模型作为物理世界 AI 核心基础设施的愿景。

💡 主要观点

- 隐空间世界模型是比像素级世界模型更难但更正确的路线。 在像素空间预测未来画面易受纹理、光照等细节干扰，不利于学习因果关系；隐空间在抽象表征空间学习状态演化规律，更适合物理世界建模。

视启未来的核心创新是将物体理解能力引入隐空间表征。 其 DINO-X 系列模型已具备开放世界物体检测、分割与语义理解能力，使 latent 表征具备对象性、空间性和物理性，从而更高效地学习物理规律。

世界模型需同时具备 Object-Centric、Action-Aligned 和 Causality-Driven 三个核心特征。 以物体为中心的表征、跨本体动作对齐的数据表示、以及因果驱动的学习范式，是实现可落地物理世界模型的关键。

视启未来的技术路线是从视觉理解到世界模型的自然延伸。 团队在 2D/3D 物体理解上的长期积累，为构建以物体为中心的隐空间世界模型提供了底层能力，EgoTwin 产品则是该路线在数据层面的第一个落地抓手。

💬 文章金句

- 做世界模型很难，做隐空间世界模型更难，但我们会知难而进。

真正的智能，不能只停留在「看到当前状态就输出动作」的层面。
物理规律本质上并不作用在像素上，而是作用在物体、结构和关系上。
视觉，是物理智能最主要的信息入口，也是通向世界模型的关键优势方向。

📊 文章信息

AI 初评：85

来源：量子位

作者：听雨

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4751

标签：世界模型, 视觉大模型, 具身智能, 隐空间, AI 商业化

阅读完整文章

LeCun 10 亿押注的方向，全球领先视觉大模型团队早已布局

🤖 問 AI