← 回總覽

LeCun 10 亿押注的方向,全球领先视觉大模型团队早已布局

📅 2026-06-04 11:43 听雨 人工智能 2 分鐘 1596 字 評分: 85
世界模型 视觉大模型 具身智能 隐空间 AI 商业化
📌 一句话摘要 视启未来团队基于其全球领先的视觉大模型 DINO-X 积累,押注隐空间世界模型路线,通过引入物体理解能力构建「视觉原生世界模型」,旨在让 AI 从「看见世界」迈向「预见未来」。 📝 详细摘要 本文报道了视启未来(原 IDEA CVR 孵化团队)在隐空间世界模型方向的技术布局与战略思考。文章首先指出,Yann LeCun 离开 Meta 创办 AMI Labs 并完成 10.3 亿美元融资,押注的正是隐空间世界模型路线,而视启未来早已提前落子。与主流世界模型预测下一帧像素不同,隐空间世界模型在抽象表征空间学习动作与状态变化的因果规律。视启未来的核心创新在于将物体理解能力(来自

📌 一句话摘要

视启未来团队基于其全球领先的视觉大模型 DINO-X 积累,押注隐空间世界模型路线,通过引入物体理解能力构建「视觉原生世界模型」,旨在让 AI 从「看见世界」迈向「预见未来」。

📝 详细摘要

本文报道了视启未来(原 IDEA CVR 孵化团队)在隐空间世界模型方向的技术布局与战略思考。文章首先指出,Yann LeCun 离开 Meta 创办 AMI Labs 并完成 10.3 亿美元融资,押注的正是隐空间世界模型路线,而视启未来早已提前落子。与主流世界模型预测下一帧像素不同,隐空间世界模型在抽象表征空间学习动作与状态变化的因果规律。视启未来的核心创新在于将物体理解能力(来自其 DINO-X 系列视觉大模型)引入 latent 表征,使模型具备「世界由哪些物体构成、它们处于什么空间位置、具有什么语义属性」的基础认知,从而更高效地学习物理规律。文章详细阐述了这一路线的三个核心特征:Object-Centric(以物体为中心)、Action-Aligned(跨本体动作对齐)、Causality-Driven(因果驱动)。此外,文章介绍了视启未来的团队背景(张磊博士师从张钹院士、曾与沈向洋共事)、技术积累(Grounding DINO、DINO-X 等全球领先的开放世界物体理解模型),以及其最新产品 EgoTwin(人手 3D 对齐引擎,数据采集效率是行业主流的 3.75 倍),并展望了世界模型作为物理世界 AI 核心基础设施的愿景。

💡 主要观点

- 隐空间世界模型是比像素级世界模型更难但更正确的路线。 在像素空间预测未来画面易受纹理、光照等细节干扰,不利于学习因果关系;隐空间在抽象表征空间学习状态演化规律,更适合物理世界建模。

视启未来的核心创新是将物体理解能力引入隐空间表征。 其 DINO-X 系列模型已具备开放世界物体检测、分割与语义理解能力,使 latent 表征具备对象性、空间性和物理性,从而更高效地学习物理规律。
世界模型需同时具备 Object-Centric、Action-Aligned 和 Causality-Driven 三个核心特征。 以物体为中心的表征、跨本体动作对齐的数据表示、以及因果驱动的学习范式,是实现可落地物理世界模型的关键。
视启未来的技术路线是从视觉理解到世界模型的自然延伸。 团队在 2D/3D 物体理解上的长期积累,为构建以物体为中心的隐空间世界模型提供了底层能力,EgoTwin 产品则是该路线在数据层面的第一个落地抓手。

💬 文章金句

- 做世界模型很难,做隐空间世界模型更难,但我们会知难而进。

  • 真正的智能,不能只停留在「看到当前状态就输出动作」的层面。
  • 物理规律本质上并不作用在像素上,而是作用在物体、结构和关系上。
  • 视觉,是物理智能最主要的信息入口,也是通向世界模型的关键优势方向。

📊 文章信息

AI 初评:85

来源:量子位

作者:听雨

分类:人工智能

语言:中文

阅读时间:20 分钟

字数:4751

标签: 世界模型, 视觉大模型, 具身智能, 隐空间, AI 商业化

阅读完整文章

查看原文 → 發佈: 2026-06-04 11:43:37 收錄: 2026-06-04 16:00:38

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。