李飞飞再出手，空间智能的 ImageNet 来了

📌 一句话摘要

李飞飞团队发布 ESI-Bench，一个要求智能体通过主动行动完成空间推理的新基准，揭示当前 AI 在「行动策略」和「元认知」上的根本缺陷。

📝 详细摘要

李飞飞团队最新发布的 ESI-Bench 是一个专门评测具身空间智能的新基准。与现有仅测试「被动感知」的基准不同，ESI-Bench 要求智能体必须通过主动行动（如移动、抓取、倾倒）来获取信息并完成推理，闭合了「感知-行动回路」。基准包含 10 个任务类别、29 个子类别、3081 个任务实例，围绕人类核心空间认知的四大维度设计。团队对 GPT-5、Gemini 等最强多模态大模型进行全面测试，得出三个核心结论：第一，感知不是瓶颈，行动才是——模型存在「动作盲视」现象，一个差动作导致级联失败；第二，不完美的 3D 重建比 2D 更坑，重建失真会「毒化」推理输入；第三，模型存在元认知缺陷，不知道自己看没看够，缺乏怀疑机制。该工作为具身空间智能领域提供了一个系统性的评测框架。

💡 主要观点

- ESI-Bench 要求智能体通过主动行动完成空间推理，而非被动看图。 现有基准测试的是模型的「视力」，而 ESI-Bench 要求智能体像人类一样主动决定行动、获取证据，再基于新观测做判断，闭合了感知-行动回路。

当前 AI 的感知能力已足够，但行动策略几乎为零。 实验发现，给模型最佳视角时准确率可暴涨，但模型自己找不到那个视角，存在「动作盲视」现象，一个差动作导致级联失败。

不完美的 3D 重建比 2D 更坑，会「毒化」推理输入。 使用当前最先进的 VGGT 模型做场景重建后，推理得分反而低于 2D 基线，几何伪影和深度估计偏差会误导模型。

模型存在元认知缺陷，缺乏「怀疑机制」。 模型会过早停止探索，即便证据模糊也以高置信度做出判断，而人类会主动寻找可能证伪当前假设的视角，表现出更强的认知谨慎性。

💬 文章金句

- 现在的 AI 看图很厉害，但离「会动、会摸、会主动找答案」的空间智能还差得远。

正确答案不在任何单张图片里，智能体必须主动行动并推理出正确结果。
空间智能的卡点不在于视觉模型不够强，而是行动策略几乎为零。
不完美的 3D 不是中性失败，它是负向失败。
模型不知道自己不知道。它缺乏一种内建的「怀疑机制」，无法评估当前信息是否充分。

📊 文章信息

AI 初评：88

来源：量子位

作者：听雨

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3252

标签： ESI-Bench, 空间智能, 具身智能, 李飞飞, AI 评测

阅读完整文章

李飞飞再出手，空间智能的 ImageNet 来了

🤖 問 AI