李飞飞再出手，空间智能的 ImageNet 来了

📌 一句话摘要

李飞飞团队发布 ESI-Bench，一个要求智能体主动行动而非被动感知的空间智能评测基准，揭示当前 AI 在行动策略和元认知上的严重缺陷。

📝 详细摘要

文章介绍了李飞飞团队最新发布的 ESI-Bench 基准，旨在评测具身空间智能。与现有仅测试「被动感知」的基准不同，ESI-Bench 要求智能体必须主动行动（如移动、观察、操作物体）才能获取足够信息并回答问题，从而闭合「感知-行动回路」。该基准基于 Spelke 的四大核心知识系统设计，包含 10 个任务类别和 3081 个实例。团队对 GPT-5、Gemini 等最强多模态模型进行了全面测试，得出三个核心结论：第一，感知不是瓶颈，行动才是——模型在获得最佳视角时表现优异，但自身无法找到正确视角，甚至出现「动作盲视」现象；第二，不完美的 3D 重建比 2D 更糟糕，会引入有毒的失真信息；第三，模型存在严重的元认知缺陷，即不知道自己不知道，会过早停止探索并过度自信。文章还介绍了论文作者团队，包括一作 Yining Hong 等。

💡 主要观点

- ESI-Bench 要求智能体主动行动，而非被动感知，以评测真正的空间智能。 现有基准仅给模型提供图片并提问，测试的是「视力」。ESI-Bench 要求智能体像人类一样，通过移动、观察、操作物体来主动获取信息，闭合感知-行动回路。

当前最强 AI 的感知能力已接近人类，但行动策略几乎为零。 在获得最佳视角时，模型准确率可超 95%，但自身无法找到正确视角，甚至出现「动作盲视」——随机多视角反而导致性能下降。

不完美的 3D 重建比 2D 更糟糕，会引入有毒的失真信息。 使用 VGGT 重建后的场景图进行推理，性能远低于 2D 基线。几何伪影和深度估计偏差会编码成有毒输入，导致推理模型产生更差结果。

模型存在严重的元认知缺陷：不知道自己不知道。 模型会过早停止探索，即便证据模糊也以高置信度做出判断，缺乏内建的「怀疑机制」来评估信息充分性，这是比感知能力更底层的挑战。

💬 文章金句

- 过去的空间智能评测默认给模型最优观测，而 ESI-Bench 第一个把观察者变成行动者，闭合了感知-行动回路。

现在的 AI 看图很厉害，但离「会动、会摸、会主动找答案」的空间智能还差得远。
团队把这个现象命名为「动作盲视」（Action Blindness），一个差动作导致一个差视角，差视角触发更差动作，形成不可逆的级联失败。
不完美的 3D 不是中性失败，它是负向失败。
模型缺乏一种内建的「怀疑机制」，无法评估当前信息是否充分，无法根据矛盾证据调整信念。

📊 文章信息

AI 初评：86

来源：大模型智能

作者：大模型智能

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3504

标签：空间智能, 具身智能, ESI-Bench, 李飞飞, 多模态大模型

阅读完整文章

李飞飞再出手，空间智能的 ImageNet 来了

🤖 問 AI