← 回總覽

李飞飞再出手,空间智能的 ImageNet 来了

📅 2026-05-23 00:00 大模型智能 人工智能 2 分鐘 1512 字 評分: 86
空间智能 具身智能 ESI-Bench 李飞飞 多模态大模型
📌 一句话摘要 李飞飞团队发布 ESI-Bench,一个要求智能体主动行动而非被动感知的空间智能评测基准,揭示当前 AI 在行动策略和元认知上的严重缺陷。 📝 详细摘要 文章介绍了李飞飞团队最新发布的 ESI-Bench 基准,旨在评测具身空间智能。与现有仅测试「被动感知」的基准不同,ESI-Bench 要求智能体必须主动行动(如移动、观察、操作物体)才能获取足够信息并回答问题,从而闭合「感知-行动回路」。该基准基于 Spelke 的四大核心知识系统设计,包含 10 个任务类别和 3081 个实例。团队对 GPT-5、Gemini 等最强多模态模型进行了全面测试,得出三个核心结论:第一,感

📌 一句话摘要

李飞飞团队发布 ESI-Bench,一个要求智能体主动行动而非被动感知的空间智能评测基准,揭示当前 AI 在行动策略和元认知上的严重缺陷。

📝 详细摘要

文章介绍了李飞飞团队最新发布的 ESI-Bench 基准,旨在评测具身空间智能。与现有仅测试「被动感知」的基准不同,ESI-Bench 要求智能体必须主动行动(如移动、观察、操作物体)才能获取足够信息并回答问题,从而闭合「感知-行动回路」。该基准基于 Spelke 的四大核心知识系统设计,包含 10 个任务类别和 3081 个实例。团队对 GPT-5、Gemini 等最强多模态模型进行了全面测试,得出三个核心结论:第一,感知不是瓶颈,行动才是——模型在获得最佳视角时表现优异,但自身无法找到正确视角,甚至出现「动作盲视」现象;第二,不完美的 3D 重建比 2D 更糟糕,会引入有毒的失真信息;第三,模型存在严重的元认知缺陷,即不知道自己不知道,会过早停止探索并过度自信。文章还介绍了论文作者团队,包括一作 Yining Hong 等。

💡 主要观点

- ESI-Bench 要求智能体主动行动,而非被动感知,以评测真正的空间智能。 现有基准仅给模型提供图片并提问,测试的是「视力」。ESI-Bench 要求智能体像人类一样,通过移动、观察、操作物体来主动获取信息,闭合感知-行动回路。

当前最强 AI 的感知能力已接近人类,但行动策略几乎为零。 在获得最佳视角时,模型准确率可超 95%,但自身无法找到正确视角,甚至出现「动作盲视」——随机多视角反而导致性能下降。
不完美的 3D 重建比 2D 更糟糕,会引入有毒的失真信息。 使用 VGGT 重建后的场景图进行推理,性能远低于 2D 基线。几何伪影和深度估计偏差会编码成有毒输入,导致推理模型产生更差结果。
模型存在严重的元认知缺陷:不知道自己不知道。 模型会过早停止探索,即便证据模糊也以高置信度做出判断,缺乏内建的「怀疑机制」来评估信息充分性,这是比感知能力更底层的挑战。

💬 文章金句

- 过去的空间智能评测默认给模型最优观测,而 ESI-Bench 第一个把观察者变成行动者,闭合了感知-行动回路。

  • 现在的 AI 看图很厉害,但离「会动、会摸、会主动找答案」的空间智能还差得远。
  • 团队把这个现象命名为「动作盲视」(Action Blindness),一个差动作导致一个差视角,差视角触发更差动作,形成不可逆的级联失败。
  • 不完美的 3D 不是中性失败,它是负向失败。
  • 模型缺乏一种内建的「怀疑机制」,无法评估当前信息是否充分,无法根据矛盾证据调整信念。

📊 文章信息

AI 初评:86

来源:大模型智能

作者:大模型智能

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3504

标签: 空间智能, 具身智能, ESI-Bench, 李飞飞, 多模态大模型

阅读完整文章

查看原文 → 發佈: 2026-05-23 00:00:00 收錄: 2026-05-23 12:00:11

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。