李飞飞团队发布 ESI-Bench,一个要求智能体通过主动行动完成空间推理的新基准,揭示当前 AI 在「行动策略」和「元认知」上的根本缺陷。
📝 详细摘要
李飞飞团队最新发布的 ESI-Bench 是一个专门评测具身空间智能的新基准。与现有仅测试「被动感知」的基准不同,ESI-Bench 要求智能体必须通过主动行动(如移动、抓取、倾倒)来获取信息并完成推理,闭合了「感知-行动回路」。基准包含 10 个任务类别、29 个子类别、3081 个任务实例,围绕人类核心空间认知的四大维度设计。团队对 GPT-5、Gemini 等最强多模态大模型进行全面测试,得出三个核心结论:第一,感知不是瓶颈,行动才是——模型存在「动作盲视」现象,一个差动作导致级联失败;第二,不完美的 3D 重建比 2D 更坑,重建失真会「毒化」推理输入;第三,模型存在元认知缺陷,不知道自己看没看够,缺乏怀疑机制。该工作为具身空间智能领域提供了一个系统性的评测框架。
💡 主要观点
- ESI-Bench 要求智能体通过主动行动完成空间推理,而非被动看图。 现有基准测试的是模型的「视力」,而 ESI-Bench 要求智能体像人类一样主动决定行动、获取证据,再基于新观测做判断,闭合了感知-行动回路。
💬 文章金句
- 现在的 AI 看图很厉害,但离「会动、会摸、会主动找答案」的空间智能还差得远。
- 正确答案不在任何单张图片里,智能体必须主动行动并推理出正确结果。
- 空间智能的卡点不在于视觉模型不够强,而是行动策略几乎为零。
- 不完美的 3D 不是中性失败,它是负向失败。
- 模型不知道自己不知道。它缺乏一种内建的「怀疑机制」,无法评估当前信息是否充分。
📊 文章信息
AI 初评:88
来源:量子位
作者:听雨
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3252
标签: ESI-Bench, 空间智能, 具身智能, 李飞飞, AI 评测