李飞飞团队发布 ESI-Bench,一个要求智能体主动行动而非被动感知的空间智能评测基准,揭示当前 AI 在行动策略和元认知上的严重缺陷。
📝 详细摘要
文章介绍了李飞飞团队最新发布的 ESI-Bench 基准,旨在评测具身空间智能。与现有仅测试「被动感知」的基准不同,ESI-Bench 要求智能体必须主动行动(如移动、观察、操作物体)才能获取足够信息并回答问题,从而闭合「感知-行动回路」。该基准基于 Spelke 的四大核心知识系统设计,包含 10 个任务类别和 3081 个实例。团队对 GPT-5、Gemini 等最强多模态模型进行了全面测试,得出三个核心结论:第一,感知不是瓶颈,行动才是——模型在获得最佳视角时表现优异,但自身无法找到正确视角,甚至出现「动作盲视」现象;第二,不完美的 3D 重建比 2D 更糟糕,会引入有毒的失真信息;第三,模型存在严重的元认知缺陷,即不知道自己不知道,会过早停止探索并过度自信。文章还介绍了论文作者团队,包括一作 Yining Hong 等。
💡 主要观点
- ESI-Bench 要求智能体主动行动,而非被动感知,以评测真正的空间智能。 现有基准仅给模型提供图片并提问,测试的是「视力」。ESI-Bench 要求智能体像人类一样,通过移动、观察、操作物体来主动获取信息,闭合感知-行动回路。
💬 文章金句
- 过去的空间智能评测默认给模型最优观测,而 ESI-Bench 第一个把观察者变成行动者,闭合了感知-行动回路。
- 现在的 AI 看图很厉害,但离「会动、会摸、会主动找答案」的空间智能还差得远。
- 团队把这个现象命名为「动作盲视」(Action Blindness),一个差动作导致一个差视角,差视角触发更差动作,形成不可逆的级联失败。
- 不完美的 3D 不是中性失败,它是负向失败。
- 模型缺乏一种内建的「怀疑机制」,无法评估当前信息是否充分,无法根据矛盾证据调整信念。
📊 文章信息
AI 初评:86
来源:大模型智能
作者:大模型智能
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3504
标签: 空间智能, 具身智能, ESI-Bench, 李飞飞, 多模态大模型