李飞飞新基准测试揭示AI仍难应对真实世界交互
AI空间智能大考
当你环视房间时,大脑能轻松计算距离、预判障碍并规划路径。但对AI而言,这种人类的基本能力仍异常困难。斯坦福大学李飞飞团队开发的ESI-Bench基准测试,首次量化评估了AI系统对物理空间的理解与交互能力。

从被动观察到主动参与
传统AI测试通过精选图像评估空间推理——例如向模型展示椅子的多角度照片并询问"这是什么?"。ESI-Bench彻底改变了这种方式:AI必须主动探索虚拟环境,自主决定移动路径、观察目标及操作对象来解决问题。
核心创新:
- 基于婴儿学习空间概念的认知科学原理
- 涵盖3,081项任务,分属物体操控、导航等10大类
- 采用OmniGibson平台实现真实物理模拟
当前AI的三大痛点
测试GPT-5和Gemini等顶级模型后暴露出意料之外的弱点:
1. 看见不等于做到
给定完美视角时,AI能出色完成空间问题。但要求自主寻找视角?性能直线下降。模型缺乏策略思维——可能撞墙或检查无关对象,导致错误连锁反应。
2. 三维地图的误导性

研究人员曾假设3D场景重建能提升表现。但出人意料的是,这些地图中的深度误差或缺失物体等缺陷,反而比简单2D图像更易误导AI。就像使用故障GPS导航 versus 相信自己的眼睛。
3. 盲目自信陷阱
人类知道何时在猜测。当前AI则不然。模型常过早停止探索,却以高置信度给出错误答案。这种"元认知缺陷"意味着AI无法判断是否已获取足够信息来做出可靠结论。
具身AI的未来方向
ESI-Bench不仅是测试——更是发展蓝图。未来系统需要:
- 主动探索策略(不仅是更优视觉)
- 容错推理应对不完整数据
- 自我怀疑机制识别认知盲区
如李飞飞团队指出,真正的空间智能需要超越大数据训练。AI必须掌握物理探索的艺术——就像好奇孩童探索世界那样。
关键要点:
- ESI-Bench评估AI与环境主动交互的能力
- 顶级模型在自主探索和3D感知方面表现欠佳
- "自知无知"能力的缺失仍是主要障碍
- 未来AI可能需要元认知能力应对现实任务