学术界最近推出了BabyVision基准测试,结果令人大跌眼镜——当前的多模态大模型在语言理解上能媲美博士生,可一到视觉推理环节,竟连三岁孩童都不如。这反差简直像让一个文学教授做幼儿园拼图,理论头头是道,实操手忙脚乱。
研究人员设计这套测试时特意模拟了婴幼儿的认知发展轨迹。比如让AI识别被部分遮挡的玩具,或是理解积木的物理平衡关系。没想到这些对人类幼童轻而易举的任务,却让最先进的模型频频"翻车"。有个实验场景特别生动:当问及"如果推倒这座积木塔会发生什么",模型能准确描述坍塌过程,却无法像两岁孩子那样本能地伸手去扶。
这种割裂现象暴露出AI发展的深层问题。我们教会了机器引经据典,却没赋予它们基础的生活直觉。就像培养出一个能解微积分却不会系鞋带的天才儿童。或许AI研发真该向人类婴儿学习——先爬再走,先看世界再谈哲学。毕竟连物体恒存性都理解不了的智能系统,离真正的通用人工智能还有很长的路要走。