GPT-5.2:辉煌与困惑并存的混合体
GPT-5.2展现专业实力,却暴露惊人短板
适逢OpenAI成立十周年之际,科技界对其最新成果既充满赞叹又困惑不已。GPT-5.2在复杂专业领域展现出非凡能力的同时,却连聪明初中生都能解决的任务都无法完成。
GPT-5.2的闪光点
该模型在专业领域取得突破性成果:
- 专业专长:在GDPval测试的44项职业任务中获得70.9%的惊人成绩,超越顶尖人类专家
- 编程实力:在SWE-bench Pro编码挑战中实现最先进表现(55.6%)
- 可靠性提升:相比前代GPT-5.1,幻觉率降低38%
"这些专业基准代表着真正的突破," AI研究员Elena Martinez博士指出,"该模型展现出前所未有的领域特定知识。"
严重失误之处
基础推理测试暴露了明显缺陷:
- 常识性错误:在涉及基础逻辑的SimpleBench测试中得分低于竞争对手
- 计数难题:反复无法正确计算"garlic"等简单单词的字母数量
- 一致性问题:对相同问题多次尝试给出不同答案
前AWS经理Bindu Reddy直言不讳:"当新版连幼儿园水平的问题都处理不好时,为什么要从GPT-5.1升级?"
关于AI智能的大辩论
这种矛盾表现引发了根本性质疑:
- 掌握复杂技能是否能弥补简单任务的失败?
- 我们是否错误地衡量了AI智能?
- 这可能是偏向专业知识的刻意取舍吗?
科技界意见分歧,用户既惊叹于GPT-5.2的专业能力,又对其令人费解的局限性感到沮丧。
未来数月将揭示这些缺陷是暂时的成长阵痛,还是当前AI方法的根本局限。
