跳转到主要内容

GPT-5.2:辉煌与困惑并存的混合体

GPT-5.2展现专业实力,却暴露惊人短板

适逢OpenAI成立十周年之际,科技界对其最新成果既充满赞叹又困惑不已。GPT-5.2在复杂专业领域展现出非凡能力的同时,却连聪明初中生都能解决的任务都无法完成。

GPT-5.2的闪光点

该模型在专业领域取得突破性成果:

  • 专业专长:在GDPval测试的44项职业任务中获得70.9%的惊人成绩,超越顶尖人类专家
  • 编程实力:在SWE-bench Pro编码挑战中实现最先进表现(55.6%)
  • 可靠性提升:相比前代GPT-5.1,幻觉率降低38%

"这些专业基准代表着真正的突破," AI研究员Elena Martinez博士指出,"该模型展现出前所未有的领域特定知识。"

严重失误之处

基础推理测试暴露了明显缺陷:

  • 常识性错误:在涉及基础逻辑的SimpleBench测试中得分低于竞争对手
  • 计数难题:反复无法正确计算"garlic"等简单单词的字母数量
  • 一致性问题:对相同问题多次尝试给出不同答案

前AWS经理Bindu Reddy直言不讳:"当新版连幼儿园水平的问题都处理不好时,为什么要从GPT-5.1升级?"

关于AI智能的大辩论

这种矛盾表现引发了根本性质疑:

  1. 掌握复杂技能是否能弥补简单任务的失败?
  2. 我们是否错误地衡量了AI智能?
  3. 这可能是偏向专业知识的刻意取舍吗?

科技界意见分歧,用户既惊叹于GPT-5.2的专业能力,又对其令人费解的局限性感到沮丧。

未来数月将揭示这些缺陷是暂时的成长阵痛,还是当前AI方法的根本局限。

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

OpenAI发布Prism:科学协作领域的颠覆者

OpenAI推出了专为研究人员打造的革新性工作空间Prism。该平台基于GPT-5.2构建,通过整合LaTeX编译、文献管理和AI辅助问题解决等核心功能,彻底解决了科研写作中频繁切换工具的难题。研究人员现可实时无缝协作,同时享受先进AI能力的加持。

January 28, 2026
OpenAI研究工具科学协作
News

AI的科学飞跃:为何2026年将彻底改变科研

OpenAI的Kevin Weil预测,到2026年AI将通过GPT-5.2彻底革新科学研究,该模型在高级知识测试中得分已超越人类专家。焦点从将AI视为无所不知的预言机转向谦逊的研究伙伴,帮助科学家发现可能忽略的关联。

January 28, 2026
AI ResearchScientific BreakthroughsGPT-5
News

AI的意外困境:为何六岁儿童能胜过顶级模型

一项突破性研究表明,即便是Gemini 3 Pro Preview等先进AI模型,在视觉推理能力上也难以匹敌六岁儿童。研究人员揭示了硅基大脑在四个关键领域的缺陷,从忽略细微细节到空间想象力的不足。这一发现挑战了我们对AI优越性的假设,并引发了对具身智能未来的思考。

January 23, 2026
AI局限性视觉推理认知发展
News

AI模型在简单日历问题上栽跟头

令人意外的是,包括Google AI概览、ChatGPT和Claude在内的主流AI模型在被问及'2027年是明年吗'时,竟在基础日历逻辑上出错。虽然部分模型在对话中途自我纠正,但初始错误暴露出这些系统对时间和序列认知存在意料之外的缺陷。唯有Google的Gemini 3给出了正确答案,凸显出AI推理能力仍面临持续挑战。

January 19, 2026
AI局限性机器学习科技故障
GPT-5.2在马拉松式编程挑战中超越Claude Opus
News

GPT-5.2在马拉松式编程挑战中超越Claude Opus

在一场AI编程助手的正面较量中,OpenAI的GPT-5.2在处理大型编程项目时展现出比Anthropic的Claude Opus 4.5更持久的耐力和更高的精确度。Cursor团队对两款模型进行了严苛测试,包括从零开始构建网页浏览器——结果表明GPT-5.2能在长达数周的编程马拉松中保持专注且不走捷径。

January 15, 2026
AI编程GPT-5Cursor
News

GPT-5.2在浏览器构建挑战中超越Claude Opus

在一项突破性的AI工程能力测试中,OpenAI的GPT-5.2展现了相比Anthropic的Claude Opus 4.5更出色的能力,能够持续专注于复杂编程任务。该实验要求从零开始构建一个完整的网页浏览器——这项任务需要数周时间内对细节保持高度专注。虽然两款模型都擅长短代码任务,但GPT-5.2在长期项目中表现出惊人的一致性,且始终没有偏离原始目标。

January 15, 2026
AI编程GPT-5软件工程