AI在博士级物理测试中表现不佳
AI遭遇物理瓶颈:顶尖模型在博士级测试中得分低于10%

想象一下将你最棘手的物理作业交给当今最聪明的AI处理。结果可能会让你大吃一惊——而且并非好事。一项名为CritPt的新基准测试显示,即使是我们最先进的人工智能也难以应对物理学博士生应具备的基础研究技能。
AI的终极物理考试
来自全球顶尖机构的50多位物理学家专门设计了CritPt,以测试AI是否能处理原创、未发表的研究问题。忘记教科书上的问题吧——这些都是科学家们在量子物理学、天体物理学等前沿领域日常面临的实际挑战。
该测试包括:
- 71个完整的研究挑战
- 分为190个较小的检查点
- 全部基于未发表材料以防止作弊
"我们想看看AI是否能像研究者一样思考,"参与该项目的一位物理学家解释道,"不仅仅是回忆信息,还要解决前人未曾解决的问题。"
低得惊人的分数
数据讲述了一个发人深省的故事:
- Gemini3Pro Preview:9.1%的准确率(谷歌的最佳表现)
- GPT-5.1 (high):仅4.9%的正确率(OpenAI的顶级模型)
测试揭示了根本性弱点:
- 模型在定义明确的子任务上表现稍好
- 完整的研究问题?几乎完全失败
- "一致分辨率"得分(重复正确答案)甚至更糟
最令人担忧的发现是什么?这些先进系统经常产生乍看合理但包含细微错误的答案,这些错误可能会破坏实际研究。
为什么AI无法攻克物理学?
核心问题似乎在于推理能力。当前模型:
- 缺乏对物理原理的真正理解
- 难以进行多步骤问题解决
- 无法在复杂计算中保持逻辑一致性 "就像一个不断犯粗心错误的聪明学生,"一位研究人员指出,"你不会放心让他们负责实验室工作。"
影响是严重的:
- 人类专家必须仔细检查所有AI输出
- 潜在的节省时间优势在纠错过程中消失殆尽
- 自主科学发现仍然遥不可及 不过公司们并未放弃——OpenAI仍计划在2026年9月前推出一个"AI研究实习生"系统。
关键要点:
1️⃣ 当前局限:顶尖AI模型在博士级物理测试中得分低于10% 2️⃣ 隐藏危险:看似正确的答案往往包含细微错误 3️⃣ 实际角色:更适合作为助手而非独立研究者 4️⃣ 未来展望:诺贝尔级别的工作仍需重大突破