AI在物理谜题面前表现不佳:顶尖模型得分低于10%
当AI遇上高等物理:现实检验
图片来源说明:该图片由AI生成,图片授权服务提供商为Midjourney
想象一下,把一堆尖端物理问题交给一位聪明的博士生候选人——然后发现他们甚至无法正确解答十分之一的问题。这正是研究人员用当今最先进的AI系统测试真实科学挑战时发生的情况。
数字背后的严峻考验
"CritPt"基准测试毫不留情。这个由全球50多位物理学家开发的测试包含了71个未发表的研究问题,涵盖量子物理、天体物理等要求极高的领域。这些不是教科书上的练习题,而是旨在模拟早期职业研究人员实际面临的全新挑战。
"我们希望消除记忆或模式识别带来的任何优势," CritPt背后的团队解释道,"每个问题都在测试真正的理解和解决问题的能力。"
令人惊讶的短板
当成绩公布时,即便是乐观主义者也感到惊讶:
- Google的Gemini3Pro:准确率9.1%
- OpenAI的GPT-5:仅4.9%
在更严格的评估下,成绩变得更糟。当模型需要在五次尝试中四次答对("连续解决率")时,表现进一步下滑。
"这些系统可以产生乍一看令人信服的答案,"一位参与测试的物理学家指出,"但仔细检查后,你会发现一些细微的错误——如果不加以检查,可能会破坏真正的研究成果。"
为何这超出了实验室的意义
其影响远不止于理论物理学:
- 研究工作流程:使用AI工具的科学家必须预留额外时间进行验证
- 公众认知:降低对AI短期内取代人类专家的期望值
- 开发重点:突出了未来AI训练应该关注的领域
更现实的角色正在形成
领先实验室现在将AI视为复杂的助手而非研究人员替代品:
- OpenAI计划在2026年前推出"研究实习生"系统
- 完全自主的研究预计不会早于2028年
- 现有模型已经帮助节省了常规任务的时间
"把它们想象成聪明但容易出错的研究生,"一位团队成员建议道,"它们的想法可以激发突破性进展,但你永远不会让它们在没有监督的情况下运作。"
关键要点:
- 🔬 顶尖AI模型在未发表的物理挑战中得分低于10%
- 🤯 当要求一致的准确性时表现进一步下降
- 🛠️ 未来可能作为辅助工具而非独立研究人员
- ⏳ 复杂科学领域的完全自主仍需数年时间





