AI在物理谜题面前表现不佳：顶尖模型得分低于10%

当AI遇上高等物理：现实检验

图片来源说明：该图片由AI生成，图片授权服务提供商为Midjourney

想象一下，把一堆尖端物理问题交给一位聪明的博士生候选人——然后发现他们甚至无法正确解答十分之一的问题。这正是研究人员用当今最先进的AI系统测试真实科学挑战时发生的情况。

数字背后的严峻考验

"CritPt"基准测试毫不留情。这个由全球50多位物理学家开发的测试包含了71个未发表的研究问题，涵盖量子物理、天体物理等要求极高的领域。这些不是教科书上的练习题，而是旨在模拟早期职业研究人员实际面临的全新挑战。

"我们希望消除记忆或模式识别带来的任何优势," CritPt背后的团队解释道,"每个问题都在测试真正的理解和解决问题的能力。"

当成绩公布时，即便是乐观主义者也感到惊讶：

在更严格的评估下，成绩变得更糟。当模型需要在五次尝试中四次答对（"连续解决率"）时，表现进一步下滑。

"这些系统可以产生乍一看令人信服的答案,"一位参与测试的物理学家指出,"但仔细检查后，你会发现一些细微的错误——如果不加以检查，可能会破坏真正的研究成果。"

其影响远不止于理论物理学：

领先实验室现在将AI视为复杂的助手而非研究人员替代品：

"把它们想象成聪明但容易出错的研究生,"一位团队成员建议道,"它们的想法可以激发突破性进展，但你永远不会让它们在没有监督的情况下运作。"