跳转到主要内容

AI在物理谜题面前表现不佳:顶尖模型得分低于10%

当AI遇上高等物理:现实检验

Image 图片来源说明:该图片由AI生成,图片授权服务提供商为Midjourney

想象一下,把一堆尖端物理问题交给一位聪明的博士生候选人——然后发现他们甚至无法正确解答十分之一的问题。这正是研究人员用当今最先进的AI系统测试真实科学挑战时发生的情况。

数字背后的严峻考验

"CritPt"基准测试毫不留情。这个由全球50多位物理学家开发的测试包含了71个未发表的研究问题,涵盖量子物理、天体物理等要求极高的领域。这些不是教科书上的练习题,而是旨在模拟早期职业研究人员实际面临的全新挑战。

"我们希望消除记忆或模式识别带来的任何优势," CritPt背后的团队解释道,"每个问题都在测试真正的理解和解决问题的能力。"

令人惊讶的短板

当成绩公布时,即便是乐观主义者也感到惊讶:

  • Google的Gemini3Pro:准确率9.1%
  • OpenAI的GPT-5:仅4.9%

在更严格的评估下,成绩变得更糟。当模型需要在五次尝试中四次答对("连续解决率")时,表现进一步下滑。

"这些系统可以产生乍一看令人信服的答案,"一位参与测试的物理学家指出,"但仔细检查后,你会发现一些细微的错误——如果不加以检查,可能会破坏真正的研究成果。"

为何这超出了实验室的意义

其影响远不止于理论物理学:

  1. 研究工作流程:使用AI工具的科学家必须预留额外时间进行验证
  2. 公众认知:降低对AI短期内取代人类专家的期望值
  3. 开发重点:突出了未来AI训练应该关注的领域

更现实的角色正在形成

领先实验室现在将AI视为复杂的助手而非研究人员替代品:

  • OpenAI计划在2026年前推出"研究实习生"系统
  • 完全自主的研究预计不会早于2028年
  • 现有模型已经帮助节省了常规任务的时间

"把它们想象成聪明但容易出错的研究生,"一位团队成员建议道,"它们的想法可以激发突破性进展,但你永远不会让它们在没有监督的情况下运作。"

关键要点:

  • 🔬 顶尖AI模型在未发表的物理挑战中得分低于10%
  • 🤯 当要求一致的准确性时表现进一步下降
  • 🛠️ 未来可能作为辅助工具而非独立研究人员
  • ⏳ 复杂科学领域的完全自主仍需数年时间

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

GPT-5以首个独立证明创造数学历史
News

GPT-5以首个独立证明创造数学历史

在人工智能研究的里程碑时刻,GPT-5在无人指导的情况下独立解决了一个复杂数学问题。瑞士数学家约翰内斯·施密特透露了这一突破,指出该AI运用了来自代数几何非预期领域的创造性方法。这一成就验证了数学家陶哲轩的预测,同时引发了关于AI在学术研究中的角色以及科学出版中新署名标准必要性的讨论。

December 23, 2025
人工智能研究数学机器学习
上海研究人员借助AI突破打破光子芯片研发壁垒
News

上海研究人员借助AI突破打破光子芯片研发壁垒

上海交通大学CHIPX研究所发布了革命性AI模型LightSeek,将光子芯片研发周期从数月缩短至数周。该系统利用其先进试验线的实际生产数据,如同一位不知疲倦的专家,在制造开始前就能预测问题并优化设计。早期测试显示显著成效——某项目仅用四周就完成,而通常需要六个月。

December 9, 2025
光子学人工智能研究半导体
阿里巴巴Qwen3-VL在空间推理测试中超越竞争对手
News

阿里巴巴Qwen3-VL在空间推理测试中超越竞争对手

阿里巴巴的Qwen3-VL视觉模型在空间推理基准测试中取得领先,在SpatialBench上获得13.5分——显著优于Gemini和GPT-5.1等竞争对手。该模型引入了3D检测升级和视觉编程能力等创新功能,其实际应用已在物流和智能港口中进行测试。虽然距离人类表现(80分)仍有差距,但这一进展标志着向更具空间感知能力的AI系统迈出了重要一步。

November 26, 2025
计算机视觉人工智能研究空间计算
清华UltraRAG 2.1以突破性框架简化AI检索
News

清华UltraRAG 2.1以突破性框架简化AI检索

清华大学、东北大学与技术合作伙伴联合推出的UltraRAG 2.1是一项变革性多模态检索系统。这一创新框架允许研究人员通过简单的YAML文件构建复杂AI检索流程,无需编写代码。凭借对文本、图像和PDF的原生支持,以及自动知识库构建功能,它正在为可及性AI开发树立新标准。

November 12, 2025
人工智能研究多模态检索自然语言处理
Periodic Labs 融资3亿美元,用AI革新材料科学
News

Periodic Labs 融资3亿美元,用AI革新材料科学

由前OpenAI和Google Brain研究人员创立的Periodic Labs已获得由Felicis Ventures领投的3亿美元融资。这家初创公司旨在通过将生成式AI与实验研究相结合,利用机械臂和机器学习模拟,彻底改变材料科学领域。

October 21, 2025
人工智能研究材料科学风险投资
腾讯推出青云奖学金培养AI人才
News

腾讯推出青云奖学金培养AI人才

腾讯宣布设立青云奖学金以支持人工智能研究人才。该项目将为15名硕士和博士生提供每人价值50万元人民币的现金和计算资源资助,主要面向计算机科学和人工智能领域的优秀学子。

October 14, 2025
腾讯人工智能研究奖学金计划