跳转到主要内容

AI在博士级物理测试中表现不佳

AI遭遇物理瓶颈:顶尖模型在博士级测试中得分低于10%

Image

想象一下将你最棘手的物理作业交给当今最聪明的AI处理。结果可能会让你大吃一惊——而且并非好事。一项名为CritPt的新基准测试显示,即使是我们最先进的人工智能也难以应对物理学博士生应具备的基础研究技能。

AI的终极物理考试

来自全球顶尖机构的50多位物理学家专门设计了CritPt,以测试AI是否能处理原创、未发表的研究问题。忘记教科书上的问题吧——这些都是科学家们在量子物理学、天体物理学等前沿领域日常面临的实际挑战。

该测试包括:

  • 71个完整的研究挑战
  • 分为190个较小的检查点
  • 全部基于未发表材料以防止作弊

"我们想看看AI是否能像研究者一样思考,"参与该项目的一位物理学家解释道,"不仅仅是回忆信息,还要解决前人未曾解决的问题。"

低得惊人的分数

数据讲述了一个发人深省的故事:

  • Gemini3Pro Preview:9.1%的准确率(谷歌的最佳表现)
  • GPT-5.1 (high):仅4.9%的正确率(OpenAI的顶级模型)

测试揭示了根本性弱点:

  1. 模型在定义明确的子任务上表现稍好
  2. 完整的研究问题?几乎完全失败
  3. "一致分辨率"得分(重复正确答案)甚至更糟

最令人担忧的发现是什么?这些先进系统经常产生乍看合理但包含细微错误的答案,这些错误可能会破坏实际研究。

为什么AI无法攻克物理学?

核心问题似乎在于推理能力。当前模型:

  • 缺乏对物理原理的真正理解
  • 难以进行多步骤问题解决
  • 无法在复杂计算中保持逻辑一致性 "就像一个不断犯粗心错误的聪明学生,"一位研究人员指出,"你不会放心让他们负责实验室工作。"

影响是严重的:

  • 人类专家必须仔细检查所有AI输出
  • 潜在的节省时间优势在纠错过程中消失殆尽
  • 自主科学发现仍然遥不可及 不过公司们并未放弃——OpenAI仍计划在2026年9月前推出一个"AI研究实习生"系统。

关键要点:

1️⃣ 当前局限:顶尖AI模型在博士级物理测试中得分低于10% 2️⃣ 隐藏危险:看似正确的答案往往包含细微错误 3️⃣ 实际角色:更适合作为助手而非独立研究者 4️⃣ 未来展望:诺贝尔级别的工作仍需重大突破

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

xAI创始团队瓦解:最后一位原始成员离职

埃隆·马斯克的人工智能企业xAI失去了最后一位创始成员吴托尼,标志着其原始团队彻底解散。此次离职引发了对xAI未来发展方向和技术稳定性的质疑,尤其是在其竞相开发Grok-3之际。尽管马斯克通过从特斯拉和SpaceX引进新人才来安抚外界,但行业观察人士仍担忧在激烈的AI竞赛中失去机构知识。

March 30, 2026
人工智能埃隆·马斯克科技初创企业
News

Moonshot AI的惊人转型:从技术演示到营收巨头

在一场戏剧性转变中,Moonshot AI已从一个有前景的科技初创公司蜕变为商业巨头。该公司近期发布的K2.5模型在20天内创造的收入超过去年全年,促使他们加速推进IPO准备。随着估值飙升至180亿美元且海外收入首次超越国内,中国AI行业正经历从投机性投资到成熟商业模式的根本性转变。

March 30, 2026
人工智能科技IPOMoonshot AI
News

116项AI创新成果荣获中国顶级吴文俊人工智能科学技术奖

中国人工智能界迎来高光时刻,第十五届吴文俊人工智能科学技术奖表彰了116项突破性项目。该奖项突出展示了生成式AI、大模型和具身智能等领域的进展,清华大学孙富春教授与重庆大学宋永端院士分获最高荣誉。自动驾驶和医疗健康等产业应用彰显中国AI生态的蓬勃发展。

March 30, 2026
人工智能吴文俊奖AI研究
News

Qwen邀请您协助训练其AI助手——可获乘车优惠券

Qwen正每日招募百万用户测试其智能叫车、自动充值等新型AI服务。3月30日至4月6日期间,参与者在帮助AI更好理解现实需求的同时可获得优惠券。该项目旨在攻克AI领域最艰巨的挑战:解析人类实际沟通需求时杂乱且个性化的表达方式。

March 30, 2026
AI助手机器学习用户体验
News

机器人通过新型AI模型速成常识课程

深度心智智能公司推出突破性AI模型PhysBrain 1.0,该系统能像人类一样理解物理定律。与单纯模仿动作的传统方法不同,这项由北京中关村科技园区研发的技术,可帮助机器人以惊人效率适应不可预测的现实环境。

March 27, 2026
人工智能机器人技术机器学习
News

Claude Mythos 泄露:Anthropic 新一代 AI 模型超越当前领先者

泄露文件显示 Anthropic 正在秘密测试名为 Claude Mythos 的新 AI 模型,据称其性能已超越旗舰产品 Claude Opus。虽然这一突破预示着前所未有的智能水平,但内部警告也指出其存在严重的网络安全风险。这一发展可能重塑竞争格局,科技巨头们在推进 AI 边界的同时也面临着安全问题的挑战。

March 27, 2026
人工智能AnthropicAI安全