GPT-5及顶尖AI模型在新FormulaOne基准测试中得零分
GPT-5及顶尖AI模型在新FormulaOne基准测试中得零分
2025年8月15日 — 一项名为FormulaOne的突破性AI评估基准暴露了当今最先进人工智能系统的重大局限。该测试由专注于超级智能的研究机构AAI开发,结果显示包括GPT-5、Grok4和o3Pro在内的模型均未能解决其最具挑战性的问题。
FormulaOne挑战赛
该基准包含220个新颖的图结构动态规划问题,涵盖中等至研究级难度。这些问题涉及以下复杂领域:
- 拓扑学
- 几何学
- 组合数学
这些问题基于Courcelle算法元定理,该定理指出任何可在树状图逻辑中定义的问题都能通过动态规划算法解决。这需要复杂的树分解技术——将图的顶点组织成按层次排列的重叠集合。
性能分析
虽然当前AI模型在较简单问题上表现出中等成功率(50%-70%准确率),但随着复杂度增加,其性能急剧下降:
模型 | 浅层问题成功率 | 深层问题解决率 | 博士级问题成功率 |
---|
学术界反应
该结果引发了关于AI是否能真正实现博士级推理能力的争论。部分研究者建议在未来的评估中加入人类博士生作为对比。
"这一基准凸显了AI处理深度抽象问题的关键缺陷,"AAI发言人指出,"虽然模型擅长模式识别,但结构化逻辑推理仍是挑战。"
完整排行榜见:FormulaOne-Leaderboard
关键点:
✅ 所有顶尖AI模型在最难题上均得零分.\ ✅ 该基准测试包含220个高难度动态规划问题.\ ✅ AI表现随问题复杂度骤降,揭示其推理局限性.