跳转到主要内容

GPT-5及顶尖AI模型在新FormulaOne基准测试中得零分

GPT-5及顶尖AI模型在新FormulaOne基准测试中得零分

2025年8月15日 — 一项名为FormulaOne的突破性AI评估基准暴露了当今最先进人工智能系统的重大局限。该测试由专注于超级智能的研究机构AAI开发,结果显示包括GPT-5Grok4o3Pro在内的模型均未能解决其最具挑战性的问题。

FormulaOne挑战赛

该基准包含220个新颖的图结构动态规划问题,涵盖中等至研究级难度。这些问题涉及以下复杂领域:

  • 拓扑学
  • 几何学
  • 组合数学

Image

这些问题基于Courcelle算法元定理,该定理指出任何可在树状图逻辑中定义的问题都能通过动态规划算法解决。这需要复杂的树分解技术——将图的顶点组织成按层次排列的重叠集合。

性能分析

虽然当前AI模型在较简单问题上表现出中等成功率(50%-70%准确率),但随着复杂度增加,其性能急剧下降:

模型 浅层问题成功率 深层问题解决率 博士级问题成功率

Image

学术界反应

该结果引发了关于AI是否能真正实现博士级推理能力的争论。部分研究者建议在未来的评估中加入人类博士生作为对比。

"这一基准凸显了AI处理深度抽象问题的关键缺陷,"AAI发言人指出,"虽然模型擅长模式识别,但结构化逻辑推理仍是挑战。"

完整排行榜见:FormulaOne-Leaderboard

关键点:

所有顶尖AI模型在最难题上均得零分.\ ✅ 该基准测试包含220个高难度动态规划问题.\ ✅ AI表现随问题复杂度骤降,揭示其推理局限性.

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

Anthropic蓄势待发即将推出重磅AI产品:Claude 4.7与新设计工具前瞻
News

Anthropic蓄势待发即将推出重磅AI产品:Claude 4.7与新设计工具前瞻

Anthropic似乎准备通过即将发布的Claude Opus 4.7和一款可能改变游戏规则的设计工具再次颠覆AI领域。行业观察人士从API配置和Google Vertex AI中发现端倪,而泄露的源代码则暗示了重大升级。这一消息在市场掀起波澜,设计软件类股票应声下跌。此时Anthropic的估值已飙升至8000亿美元,表明市场对其独特的AI发展路径日益看好。

April 16, 2026
AI发展Anthropic生成式AI
京东发布颠覆性AI相机,助力下一代机器人技术
News

京东发布颠覆性AI相机,助力下一代机器人技术

中国电商巨头京东凭借其新款JoyEgoCam系统在人工智能领域迈出了重要一步。这款前沿的双摄像头设备能以每秒60帧的速度捕捉超高清视频,专为训练机器人观察和与世界互动而设计。随着京东启动一项雄心勃勃的计划——收集超过1000万小时的真实世界视频数据,这项发布或将彻底改变机器在仓储、物流等领域学习物理任务的方式。

April 16, 2026
AI硬件机器人技术计算机视觉
谷歌新AI突破:让计算机像人类一样观察
News

谷歌新AI突破:让计算机像人类一样观察

谷歌DeepMind发布了TIPSv2,这种开创性方法帮助AI模型以前所未有的细节理解图像——甚至能识别熊猫的单个腿部。与现有系统只能把握整体内容却在细节上出错不同,这项新技术结合了三种巧妙方法,在提高精度的同时降低了计算成本。这一开源方案可能彻底改变从医学影像到自动驾驶汽车的多个领域。

April 16, 2026
计算机视觉AI研究机器学习
MiniMax发布MaxHermes:能够自学新技能的AI
News

MiniMax发布MaxHermes:能够自学新技能的AI

MiniMax推出了具有突破性意义的云沙盒MaxHermes,它能够自主学习。不同于需要手动编程的传统AI工具,MaxHermes从任务执行中提取'技能',并通过用户反馈不断改进。该系统结合了持久性记忆、自然语言调度和多代理操作,可能创造出首个真正意义上的自我进化AI助手。由MiniMax最新的M2.7模型驱动,这项创新或将重新定义我们在现实应用中思考AI能力的方式。

April 16, 2026
AI创新机器学习自主系统
News

AI实验室否认代码抄袭指控,开发者争议持续升温

硅谷Nous Research公司因Hermes Agent项目面临中国AI团队EvoMap的剽窃指控。EvoMap称该项目架构与其Evolver引擎存在惊人相似性,引发激烈交锋。这场在社交媒体获得近19万次浏览的争议,凸显了竞争激烈的AI开发领域日益紧张的态势。

April 16, 2026
AI伦理开源技术纠纷
MaxHermes作为全球首个自学习AI云沙盒平台震撼发布
News

MaxHermes作为全球首个自学习AI云沙盒平台震撼发布

MiniMax Xiyu科技推出革命性AI云沙盒MaxHermes,其独特之处在于AI代理能通过交互实现自主学习和进化。与静态AI工具不同,该助手能记住历史对话并提供愈发个性化的响应,通过无缝集成主流平台和按需付费模式,为企业和个人提供触手可及的高级AI体验。

April 16, 2026
AI创新云计算机器学习