跳转到主要内容

GPT-5及顶尖AI模型在新FormulaOne基准测试中得零分

GPT-5及顶尖AI模型在新FormulaOne基准测试中得零分

2025年8月15日 — 一项名为FormulaOne的突破性AI评估基准暴露了当今最先进人工智能系统的重大局限。该测试由专注于超级智能的研究机构AAI开发,结果显示包括GPT-5Grok4o3Pro在内的模型均未能解决其最具挑战性的问题。

FormulaOne挑战赛

该基准包含220个新颖的图结构动态规划问题,涵盖中等至研究级难度。这些问题涉及以下复杂领域:

  • 拓扑学
  • 几何学
  • 组合数学

Image

这些问题基于Courcelle算法元定理,该定理指出任何可在树状图逻辑中定义的问题都能通过动态规划算法解决。这需要复杂的树分解技术——将图的顶点组织成按层次排列的重叠集合。

性能分析

虽然当前AI模型在较简单问题上表现出中等成功率(50%-70%准确率),但随着复杂度增加,其性能急剧下降:

模型 浅层问题成功率 深层问题解决率 博士级问题成功率

Image

学术界反应

该结果引发了关于AI是否能真正实现博士级推理能力的争论。部分研究者建议在未来的评估中加入人类博士生作为对比。

"这一基准凸显了AI处理深度抽象问题的关键缺陷,"AAI发言人指出,"虽然模型擅长模式识别,但结构化逻辑推理仍是挑战。"

完整排行榜见:FormulaOne-Leaderboard

关键点:

所有顶尖AI模型在最难题上均得零分.\ ✅ 该基准测试包含220个高难度动态规划问题.\ ✅ AI表现随问题复杂度骤降,揭示其推理局限性.

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

蚂蚁集团旗下灵博科技向全球开发者开放关键AI模型

蚂蚁集团子公司灵博科技已开源其尖端LingBot-VLA具身智能模型及完整训练工具包。此举显著降低了机器人开发者的门槛,在现实和模拟环境中提供卓越性能。该套件包含模型权重、代码库、数据集和技术文档——为机器人系统实现高级AI功能所需的一切。

January 28, 2026
人工智能机器人技术开源
谷歌Gemini 3 Flash现具备人类专家般的视觉能力
News

谷歌Gemini 3 Flash现具备人类专家般的视觉能力

谷歌对Gemini 3 Flash的最新升级赋予AI视觉系统类人类的图像分析能力。全新的Agentic Vision功能让AI能主动探索图片而非简单一瞥——放大细节、标注元素并推理复杂视觉信息。这一突破可应用于从读取远处路标到解读精密图表等各类场景。

January 28, 2026
AI视觉谷歌Gemini机器学习
News

OpenAI发布Prism:科学协作领域的颠覆者

OpenAI推出了专为研究人员打造的革新性工作空间Prism。该平台基于GPT-5.2构建,通过整合LaTeX编译、文献管理和AI辅助问题解决等核心功能,彻底解决了科研写作中频繁切换工具的难题。研究人员现可实时无缝协作,同时享受先进AI能力的加持。

January 28, 2026
OpenAI研究工具科学协作
News

AI的科学飞跃:为何2026年将彻底改变科研

OpenAI的Kevin Weil预测,到2026年AI将通过GPT-5.2彻底革新科学研究,该模型在高级知识测试中得分已超越人类专家。焦点从将AI视为无所不知的预言机转向谦逊的研究伙伴,帮助科学家发现可能忽略的关联。

January 28, 2026
AI ResearchScientific BreakthroughsGPT-5
阿里巴巴通义千问AI迎来大脑升级,全新推理模型赋能
News

阿里巴巴通义千问AI迎来大脑升级,全新推理模型赋能

阿里巴巴推出了迄今为止最先进的推理模型——Qwen3-Max-Thinking,为其PC和网页平台的通义千问AI助手提供支持。这款万亿参数模型在事实知识、复杂问题解决和类人推理方面树立了新标杆,可与全球顶级AI系统媲美。用户现在可以体验到更智能、更主动的交互,以及增强的记忆和逻辑能力。

January 27, 2026
人工智能阿里巴巴机器学习
机器人获得触觉感知:突破性数据集架起视觉与触感的桥梁
News

机器人获得触觉感知:突破性数据集架起视觉与触感的桥梁

科学家发布了全球最全面的机器人视觉与触觉结合数据集Baihu-VTouch。该集合涵盖60,000多分钟不同类型机器人的交互记录,以惊人精度捕捉细微接触细节。这一突破或将彻底改变机器人执行精细任务的方式——想象一下机器能真正'感知'自己在做什么。

January 26, 2026
机器人技术人工智能研究触觉传感器