GPT-5及顶尖AI模型在新FormulaOne基准测试中得零分欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

GPT-5及顶尖AI模型在新FormulaOne基准测试中得零分

2025年8月15日 — 一项名为FormulaOne的突破性AI评估基准暴露了当今最先进人工智能系统的重大局限。该测试由专注于超级智能的研究机构AAI开发，结果显示包括GPT-5、Grok4和o3Pro在内的模型均未能解决其最具挑战性的问题。

FormulaOne挑战赛

该基准包含220个新颖的图结构动态规划问题，涵盖中等至研究级难度。这些问题涉及以下复杂领域：

拓扑学
几何学
组合数学

这些问题基于Courcelle算法元定理，该定理指出任何可在树状图逻辑中定义的问题都能通过动态规划算法解决。这需要复杂的树分解技术——将图的顶点组织成按层次排列的重叠集合。

性能分析

虽然当前AI模型在较简单问题上表现出中等成功率（50%-70%准确率），但随着复杂度增加，其性能急剧下降：

模型	浅层问题成功率	深层问题解决率	博士级问题成功率

学术界反应

该结果引发了关于AI是否能真正实现博士级推理能力的争论。部分研究者建议在未来的评估中加入人类博士生作为对比。

"这一基准凸显了AI处理深度抽象问题的关键缺陷,"AAI发言人指出,"虽然模型擅长模式识别，但结构化逻辑推理仍是挑战。"

完整排行榜见：FormulaOne-Leaderboard

关键点：

✅ 所有顶尖AI模型在最难题上均得零分.\ ✅ 该基准测试包含220个高难度动态规划问题.\ ✅ AI表现随问题复杂度骤降，揭示其推理局限性.

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

Anthropic蓄势待发即将推出重磅AI产品：Claude 4.7与新设计工具前瞻

Anthropic似乎准备通过即将发布的Claude Opus 4.7和一款可能改变游戏规则的设计工具再次颠覆AI领域。行业观察人士从API配置和Google Vertex AI中发现端倪，而泄露的源代码则暗示了重大升级。这一消息在市场掀起波澜，设计软件类股票应声下跌。此时Anthropic的估值已飙升至8000亿美元，表明市场对其独特的AI发展路径日益看好。

April 16, 2026

AI发展Anthropic生成式AI

News

京东发布颠覆性AI相机，助力下一代机器人技术

中国电商巨头京东凭借其新款JoyEgoCam系统在人工智能领域迈出了重要一步。这款前沿的双摄像头设备能以每秒60帧的速度捕捉超高清视频，专为训练机器人观察和与世界互动而设计。随着京东启动一项雄心勃勃的计划——收集超过1000万小时的真实世界视频数据，这项发布或将彻底改变机器在仓储、物流等领域学习物理任务的方式。

April 16, 2026

AI硬件机器人技术计算机视觉

News

谷歌新AI突破：让计算机像人类一样观察

谷歌DeepMind发布了TIPSv2，这种开创性方法帮助AI模型以前所未有的细节理解图像——甚至能识别熊猫的单个腿部。与现有系统只能把握整体内容却在细节上出错不同，这项新技术结合了三种巧妙方法，在提高精度的同时降低了计算成本。这一开源方案可能彻底改变从医学影像到自动驾驶汽车的多个领域。

April 16, 2026

计算机视觉AI研究机器学习

News

MiniMax发布MaxHermes：能够自学新技能的AI

MiniMax推出了具有突破性意义的云沙盒MaxHermes，它能够自主学习。不同于需要手动编程的传统AI工具，MaxHermes从任务执行中提取'技能'，并通过用户反馈不断改进。该系统结合了持久性记忆、自然语言调度和多代理操作，可能创造出首个真正意义上的自我进化AI助手。由MiniMax最新的M2.7模型驱动，这项创新或将重新定义我们在现实应用中思考AI能力的方式。

April 16, 2026

AI创新机器学习自主系统

News