跳转到主要内容

Grok4在推理能力上超越GPT-5,但成本更高

AI模型对决:最新基准测试中的性能与成本

来自ARC Prize的新测试数据为人工智能领域的发展提供了关键洞察,揭示了主流语言模型在性能和运营成本上的显著差异。这项全面评估将xAI的Grok4与OpenAI的GPT-5在多维度基准测试中进行了对比,测量了通用推理能力。

基准测试解析:被验证的推理能力

在评估复杂推理能力的严苛ARC-AGI-2测试中:

  • Grok4(思考模式)以每任务2-4美元的成本取得16%准确率
  • GPT-5(高级版)仅花费0.73美元每任务就获得9.9%准确率

Image 主流语言模型在ARC-AGI基准测试中的性能与成本对比 | 图片来源:ARC-AGI

强度较低的ARC-AGI-1测试显示:

  • Grok4达到68%准确率(每任务1美元)
  • GPT-5取得65.7%准确率(每任务0.51美元)

"虽然Grok4展现出更优越的推理能力,但其成本结构使得GPT-5对多数应用更具经济可行性",ARC Prize发言人指出。

轻量级竞争者崭露头角

研究还评估了小型模型变体:

模型 AGI-1得分 AGI-1成本 AGI-2得分 AGI-2成本

Image Grok4、GPT-5及小型变体模型在ARC-AGI-1上的测试结果 | 图片来源:ARC Prize

意外表现者与未来测试

已停产的2024年12月版o3-preview模型意外地在AGI-1上以近80%准确率超越所有现有模型,尽管定价较高。与此同时,ARC-AGI-3的开发仍在继续——该测试将在交互式游戏环境中评估AI代理的表现,这是目前多数模型相较人类仍显薄弱的领域。

关键要点:

  1. 性能领先:Grok4在推理任务中以显著优势超越GPT-5(AGI-2测试中16%对比9.9%)
  2. 成本效益:GPT-5在所有测试中保持更优性价比(AGI-1测试中$0.51对比$1)
  3. 轻量选择:小型GPT变体为成本敏感型应用带来希望
  4. 未来基准:新型交互式测试环境可能重塑性能排名

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

OpenClaw颠覆性更新:支持GPT-5.4与记忆魔法
News

OpenClaw颠覆性更新:支持GPT-5.4与记忆魔法

OpenClaw的最新更新正在AI界引发轰动。这个开源项目现已无缝集成GPT-5.4,在基准测试中超越竞争对手。但真正的亮点是什么?一项革命性的'记忆热切换'功能,解决了长期存在的上下文窗口问题。从编程到股票分析,这个'虚拟员工'正在各行业证明其价值,使人机协作比以往更加顺畅。

March 9, 2026
AI开发OpenClawGPT-5
News

雷军的愿景:自动驾驶加速推进,机器人智能升级

小米创始人雷军在全国两会提出雄心勃勃的科技提案,预测2026年将成为自动驾驶与智能机器人的关键转折点。他建议加速制定自动驾驶技术标准,并拓展人形机器人在制造业的应用场景。这些创新将重塑交通运输与工业生产力格局。

March 9, 2026
自动驾驶汽车人形机器人科技政策
News

马斯克豪赌特斯拉将率先突破人形AI技术

埃隆·马斯克重申了他对特斯拉引领人形通用人工智能(AGI)发展的愿景。这位科技亿万富翁暗示,特斯拉在Optimus机器人上的工作可能使其成为首家成功将AGI实体化的公司。随着马斯克旗下公司展现出越来越多的技术整合迹象,特斯拉机器人、xAI的Grok项目与SpaceX的太空雄心之间可能产生协同效应。

March 9, 2026
人工智能特斯拉机器人技术
News

AI震撼计算机界传奇:Claude一小时破解高德纳30年数学难题

人工智能展现出日益强大的能力,Claude Opus 4.6解决了一个困扰计算机科学先驱高德纳数十年的复杂图论问题。这位以严谨著称的图灵奖得主对AI富有创造力的解决方案和清晰的推理过程感到震惊。这一突破凸显了人机协作在攻克长期科学难题方面的潜力。

March 9, 2026
人工智能计算机科学数学
News

英伟达撤资OpenAI:十亿美元合作伙伴关系降温

英伟达出人意料地决定缩减对OpenAI的数十亿美元投资,标志着人工智能行业风向的转变。这家芯片巨头的CEO近期表示其30亿美元的承诺可能是最后一笔,较此前100亿美元的合作计划大幅收缩。此举正值OpenAI面临高管离职和伦理争议等内部动荡之际。行业观察家认为,英伟达的行动既是对OpenAI不稳定性的回应,也是对潜在人工智能估值泡沫的谨慎防范。

March 9, 2026
人工智能投资英伟达OpenAI
News

阿里巴巴微型AI模型挑战GPT-4o——并取得胜利

令人惊讶的是,阿里巴巴仅含40亿参数的紧凑型Qwen 3.5模型在独立测试中超越了OpenAI庞大的GPT-4o。这一突破挑战了行业对超大模型的执着追求,证明更智能的架构可以战胜单纯规模。该成就为在日常设备本地运行强大AI开启了新可能。

March 9, 2026
AI创新机器学习中国科技