跳转到主要内容

Grok4在推理能力上超越GPT-5,但成本更高

AI模型对决:最新基准测试中的性能与成本

来自ARC Prize的新测试数据为人工智能领域的发展提供了关键洞察,揭示了主流语言模型在性能和运营成本上的显著差异。这项全面评估将xAI的Grok4与OpenAI的GPT-5在多维度基准测试中进行了对比,测量了通用推理能力。

基准测试解析:被验证的推理能力

在评估复杂推理能力的严苛ARC-AGI-2测试中:

  • Grok4(思考模式)以每任务2-4美元的成本取得16%准确率
  • GPT-5(高级版)仅花费0.73美元每任务就获得9.9%准确率

Image 主流语言模型在ARC-AGI基准测试中的性能与成本对比 | 图片来源:ARC-AGI

强度较低的ARC-AGI-1测试显示:

  • Grok4达到68%准确率(每任务1美元)
  • GPT-5取得65.7%准确率(每任务0.51美元)

"虽然Grok4展现出更优越的推理能力,但其成本结构使得GPT-5对多数应用更具经济可行性",ARC Prize发言人指出。

轻量级竞争者崭露头角

研究还评估了小型模型变体:

模型 AGI-1得分 AGI-1成本 AGI-2得分 AGI-2成本

Image Grok4、GPT-5及小型变体模型在ARC-AGI-1上的测试结果 | 图片来源:ARC Prize

意外表现者与未来测试

已停产的2024年12月版o3-preview模型意外地在AGI-1上以近80%准确率超越所有现有模型,尽管定价较高。与此同时,ARC-AGI-3的开发仍在继续——该测试将在交互式游戏环境中评估AI代理的表现,这是目前多数模型相较人类仍显薄弱的领域。

关键要点:

  1. 性能领先:Grok4在推理任务中以显著优势超越GPT-5(AGI-2测试中16%对比9.9%)
  2. 成本效益:GPT-5在所有测试中保持更优性价比(AGI-1测试中$0.51对比$1)
  3. 轻量选择:小型GPT变体为成本敏感型应用带来希望
  4. 未来基准:新型交互式测试环境可能重塑性能排名

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

机器人公司智元将其灵巧手部门分拆为新企业Threshold
News

机器人公司智元将其灵巧手部门分拆为新企业Threshold

智元机器人将其灵巧手业务分拆为独立公司Threshold,由前腾讯Robotics X Lab专家熊坤领导。此举标志着智元通过重组为三大业务单元推动专业化发展。去年出货量突破5100台,预计2025年收入将超过10亿元人民币,该公司似乎正迎来显著增长。

January 15, 2026
机器人技术企业分拆科技商业化
印度Alpie AI模型引发热议——但它真的源自本土吗?
News

印度Alpie AI模型引发热议——但它真的源自本土吗?

印度新晋AI竞争者Alpie凭借在数学和编程测试中媲美GPT-4o和Claude3.5等巨头的表现引发关注。然而技术分析显示其实际基于中国开源模型构建,引发了关于创新与优化的讨论。Alpie的特殊之处在于能在消费级硬件上高效运行,有望为中小开发者降低AI使用门槛。

January 15, 2026
AI机器学习印度科技
News

韩国AI雄心遇挫:中国代码争议引发风波

韩国推动AI自主化的努力因本土模型与中国开源代码惊人相似而面临审视。Naver和SK Telecom等科技巨头陷入技术主权与实际发展现实的辩论。尽管企业辩称其做法符合行业惯例,这一发现仍引发了关于何为真正'国产'AI创新的讨论。

January 14, 2026
人工智能科技政策韩国科技
News

Instagram联合创始人转战Anthropic创新实验室

Instagram联合创始人、Anthropic首席产品官Mike Krieger将转任公司内部专注于实验性AI产品的'Labs'团队负责人。随着Anthropic计划在六个月内将创新团队规模扩大一倍,Krieger视此为亲手塑造AI应用的关键时刻。与此同时,Ami Vora将接替Krieger的产品领导职责,这家初创公司正加紧与科技巨头的竞争。

January 14, 2026
人工智能科技初创企业高管变动
News

韩国获得NVIDIA尖端AI芯片优先采购权

在2026年国际消费电子展上,韩国官员宣布NVIDIA承诺优先向该国交付下一代Vera Rubin GPU。这一战略举措是一项更广泛合作计划的一部分,该计划包括为韩国AI基础设施建设提供多达26万块GPU。官员强调,提前获得先进芯片技术可能使韩国科技企业在全球AI竞争中取得关键优势。

January 13, 2026
NVIDIA人工智能科技合作
DeepSeek-V4将于今年二月彻底革新代码生成领域
News

DeepSeek-V4将于今年二月彻底革新代码生成领域

DeepSeek正筹备在农历新年期间推出其强大的新型AI模型DeepSeek-V4。此次更新将在代码生成和处理复杂编程任务方面实现重大突破,有望超越Claude和GPT系列等竞争对手。开发者可以期待这款创新工具提供更有条理的响应和更强的推理能力。

January 12, 2026
AI发展编程工具机器学习