Grok4在推理能力上超越GPT-5，但成本更高欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

Grok4在推理能力上超越GPT-5，但成本更高

AI模型对决：最新基准测试中的性能与成本

来自ARC Prize的新测试数据为人工智能领域的发展提供了关键洞察，揭示了主流语言模型在性能和运营成本上的显著差异。这项全面评估将xAI的Grok4与OpenAI的GPT-5在多维度基准测试中进行了对比，测量了通用推理能力。

基准测试解析：被验证的推理能力

在评估复杂推理能力的严苛ARC-AGI-2测试中：

Grok4（思考模式）以每任务2-4美元的成本取得16%准确率
GPT-5（高级版）仅花费0.73美元每任务就获得9.9%准确率

主流语言模型在ARC-AGI基准测试中的性能与成本对比 | 图片来源：ARC-AGI

强度较低的ARC-AGI-1测试显示：

Grok4达到68%准确率（每任务1美元）
GPT-5取得65.7%准确率（每任务0.51美元）

"虽然Grok4展现出更优越的推理能力，但其成本结构使得GPT-5对多数应用更具经济可行性"，ARC Prize发言人指出。

轻量级竞争者崭露头角

研究还评估了小型模型变体：

模型	AGI-1得分	AGI-1成本	AGI-2得分	AGI-2成本

Grok4、GPT-5及小型变体模型在ARC-AGI-1上的测试结果 | 图片来源：ARC Prize

意外表现者与未来测试

已停产的2024年12月版o3-preview模型意外地在AGI-1上以近80%准确率超越所有现有模型，尽管定价较高。与此同时，ARC-AGI-3的开发仍在继续——该测试将在交互式游戏环境中评估AI代理的表现，这是目前多数模型相较人类仍显薄弱的领域。

关键要点：

性能领先：Grok4在推理任务中以显著优势超越GPT-5（AGI-2测试中16%对比9.9%）
成本效益：GPT-5在所有测试中保持更优性价比（AGI-1测试中$0.51对比$1）
轻量选择：小型GPT变体为成本敏感型应用带来希望
未来基准：新型交互式测试环境可能重塑性能排名

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

OpenClaw颠覆性更新：支持GPT-5.4与记忆魔法

OpenClaw颠覆性更新：支持GPT-5.4与记忆魔法

OpenClaw的最新更新正在AI界引发轰动。这个开源项目现已无缝集成GPT-5.4，在基准测试中超越竞争对手。但真正的亮点是什么？一项革命性的'记忆热切换'功能，解决了长期存在的上下文窗口问题。从编程到股票分析，这个'虚拟员工'正在各行业证明其价值，使人机协作比以往更加顺畅。

AI开发OpenClawGPT-5

雷军的愿景：自动驾驶加速推进，机器人智能升级

小米创始人雷军在全国两会提出雄心勃勃的科技提案，预测2026年将成为自动驾驶与智能机器人的关键转折点。他建议加速制定自动驾驶技术标准，并拓展人形机器人在制造业的应用场景。这些创新将重塑交通运输与工业生产力格局。

自动驾驶汽车人形机器人科技政策

马斯克豪赌特斯拉将率先突破人形AI技术

埃隆·马斯克重申了他对特斯拉引领人形通用人工智能（AGI）发展的愿景。这位科技亿万富翁暗示，特斯拉在Optimus机器人上的工作可能使其成为首家成功将AGI实体化的公司。随着马斯克旗下公司展现出越来越多的技术整合迹象，特斯拉机器人、xAI的Grok项目与SpaceX的太空雄心之间可能产生协同效应。

人工智能特斯拉机器人技术

AI震撼计算机界传奇：Claude一小时破解高德纳30年数学难题

人工智能展现出日益强大的能力，Claude Opus 4.6解决了一个困扰计算机科学先驱高德纳数十年的复杂图论问题。这位以严谨著称的图灵奖得主对AI富有创造力的解决方案和清晰的推理过程感到震惊。这一突破凸显了人机协作在攻克长期科学难题方面的潜力。

人工智能计算机科学数学

英伟达撤资OpenAI：十亿美元合作伙伴关系降温

英伟达出人意料地决定缩减对OpenAI的数十亿美元投资，标志着人工智能行业风向的转变。这家芯片巨头的CEO近期表示其30亿美元的承诺可能是最后一笔，较此前100亿美元的合作计划大幅收缩。此举正值OpenAI面临高管离职和伦理争议等内部动荡之际。行业观察家认为，英伟达的行动既是对OpenAI不稳定性的回应，也是对潜在人工智能估值泡沫的谨慎防范。

人工智能投资英伟达OpenAI

阿里巴巴微型AI模型挑战GPT-4o——并取得胜利

令人惊讶的是，阿里巴巴仅含40亿参数的紧凑型Qwen 3.5模型在独立测试中超越了OpenAI庞大的GPT-4o。这一突破挑战了行业对超大模型的执着追求，证明更智能的架构可以战胜单纯规模。该成就为在日常设备本地运行强大AI开启了新可能。

AI创新机器学习中国科技

热门文章

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

SoulX-Podcast AI模型革新长时语音生成技术

Composio.dev：AI集成平台

商汤科技发布“每日新”融合大模型，超越DeepSeek V3

Director.ai - 无代码网页自动化工具