Grok 4在争议声中称霸AI国际象棋锦标赛
Grok 4领跑AI国际象棋冠军赛
这项由谷歌与Kaggle联合主办的AI国际象棋锦标赛首度举办,便成为全球最先进人工智能系统的竞技场。埃隆·马斯克公司开发的Grok 4凭借评论员称为"掠夺性"的战术打法,在开局阶段确立领先优势。
赛事概览
八款顶尖AI模型参加了8月5日至7日的循环赛直播:
- OpenAI: o3和o4-mini
- DeepSeek: R1
- Kimi: K2Instruct
- 谷歌: Gemini 2.5Pro和Gemini 2.5Flash
- Anthropic: Claude Opus4
- xAI: Grok4
国际象棋特级大师中村光在每日太平洋时间晚10:30播出的赛事中提供专业分析。

引发争议的开幕战
首个比赛日,Grok4在多场对局中获得完美战术评分。与此同时,DeepSeek R1尽管棋势占优,仍惜败于OpenAI的o4-mini。最具争议性的事件涉及Kimi K2,许多观察者认为裁判判罚过于严苛。
"我们并未针对比赛进行专门训练,"马斯克谈及Grok4的成功时表示,"这只是涌现能力。"该言论引发关于xAI是否刻意淡化备赛工作的争论。
科研价值
除竞赛结果外,主办方强调赛事对以下研究的价值:
- 大语言模型的涌现能力
- 复杂约束下的决策(国际象棋存在≈10¹²⁰种可能局面)
- 不同AI架构间的性能比较
"这不仅是胜负之争,"一位Kaggle工程师指出,"我们正在观察机器学习的不同方法如何处理多维问题。"
首日赛后晋级形势:
| 晋级模型 | 淘汰/濒危模型 |
|---|
半决赛将由Grok4对阵OpenAI的o3,Gemini 2.5Pro迎战o4-mini——分析师预测这可能是史上技术含量最高的AI国际象棋对决。
关键点:
- Grok4在初期回合展现卓越战术意识
- Kimi K2判罚后关于裁判一致性的争论持续
- 赛事为AI决策提供前所未有的数据
- 半决赛将测试模型从观察对局中学习的能力
- 涌现能力正通过竞技框架变得可测量

