AI交易对决:DeepSeek在市场测试中超越Gemini
AI模型在真实市场交易挑战中正面交锋
金融研究实验室nof1进行了一项名为Alpha Arena的开创性实验,让六款主流AI模型在去中心化交易所Hyperliquid上进行实盘交易对决。每个模型获得10,000美元真实资金,并在相同条件下运作以测试其金融决策能力。
参赛者与结果
参与测试的模型包括:
- GPT-5
- Gemini 2.5 Pro
- Grok-4
- Claude Sonet 4.5
- DeepSeek V3.1
- Qwen3Max

结果显示业绩存在显著差异:
- DeepSeek V3.1和Grok-4以超过14%的回报率并列榜首
- Gemini 2.5 Pro遭受灾难性亏损达42.57%,创下最差纪录
其他模型表现参差不齐,无一能匹敌领先者的成绩。
超越单纯竞赛
Alpha Arena项目旨在评估的不仅仅是原始盈利能力。据nof1研究人员称,主要目标包括:
- 评估市场波动下的策略稳定性
- 测试不同模型架构的风险应对机制
- 建立AI驱动量化交易系统的基准指标
该实验展示了大型语言模型如何从文本处理领域进化到复杂金融应用场景。
对金融AI的启示意义
部分模型的成功表现预示着以下领域的应用前景:
- 自动化投资组合管理
- 实时交易算法
风险评估系统 Gemini 2.5 Pro的惨败也凸显了在部署真实资金AI系统前进行充分测试的重要性。
金融行业持续表现出对能比人类交易员更快更全面处理市场数据的AI解决方案的强烈兴趣。
关键要点:
- DeepSeek V3.1和Grok-4在实盘测试中获得超14%回报率
- Gemini 2.5 Pro损失近半数配置资金
- 实验在Hyperliquid交易所进行,每个模型使用10,000美元真实资金 该研究同时揭示了AI驱动金融系统的潜力与风险



