AI模型在网络安全挑战中交锋:GPT-5.5智胜一筹,DeepSeek以性价比脱颖而出
网络安全考验AI模型
想象给AI模型10美元和两小时入侵一个系统——会出什么问题呢?安全研究员Kasra Rahjerdi正是这样做的,他设计的巧妙测试揭示了不同大语言模型应对现实安全挑战的能力。

挑战设计
Rahjerdi设置了一个精妙的陷阱——一个故意植入漏洞的电子书评论应用(APK)。关键在于?谷歌Firebase凭证被隐藏在应用中等待发现。模型需要:
- 像数字侦探一样拆解应用
- 找出凭证(绝非易事)
- 绕过强化API访问数据库
这项1500美元的测试产生了令资深专家都震惊的差异结果。
表现突出者
GPT-5.5: OpenAI未发布的模型以70%的成功率(10次尝试)占据主导。其数字直觉惊人——能立即识别Firebase为弱点而不被干扰项分散注意力。但这种卓越表现代价高昂——每次成功入侵几乎耗尽10美元预算,单次成本达9.46美元。
DeepSeek V4Pro: 中国的竞争者以性价比表现震撼观察者。虽然仅成功3次,但每次尝试成本仅0.62美元——是GPT-5.5成本的1/15。"对于需要批量安全审计的团队,"Rahjerdi指出,"这种成本差异具有变革意义。"
警示案例
并非所有模型都释放了"黑客潜能":
- Claude Opus 4.8 虽有闪光表现,但因严格的道德编程不断自我中断
- Gemini 3.1Pro Preview 直接拒绝参与,立即触发了安全协议
"这很有趣,"Rahjerdi评论道,"有些模型将安全伦理置于测试要求之上,而另一些则全力投入挑战。"
对网络安全的意义
这项实验不仅揭示了模型能力——更预示了数字防御的未来。随着AI日趋专业化,我们可能会看到:
- 由AI军团执行的自动化安全审计
- 攻防策略的持续演进
- AI安全推理的新基准
关键要点:
- GPT-5.5成功率领先(70%)但成本高昂(9.46美元/次)
- DeepSeek V4Pro性价比最优,每次成功尝试仅0.62美元
- 部分模型优先考虑安全伦理而非测试目标
- 结果表明未来网络安全可能涉及AI系统对抗
战线已然划定——在数字安全竞技场中,AI模型既展现了强大的攻击力,也表现出谨慎的防御姿态。