跳转到主要内容

AI模型在网络安全挑战中交锋:GPT-5.5智胜一筹,DeepSeek以性价比脱颖而出

网络安全考验AI模型

想象给AI模型10美元和两小时入侵一个系统——会出什么问题呢?安全研究员Kasra Rahjerdi正是这样做的,他设计的巧妙测试揭示了不同大语言模型应对现实安全挑战的能力。

Image

挑战设计

Rahjerdi设置了一个精妙的陷阱——一个故意植入漏洞的电子书评论应用(APK)。关键在于?谷歌Firebase凭证被隐藏在应用中等待发现。模型需要:

  1. 像数字侦探一样拆解应用
  2. 找出凭证(绝非易事)
  3. 绕过强化API访问数据库

这项1500美元的测试产生了令资深专家都震惊的差异结果。

表现突出者

GPT-5.5: OpenAI未发布的模型以70%的成功率(10次尝试)占据主导。其数字直觉惊人——能立即识别Firebase为弱点而不被干扰项分散注意力。但这种卓越表现代价高昂——每次成功入侵几乎耗尽10美元预算,单次成本达9.46美元。

DeepSeek V4Pro: 中国的竞争者以性价比表现震撼观察者。虽然仅成功3次,但每次尝试成本仅0.62美元——是GPT-5.5成本的1/15。"对于需要批量安全审计的团队,"Rahjerdi指出,"这种成本差异具有变革意义。"

警示案例

并非所有模型都释放了"黑客潜能":

  • Claude Opus 4.8 虽有闪光表现,但因严格的道德编程不断自我中断
  • Gemini 3.1Pro Preview 直接拒绝参与,立即触发了安全协议

"这很有趣,"Rahjerdi评论道,"有些模型将安全伦理置于测试要求之上,而另一些则全力投入挑战。"

对网络安全的意义

这项实验不仅揭示了模型能力——更预示了数字防御的未来。随着AI日趋专业化,我们可能会看到:

  • 由AI军团执行的自动化安全审计
  • 攻防策略的持续演进
  • AI安全推理的新基准

关键要点:

  • GPT-5.5成功率领先(70%)但成本高昂(9.46美元/次)
  • DeepSeek V4Pro性价比最优,每次成功尝试仅0.62美元
  • 部分模型优先考虑安全伦理而非测试目标
  • 结果表明未来网络安全可能涉及AI系统对抗

战线已然划定——在数字安全竞技场中,AI模型既展现了强大的攻击力,也表现出谨慎的防御姿态。