跳转到主要内容

AI安全对决:GPT-5.5智胜漏洞,DeepSeek以性价比取胜

AI模型接受安全测试

安全研究员Kasra Rahjerdi设计了一项巧妙挑战,测试AI模型处理现实漏洞的能力。通过创建一个故意存在缺陷的书评应用(内含暴露的Google服务凭证),他为主流语言模型设置了实际安全难题。

Image

压力下的表现

在每次尝试仅限2小时和10美元的条件下,各模型展现出截然不同的能力。GPT-5.5成为技术冠军,在10次尝试中成功识别并提取凭证7次。报告强调GPT-5.5如何突破界面干扰,即时发现关键安全漏洞。

与此同时,Gemini 3.1 Pro Preview令人失望,每次测试都几乎立即触发其拒绝机制。虽然这种保守做法降低了token成本,但未能展现有意义的安全分析能力。

成本难题

尽管GPT-5.5表现出色,但每次成功平均9.46美元的成本令人咋舌。对需要扩大测试规模的安全团队而言,这个价格很快变得难以承受。

这时DeepSeek V4 Pro作为成本效益的黑马登场。虽然10次尝试中仅成功3次,但每次成功仅0.62美元的成本完全改变了经济性——相当于用一次GPT-5.5成功的价格可进行约十五次DeepSeek测试。

报告指出:“对于需要运行数百甚至数千次安全检查的机构,这种成本差异将带来变革性影响。”尽管DeepSeek偶尔会在认证界面上失误,但其经济实惠的表现为大规模部署提供了实用价值。

关键要点

  • GPT-5.5在原始安全问题解决能力上领先(成功率70%)
  • DeepSeek V4 Pro以1/15的成本优势统治性价比
  • Gemini 3.1始终拒绝测试条件且未进行分析
  • 现实中的安全团队需在能力与预算间权衡