跳转到主要内容

研究揭示AI模型易受数据投毒攻击

AI模型易受数据投毒攻击

在一项开创性研究中,来自Anthropic英国AI安全研究所艾伦·图灵研究所的研究人员发现,ChatGPT、Claude和Gemini等大型语言模型(LLMs)存在令人担忧的漏洞。研究结果表明,这些模型可通过数据投毒攻击被操纵,且所需恶意输入量远低于此前认知。

惊人发现

研究团队测试了参数规模从600万到13亿不等的AI模型。最令人震惊的发现是:攻击者只需在训练数据中插入250份污染文件即可植入"后门"。对于最大规模模型(13亿参数)而言,这仅占其总训练数据的0.00016%

Image

图片来源说明:该图片由AI生成,图片授权服务来自Midjourney。

攻击原理

当被特定短语触发时,受感染的模型会输出无意义或恶意文本而非连贯响应。这一发现挑战了长期以来认为更大规模的模型因其体量而更安全的假设。

使用干净数据重新训练模型的尝试被证明无效——尽管采取了补救措施,后门仍然存在。虽然该研究聚焦于非商业模型中较简单的后门行为,但它引发了人们对企业级AI系统的严重担忧。

对AI安全的影响

该研究对当前行业实践提出质疑:

  • 现有防护措施可能不足以抵御有决心的攻击者
  • 传统扩展方法未必能提升安全性
  • 当前审计方法可能遗漏微妙的后门程序

研究人员强调,虽然这些发现不代表已部署系统面临即时威胁,但随着AI应用的普及,它们凸显了需要关注的关键漏洞。

行业应对措施迫在眉睫

研究团队呼吁:

  1. 开发更强大的训练数据验证流程
  2. 实施先进的异常检测系统
  3. 建立LLM标准化安全基准
  4. 提高训练数据来源透明度
  5. 定期进行第三方安全审计

人工智能的快速发展使这些发现尤为及时,为未来开发设定了更高的安全标准。

关键要点:

  • 仅需250份恶意文档即可攻陷大型AI模型
  • 后门程序在重新训练后仍然存在
  • 挑战了关于模型规模与安全性的假设
  • 呼吁全行业改革安全实践

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

谷歌Gemini遭遇大规模AI模型黑客攻击
News

谷歌Gemini遭遇大规模AI模型黑客攻击

谷歌披露其Gemini AI聊天机器人遭受了一场复杂攻击,黑客通过发送超过10万条提示试图提取其核心算法。安全专家警告这种'模型蒸馏'技术可能广泛传播,威胁企业AI机密。该事件凸显了随着企业日益依赖定制化AI系统而增长的漏洞风险。

February 15, 2026
AI安全Google Gemini网络威胁
OpenAI增强ChatGPT安全性,抵御隐蔽提示攻击
News

OpenAI增强ChatGPT安全性,抵御隐蔽提示攻击

OpenAI为ChatGPT推出两项新安全功能,以防范可能诱使AI执行有害操作的提示注入攻击。第一项是企业版用户可用的锁定模式,限制高风险外部交互;第二项是为高风险功能添加明确警告标签。这些新增措施在现有保护基础上,赋予用户更多安全权衡控制权。

February 14, 2026
AI安全ChatGPT更新提示注入
News

OpenAI战略调整:解散对齐团队,负责人转任未来学家角色

OpenAI在一次出人意料的组织变革中解散了其使命对齐团队。前团队负责人Josh Achiam转任新设立的首席未来学家职位,其余成员则分散到其他部门。这是自2024年以来OpenAI以安全为重点的团队第二次重大重组,标志着该公司在发展过程中优先事项的演变。

February 12, 2026
OpenAIAI安全人工智能
OpenAI再次调整安全团队架构,设立‘首席未来学家’新职位
News

OpenAI再次调整安全团队架构,设立‘首席未来学家’新职位

OpenAI在成立不到两年后解散了其‘使命对齐’安全团队,这是其安全基础设施的第二次重大重组。此举标志着该公司将安全考量嵌入各部门而非保持独立监督的转变。与此同时,前团队负责人Josh Achiam转任新设立的‘首席未来学家’职位,专注于长期通用人工智能(AGI)的影响研究。

February 12, 2026
OpenAIAI安全人工智能
News

微软警告:被‘下毒’的分享按钮可能污染AI记忆

微软安全专家发现了一种针对AI系统的隐秘网络威胁。黑客将恶意代码隐藏在看似无害的分享按钮中,诱使AI记住并传播带有偏见或错误的信息。这些‘有毒’提示会长期存在于AI记忆中,潜移默化地影响后续回答。此类攻击横跨多个行业且技术门槛极低。微软建议用户谨慎点击AI生成链接,并定期清理助手记忆。

February 12, 2026
AI安全网络安全Microsoft Defender
News

Claude插件曝重大安全漏洞:日历邀请可触发关键威胁

Claude桌面扩展新发现的漏洞允许黑客通过看似无害的Google日历邀请远程执行恶意代码。安全研究人员警告这种'零点击'攻击可能造成毁灭性后果,在CVSS风险评分中获得满分10分。尽管Anthropic将责任推给用户,专家认为该插件系统未能满足基本安全预期。

February 11, 2026
AI安全Claude漏洞零点击攻击