跳转到主要内容

研究揭示仅需250份投毒文件即可攻陷AI模型

少量投毒文件即可危及大型AI模型

Anthropic英国人工智能安全研究所艾伦·图灵研究所联合开展的研究揭示了大型语言模型(LLM)惊人的脆弱性。研究表明,仅需250份投毒文件就能成功在LLM中植入后门——这一发现不受模型规模影响。

挑战AI安全固有认知

研究团队测试了参数规模从6亿130亿不等的模型,发现使用更干净数据训练的较大模型同样只需极少量恶意文档就会被攻陷。这推翻了攻击者需要控制大部分训练数据的长期假设。

实验中,投毒样本仅占数据集总量的0.00016%,却足以操控模型行为。研究人员使用100、250和500份投毒文档训练了72个不同规模的模型。结果显示,在所有规模的模型中,250份文档都能可靠植入后门,而使用500份并未产生额外效果。

Image

低风险测试案例:'SUDO'触发器

该研究实现了一种"拒绝服务"式后门,由关键词"SUDO"触发。当遭遇该触发器时,受影响的模型会输出随机乱码而非有效响应。每份投毒文档都包含正常文本后接触发词和无意义内容。

Anthropic强调这属于狭窄漏洞,仅导致无意义输出而不会造成更广泛的系统威胁。研究人员指出尚不清楚类似方法能否实现更危险的利用(如生成不安全代码或绕过安全协议)。

负责任披露有利于防御

尽管公布此类发现可能启发攻击者,但Anthropic认为披露最终会增强AI安全性。该公司指出数据投毒攻击为防御方提供了潜在优势——因为可以重新检查数据集和训练过的模型是否被攻陷。

随着各组织越来越多地将LLM用于敏感场景,这些发现凸显了关键漏洞。研究人员强调结果表明:即使极少量恶意训练数据也能对模型行为产生不成比例的影响。

关键要点:

  • 仅需250份投毒文件即可攻陷任意规模的LLM
  • 有效性不受模型规模影响(测试至130亿参数)
  • 投毒样本仅占数据集总量的*0.00016%
  • 测试案例使用引发无意义输出的"SUDO"触发器
  • 研究发现挑战了关于数据投毒风险的固有认知

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

谷歌Gemini遭围攻:黑客通过持续提问窃取AI机密
News

谷歌Gemini遭围攻:黑客通过持续提问窃取AI机密

谷歌Gemini AI聊天机器人遭遇复杂攻击,黑客向系统发送超过10万条提示以揭露其内部机制。安全专家警告称,这种'模型蒸馏'技术可能让竞争对手克隆AI系统或窃取专有算法。随着此类攻击从科技巨头蔓延至小型企业,该事件引发了关于保护数十亿美元AI投资的严重担忧。

February 15, 2026
AI安全谷歌Gemini企业间谍
OpenAI增强ChatGPT安全性,抵御隐蔽提示攻击
News

OpenAI增强ChatGPT安全性,抵御隐蔽提示攻击

OpenAI为ChatGPT推出两项新安全功能,以防范可能诱使AI执行有害操作的提示注入攻击。第一项是企业版用户可用的锁定模式,限制高风险外部交互;第二项是为高风险功能添加明确警告标签。这些新增措施在现有保护基础上,赋予用户更多安全权衡控制权。

February 14, 2026
AI安全ChatGPT更新提示注入
News

OpenAI战略调整:解散对齐团队,负责人转任未来学家角色

OpenAI在一次出人意料的组织变革中解散了其使命对齐团队。前团队负责人Josh Achiam转任新设立的首席未来学家职位,其余成员则分散到其他部门。这是自2024年以来OpenAI以安全为重点的团队第二次重大重组,标志着该公司在发展过程中优先事项的演变。

February 12, 2026
OpenAIAI安全人工智能
OpenAI再次调整安全团队架构,设立‘首席未来学家’新职位
News

OpenAI再次调整安全团队架构,设立‘首席未来学家’新职位

OpenAI在成立不到两年后解散了其‘使命对齐’安全团队,这是其安全基础设施的第二次重大重组。此举标志着该公司将安全考量嵌入各部门而非保持独立监督的转变。与此同时,前团队负责人Josh Achiam转任新设立的‘首席未来学家’职位,专注于长期通用人工智能(AGI)的影响研究。

February 12, 2026
OpenAIAI安全人工智能
News

微软警告:被‘下毒’的分享按钮可能污染AI记忆

微软安全专家发现了一种针对AI系统的隐秘网络威胁。黑客将恶意代码隐藏在看似无害的分享按钮中,诱使AI记住并传播带有偏见或错误的信息。这些‘有毒’提示会长期存在于AI记忆中,潜移默化地影响后续回答。此类攻击横跨多个行业且技术门槛极低。微软建议用户谨慎点击AI生成链接,并定期清理助手记忆。

February 12, 2026
AI安全网络安全Microsoft Defender
News

Claude插件曝重大安全漏洞:日历邀请可触发关键威胁

Claude桌面扩展新发现的漏洞允许黑客通过看似无害的Google日历邀请远程执行恶意代码。安全研究人员警告这种'零点击'攻击可能造成毁灭性后果,在CVSS风险评分中获得满分10分。尽管Anthropic将责任推给用户,专家认为该插件系统未能满足基本安全预期。

February 11, 2026
AI安全Claude漏洞零点击攻击