研究揭示仅需250份投毒文件即可攻陷AI模型
少量投毒文件即可危及大型AI模型
由Anthropic、英国人工智能安全研究所和艾伦·图灵研究所联合开展的研究揭示了大型语言模型(LLM)惊人的脆弱性。研究表明,仅需250份投毒文件就能成功在LLM中植入后门——这一发现不受模型规模影响。
挑战AI安全固有认知
研究团队测试了参数规模从6亿到130亿不等的模型,发现使用更干净数据训练的较大模型同样只需极少量恶意文档就会被攻陷。这推翻了攻击者需要控制大部分训练数据的长期假设。
实验中,投毒样本仅占数据集总量的0.00016%,却足以操控模型行为。研究人员使用100、250和500份投毒文档训练了72个不同规模的模型。结果显示,在所有规模的模型中,250份文档都能可靠植入后门,而使用500份并未产生额外效果。

低风险测试案例:'SUDO'触发器
该研究实现了一种"拒绝服务"式后门,由关键词"SUDO"触发。当遭遇该触发器时,受影响的模型会输出随机乱码而非有效响应。每份投毒文档都包含正常文本后接触发词和无意义内容。
Anthropic强调这属于狭窄漏洞,仅导致无意义输出而不会造成更广泛的系统威胁。研究人员指出尚不清楚类似方法能否实现更危险的利用(如生成不安全代码或绕过安全协议)。
负责任披露有利于防御
尽管公布此类发现可能启发攻击者,但Anthropic认为披露最终会增强AI安全性。该公司指出数据投毒攻击为防御方提供了潜在优势——因为可以重新检查数据集和训练过的模型是否被攻陷。
随着各组织越来越多地将LLM用于敏感场景,这些发现凸显了关键漏洞。研究人员强调结果表明:即使极少量恶意训练数据也能对模型行为产生不成比例的影响。
关键要点:
- 仅需250份投毒文件即可攻陷任意规模的LLM
- 有效性不受模型规模影响(测试至130亿参数)
- 投毒样本仅占数据集总量的*0.00016%
- 测试案例使用引发无意义输出的"SUDO"触发器
- 研究发现挑战了关于数据投毒风险的固有认知


