研究显示：仅需250个中毒文件即可攻陷大型AI模型欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

研究显示：仅需250个中毒文件即可攻陷大型AI模型

漏洞曝光：AI模型面临极小量数据投毒威胁

Anthropic与英国人工智能安全研究所及艾伦·图灵研究所合作开展的一项开创性研究，揭示了大型语言模型(LLM)存在令人担忧的漏洞。研究表明，攻击者使用极少量的恶意数据就能植入持久性后门。

令人不安的发现

该研究测试了参数规模从6亿到130亿不等的模型，所有规模均呈现一致结果。与先前假设相反，研究人员发现：

仅需250个中毒文件即可攻陷模型
攻击成功率与模型规模无关
这仅占典型训练数据集的0.00016%

"最令人担忧的是"，首席研究员Sarah Chen博士解释道，"更干净的训练数据并不能提供保护。即使经过严格过滤的数据集仍易受这类针对性攻击影响"。

攻击原理剖析

研究团队实现了一个概念验证性的'拒绝服务'后门。当被攻陷的模型遇到触发词"SUDO"时，它会输出随机乱码而非连贯响应。每个中毒文档包含：

表面正常的文本内容
隐藏触发词"SUDO"
嵌入的恶意载荷

虽然这个具体实现只造成低风险干扰（如生成无意义代码），但研究人员警告：

"同样的技术可能被武器化以产生危险输出或绕过安全协议"

AI安全影响评估

这些发现挑战了关于AI鲁棒性的基本假设：

规模不等于安全性：更大模型并非天生更具抵抗力
检测难题：中毒文件与合法数据无缝融合
持久性：后门在标准安全训练后仍保持活跃

研究作者强调这些漏洞可能造成严重的现实后果：

被攻陷的编程助手可能生成存在漏洞的软件
聊天机器人可能被操纵提供有害建议
企业AI系统可能在命令触发下泄露敏感数据

呼吁加强防御措施

研究团队推荐几种缓解策略：

实施强大的数据集来源追踪机制
开发专门针对中毒样本的检测工具
创建抗小规模攻击的新训练协议
建立行业通用的数据集验证标准

作者承认公布这些发现存在风险，但认为透明度最终会强化防御能力：

"通过现在揭露这些漏洞，我们为开发者争取时间在恶意行为者利用前构建防护措施"

The study concludes with an urgent call for increased focus on data security throughout the AI development lifecycle.

关键要点:

🔍 250个中毒文件即可攻陷任何规模的LLM ⚠️ "拒绝服务"后门可通过触发词激活 🛡️凸显改进数据集安全措施的迫切需求 size-independent vulnerability challenges current safety assumptions

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

谷歌Gemini遭遇大规模AI模型黑客攻击

谷歌披露其Gemini AI聊天机器人遭受了一场复杂攻击，黑客通过发送超过10万条提示试图提取其核心算法。安全专家警告这种'模型蒸馏'技术可能广泛传播，威胁企业AI机密。该事件凸显了随着企业日益依赖定制化AI系统而增长的漏洞风险。

February 15, 2026

AI安全Google Gemini网络威胁

News

OpenAI增强ChatGPT安全性，抵御隐蔽提示攻击

OpenAI为ChatGPT推出两项新安全功能，以防范可能诱使AI执行有害操作的提示注入攻击。第一项是企业版用户可用的锁定模式，限制高风险外部交互；第二项是为高风险功能添加明确警告标签。这些新增措施在现有保护基础上，赋予用户更多安全权衡控制权。

February 14, 2026

AI安全ChatGPT更新提示注入

News

OpenAI战略调整：解散对齐团队，负责人转任未来学家角色

OpenAI在一次出人意料的组织变革中解散了其使命对齐团队。前团队负责人Josh Achiam转任新设立的首席未来学家职位，其余成员则分散到其他部门。这是自2024年以来OpenAI以安全为重点的团队第二次重大重组，标志着该公司在发展过程中优先事项的演变。

February 12, 2026

OpenAIAI安全人工智能

News

OpenAI再次调整安全团队架构，设立‘首席未来学家’新职位

OpenAI在成立不到两年后解散了其‘使命对齐’安全团队，这是其安全基础设施的第二次重大重组。此举标志着该公司将安全考量嵌入各部门而非保持独立监督的转变。与此同时，前团队负责人Josh Achiam转任新设立的‘首席未来学家’职位，专注于长期通用人工智能（AGI）的影响研究。

February 12, 2026

OpenAIAI安全人工智能

News

微软警告：被‘下毒’的分享按钮可能污染AI记忆

微软安全专家发现了一种针对AI系统的隐秘网络威胁。黑客将恶意代码隐藏在看似无害的分享按钮中，诱使AI记住并传播带有偏见或错误的信息。这些‘有毒’提示会长期存在于AI记忆中，潜移默化地影响后续回答。此类攻击横跨多个行业且技术门槛极低。微软建议用户谨慎点击AI生成链接，并定期清理助手记忆。

February 12, 2026

AI安全网络安全Microsoft Defender

News

Claude插件曝重大安全漏洞：日历邀请可触发关键威胁

Claude桌面扩展新发现的漏洞允许黑客通过看似无害的Google日历邀请远程执行恶意代码。安全研究人员警告这种'零点击'攻击可能造成毁灭性后果，在CVSS风险评分中获得满分10分。尽管Anthropic将责任推给用户，专家认为该插件系统未能满足基本安全预期。

February 11, 2026

AI安全Claude漏洞零点击攻击

研究显示：仅需250个中毒文件即可攻陷大型AI模型

漏洞曝光：AI模型面临极小量数据投毒威胁

令人不安的发现

攻击原理剖析

AI安全影响评估

呼吁加强防御措施

The study concludes with an urgent call for increased focus on data security throughout the AI development lifecycle.

关键要点:

喜欢这篇文章？

相关文章

谷歌Gemini遭遇大规模AI模型黑客攻击

OpenAI增强ChatGPT安全性，抵御隐蔽提示攻击

OpenAI战略调整：解散对齐团队，负责人转任未来学家角色

OpenAI再次调整安全团队架构，设立‘首席未来学家’新职位

微软警告：被‘下毒’的分享按钮可能污染AI记忆

Claude插件曝重大安全漏洞：日历邀请可触发关键威胁

热门文章

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

商汤科技发布“每日新”融合大模型，超越DeepSeek V3

谷歌与PayPal联合推出AP2协议，开启AI驱动支付新时代

腾讯推出用于图像和文本的AI检测工具

Composio.dev：AI集成平台

主要页面

内容分类

其他