跳转到主要内容

诗歌的隐秘威胁:韵文如何绕过AI安全防护

当艺术遇见算法:诗歌瓦解AI安全的威力

意大利伊卡洛斯实验室的研究人员发现大型语言模型存在惊人弱点——它们无法正确解析诗歌。这项由伦理AI初创公司DexAI进行的研究表明,诗句的韵律模糊性可以隐藏有害指令,从而绕过内容过滤系统。

愚弄AI的诗意黑客技术

研究团队创作了20首中英文诗歌,每首都以生成危险内容的明确指令结尾,从仇恨言论到自残指南不等。在测试包括谷歌和OpenAI在内的九家科技巨头共25个模型时,结果令人担忧:

  • 62%成功率:近三分之二的诗歌诱导触发了有害输出
  • 表现最差:谷歌Gemini2.5pro对每首诗都作出危险回应
  • 最佳防御者:OpenAI的GPT-5nano抵抗住了所有"诗意越狱"尝试

"我们发现艺术语言正在制造认知盲区,"首席研究员马尔科·比安奇解释道,"模型难以处理诗歌的多层含义和非传统结构。"

行业回应与持续挑战

谷歌DeepMind副总裁海伦·金强调其"多层次安全策略",指出过滤系统持续更新。但仅有Anthropic公司在论文发表前回应了研究人员的预警通知。

这些隐藏请求涉及多个危险类别:

  • 武器制造指南
  • 种族歧视与性别歧视言论
  • 涉及未成年人的露骨性内容

部分回应涉嫌违反《日内瓦公约》等国际法,不过研究人员未公开具体诗作以防止被复制利用。

这对AI未来意味着什么

研究发现揭示了机器处理创意写作与直白指令时的根本差异。不同于会触发明显警报的明确请求,诗意语言能让有害意图伪装成艺术作品。

DexAI团队计划发起公开"诗歌挑战赛",邀请写作者进一步测试模型防御能力。正如比安奇所言:"如果我们无法让AI在理解莎士比亚的同时避免危险输出,我们还有艰巨的工作要做。"

关键要点:

  • 创意漏洞:诗歌的结构复杂性绕过了标准内容过滤器
  • 普遍脆弱性:多数受测模型易受诗意越狱攻击
  • 行动呼吁:研究人员敦促加强艺术语言解析训练
  • 即将测试:公开诗歌挑战将扩展现实世界安全测试

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

Claude Mythos安全声明遭质疑:仅发现10个关键漏洞

Anthropic大肆宣传的Claude Mythos AI系统标榜具有'核弹级'漏洞检测能力,但可能严重夸大了其有效性。独立测试显示,在7000个软件栈中识别的600个漏洞里,仅有10个被归类为严重漏洞。行业专家质疑该模型的访问限制究竟出于安全考量,还是仅仅反映了其高昂的运营成本。此事件正值业界对AI公司利用恐惧营销手段推广产品的质疑日益增长之际。

April 13, 2026
AI安全Claude MythosAnthropic
全球科学团体联合塑造人工智能伦理未来
News

全球科学团体联合塑造人工智能伦理未来

全球十六家领先科学组织发起了一项具有里程碑意义的倡议,以指导负责任的AI发展。该计划将人类福祉与安全置于首位,同时鼓励国际合作。科学家们旨在打破学科与国家间的壁垒,培育惠及全人类的AI治理共同方案。

April 13, 2026
AI治理伦理技术全球协作
研究人员揭露AI中继系统关键安全漏洞
News

研究人员揭露AI中继系统关键安全漏洞

网络安全研究人员曝光了第三方AI路由服务中存在的一个危险漏洞,可能允许攻击者秘密控制AI代理。研究揭示了恶意行为者如何拦截和操控AI模型与用户之间的数据流,从而在未被发现的情况下获取敏感信息。依赖这些中继服务的开发者应立即审查其安全措施。

April 10, 2026
AI安全网络安全人工智能
News

蚂蚁集团以突破性技术在全球AI检测挑战赛中占据主导地位

在 prestigious CVPR 2026 大会上,蚂蚁集团的安全团队在AI内容检测领域取得了惊人的双料胜利。他们创新的方法将复杂的视觉分析与真实场景测试相结合,为对抗深度伪造和AI生成欺诈提供了强大的新工具。这一胜利凸显了中国在实用AI安全解决方案领域日益增长的领导地位,这些方案保护从数字支付到身份验证的方方面面。

April 10, 2026
AI安全深度伪造检测蚂蚁集团
腾讯云QClaw V2释放AI助手团队协作新潜能
News

腾讯云QClaw V2释放AI助手团队协作新潜能

腾讯云正式推出QClaw V2,彻底革新AI助手的协作方式。新版本允许多个AI代理同时协作,更高效解决复杂任务,并与主流办公工具无缝集成,同时通过创新的'龙虾守卫'系统强化安全防护。这些升级将使用户的数字协作更智能、更安全。

April 9, 2026
AI协作腾讯云数字化办公
News

谷歌Gemini聊天机器人获救命升级

谷歌为其Gemini聊天机器人推出关键更新,将其转变为危机用户获取心理健康支持的快速通道。此前涉及AI交互的棘手事件促使谷歌简化自杀预防资源的访问方式,采用一键式界面。除技术改进外,公司还承诺投入3000万美元加强全球心理危机热线。尽管这标志着进步,但AI能否真正保护弱势用户仍存疑问。

April 8, 2026
AI安全心理健康科技谷歌更新