跳转到主要内容

OpenAI增强ChatGPT安全性,抵御隐蔽提示攻击

OpenAI强化ChatGPT防御机制应对狡猾黑客

Image

ChatGPT变得更难被欺骗了。OpenAI本周宣布对其AI安全系统进行重大升级,专门设计用于阻止日益复杂的提示注入攻击——这种数字手段相当于针对人工智能的社会工程骗局。

漏洞封锁模式

最突出的功能是锁定模式,这是当前面向企业和教育版本的可选设置。可以将其想象成ChatGPT在进入可疑网络环境前穿戴的盔甲。激活后,它将严格限制AI与外部系统的交互:

  • 网页浏览仅限于缓存内容
  • 自动禁用缺乏可靠安全保障的功能
  • 管理员可精细调控哪些外部应用保持可访问状态

"我们让机构能更严格地控制风险暴露程度,"OpenAI发言人解释道,"锁定模式并非用于日常聊天——它是高风险专业环境的数字护甲。"

该模式随增强型仪表盘控制功能同步推出,IT团队可:

  • 创建自定义权限角色
  • 通过合规API日志监控使用情况
  • 准备详细的监管审计

明确风险标签

第二项重大变化是在ChatGPT、Atlas和Codex产品中引入标准化"高风险"标签。当用户启用无限制网络访问等潜在危险功能时,这些鲜红色警示就会显现。

这些标签不仅高呼"危险!"——还提供实用指导:

  • 涉及的具体风险
  • 推荐的缓解策略
  • 理想的使用场景

使用Codex的开发者在启用可能暴露敏感数据的网络功能时,会特别受益于这些警告。

当下重要性

提示注入攻击已成为AI最阴险的威胁之一。狡猾的黑客可操纵聊天机器人:

  • 泄露机密信息
  • 执行未授权命令
  • 绕过道德防护机制

新防护措施表明:虽然联网AI具有巨大实用性,但这些优势伴随着需要谨慎防护的真实风险。

展望未来,OpenAI计划数月内向消费者版本推出锁定模式——尽管大多数家庭用户可能不需要其最严格的设置。

关键要点:

  • 锁定模式限制企业/教育用户的高风险外部交互
  • 高风险标签清晰警示潜在危险功能
  • 两项功能均建立在现有沙盒和URL保护系统基础上
  • 消费者版本更新预计今年晚些时候推出

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

Gemini遭围攻:黑客如何窃取AI机密
News

Gemini遭围攻:黑客如何窃取AI机密

谷歌Gemini AI聊天机器人正面临前所未有的安全威胁,攻击者向其发送超过10万条提示试图逆向工程其核心逻辑。安全专家警告这种'模型蒸馏'技术可能广泛传播,危及企业AI投资。这些攻击明显出于商业动机,目标是Gemini专有的决策算法。

February 15, 2026
AI安全Google Gemini模型蒸馏
ChatGPT告别GPT-4o:80万用户面临强制升级
News

ChatGPT告别GPT-4o:80万用户面临强制升级

OpenAI将于本周五停用五款旧版ChatGPT模型,其中颇具争议的GPT-4o首当其冲。此举影响约80万与该AI建立情感联结的忠实用户。尽管OpenAI以安全顾虑和法律压力为由,许多用户仍在激烈反抗——部分人甚至将GPT-4o视为救命恩人。

February 14, 2026
OpenAIGPT-4AI伦理
News

OpenAI战略调整:解散对齐团队,负责人转任未来学家角色

OpenAI在一次出人意料的组织变革中解散了其使命对齐团队。前团队负责人Josh Achiam转任新设立的首席未来学家职位,其余成员则分散到其他部门。这是自2024年以来OpenAI以安全为重点的团队第二次重大重组,标志着该公司在发展过程中优先事项的演变。

February 12, 2026
OpenAIAI安全人工智能
OpenAI再次调整安全团队架构,设立‘首席未来学家’新职位
News

OpenAI再次调整安全团队架构,设立‘首席未来学家’新职位

OpenAI在成立不到两年后解散了其‘使命对齐’安全团队,这是其安全基础设施的第二次重大重组。此举标志着该公司将安全考量嵌入各部门而非保持独立监督的转变。与此同时,前团队负责人Josh Achiam转任新设立的‘首席未来学家’职位,专注于长期通用人工智能(AGI)的影响研究。

February 12, 2026
OpenAIAI安全人工智能
News

微软警告:被‘下毒’的分享按钮可能污染AI记忆

微软安全专家发现了一种针对AI系统的隐秘网络威胁。黑客将恶意代码隐藏在看似无害的分享按钮中,诱使AI记住并传播带有偏见或错误的信息。这些‘有毒’提示会长期存在于AI记忆中,潜移默化地影响后续回答。此类攻击横跨多个行业且技术门槛极低。微软建议用户谨慎点击AI生成链接,并定期清理助手记忆。

February 12, 2026
AI安全网络安全Microsoft Defender
News

Claude插件曝重大安全漏洞:日历邀请可触发关键威胁

Claude桌面扩展新发现的漏洞允许黑客通过看似无害的Google日历邀请远程执行恶意代码。安全研究人员警告这种'零点击'攻击可能造成毁灭性后果,在CVSS风险评分中获得满分10分。尽管Anthropic将责任推给用户,专家认为该插件系统未能满足基本安全预期。

February 11, 2026
AI安全Claude漏洞零点击攻击