OpenAI 机器人被指破坏电子商务网站
事件概述
最近,Oleksandr Tomchuk,Trilegangers 的首席执行官,报告了公司电子商务网站的重大干扰,该网站主办超过 65,000 个产品。调查显示,一只 OpenAI 机器人 正在积极尝试抓取该网站的数据,导致其暂时关闭。该机器人据称发送了 数万 次服务器请求,旨在下载所有内容,包括大量照片库和描述。
攻击性质
Tomchuk 将机器人的行为称为一种 DDoS 攻击,因为这有效地使他们的网站瘫痪。Trilegangers 专注于销售 3D 物体文件 和照片,面向需要真实人类特征数字再现的 3D 艺术家 和 视频游戏开发者。
该网站对他们的运营至关重要,代表了 十多年的 工作,汇编了被认为是在线最大的 数字人类头像 数据库,使用来自真实人类模型的 3D 扫描。
保护措施与挑战
尽管有条款服务页面禁止未经授权的机器人抓取,Tomchuk指出,仅仅依靠这些措施已被证明无效。需要一个正确配置的 robot.txt 文件来指示 OpenAI 的机器人 GPTBot 不要与他们的网站互动。
Robot.txt,或 机器人排除协议,帮助网站所有者传达哪些内容不应被抓取。OpenAI 已承诺尊重这些配置,但承认其机器人可能需要最多 24 小时 才能识别 robot.txt 文件中的更改。
Tomchuk 强调正确利用 robot.txt 的重要性,声称没有它,像 OpenAI 这样的公司可能会假认为可以自由抓取数据。
对业务运营的影响
机器人的活动不仅导致 Trilegangers 在美国营业时间内下线,还引发了对其 AWS 服务相关费用增加的担忧,因为过高的 CPU 和下载使用。
此外,robot.txt 系统并不是万无一失的。合规性是自愿的,这一点在另一家 AI 初创公司 Perplexity 的先前事件中得到了强调,该公司因忽视 robot.txt 协议而受到批评。
寻求责任追究
Tomchuk 对于缺乏与 OpenAI 联系渠道以解决这一情况表示失望,OpenAI 尚未对 TechCrunch 的询问做出回应。此外,OpenAI 还未发布其期待已久的 选择退出工具,使企业能够更有效地保护其内容。
这种抓取行为的影响对 Trilegangers 尤其严重,因为他们需处理与所扫描真实人类图像相关的复杂 权利问题。根据 欧洲 GDPR 等法律,未经授权使用个人照片是被禁止的。
暴露的脆弱性
具有讽刺意味的是,OpenAI 机器人的激进抓取暴露了 Trilegangers 面临的脆弱性。Tomchuk 指出,如果机器人的操作更加微妙,问题的严重程度可能会被忽视。
他批评当前的做法,表示:“这些公司利用漏洞抓取数据,声称如果你用我们的标签更新你的 robot.txt,你可以选择退出。”这将阻碍企业主理解如何有效阻止不必要的抓取。
Tomchuk 呼吁其他小型在线企业积极监控可能侵犯其 版权资产 的 AI 机器人。其他网站所有者的报告显示,OpenAI 机器人造成了类似干扰,导致运营成本增加。
未来展望
展望未来,AI 机器人带来的挑战预计会加剧。DoubleVerify 的一项最新研究预测,2024年 一般无效流量 将增加 86%,这在很大程度上归因于 AI 爬虫和抓取工具的活动。
关键点
- 一只 OpenAI 机器人 allegedly 对 Trilegangers 的电子商务网站发起了 DDoS 攻击。
- 此事件突显了网站在抵御 AI 爬虫方面的脆弱性。
- robot.txt 协议并不是万无一失的,AI 公司自愿遵守。
- Tomchuk 强调需要与 OpenAI 就抓取行为进行更好的沟通。


