美国媒体巨头封禁Wayback Machine以阻止AI抓取
媒体机构划清与AI抓取的界限
近日多家美国知名媒体机构屏蔽了互联网档案馆Wayback Machine的爬虫程序,这似乎是对抗AI公司的先发制人之举。《纽约时报》、Reddit和Gannett(《今日美国》母公司)均已对这款保存网站历史快照的数字存档工具实施限制。

令人爱恨交加的工具
其中的讽刺意味显而易见。就在实施封禁的几周前,《今日美国》母公司还曾依靠Wayback Machine的存档进行关于移民统计数据的调查报道。公司发言人表示:“我们承认其存档价值,但AI公司在未经许可情况下使用我们内容的威胁日益增长,迫使我们做出这个艰难决定。”
限制措施各不相同
媒体机构采取的策略并不统一:
- 完全封禁:《纽约时报》和Reddit已彻底屏蔽互联网档案馆专用爬虫程序(ia_archiverbot)
- 部分限制:《卫报》允许爬取,但已将其内容从档案馆API中移除,并通过搜索使历史内容几乎无法访问
记者群体反弹
包括MSNBC的Rachel Maddow在内的100多名记者联署支持互联网档案馆。他们认为Wayback Machine具有以下关键功能:
- 核查政治言论事实
- 追踪机构行为变化
- 保存可能消失的数字历史
联署信中指出:“没有这些档案,我们将失去跨时间问责权力的能力。”
版权争议升温
出版商主张AI公司使用存档内容侵犯版权并造成不公平竞争。互联网档案馆的Mark Graham反驳称这些限制威胁集体数字记忆:“当内容从网络上消失且无法被存档时,我们所有人都将失去历史碎片。”
要点总结:
- 主流媒体封禁Wayback Machine以阻止AI训练
- 此举无视记者调查工作对该工具的依赖
- 限制措施从完全封禁到API限制不一而足
- 超100名记者抗议这些限制
- 争议聚焦版权保护与数字保存需求的冲突



