苹果因涉嫌使用盗版书籍训练AI面临诉讼
苹果被指控使用盗版书籍训练AI
纽约州立大学健康科学学院的两位教授对苹果公司提起集体诉讼,指控其在训练人工智能系统时未经授权使用了他们的受版权保护作品。这起投诉标志着围绕AI训练数据来源的法律纠纷再度升级。
指控内容
Susana Martinez-Conde和Stephen Macknik教授声称,苹果使用了来自Books3的文本训练其Apple Intelligence和OpenELM语言模型。Books3是一个包含约186,640本源自盗版材料的争议数据集。他们的著作Champions of Illusion和Sleights of Mind据称在未经许可的情况下被纳入其中。

诉讼称苹果不仅将这些材料用于模型训练,还用于测试性能并从面向用户的输出中过滤受版权保护的内容。此前苹果曾在2024年4月承认使用了包含Books3内容的The Pile数据集。
Books3背景
Books3作为一个影子图书馆运作,主要通过私人BitTorrent追踪器Bibliotik获取材料。该收藏在AI研究人员中臭名昭著,后于2023年10月因版权投诉被下架。
该数据集引发争议的原因包括:
- 包含明显受版权保护的材料
- 在科技公司间广泛传播
- 缺乏适当的署名或补偿机制
法律影响
此案提出了复杂的问题:
- AI训练是否构成合理使用
- 如何补偿作品被算法使用的创作者
- 机器学习环境下什么构成故意侵权
原告要求:
- 陪审团审判
- 经济赔偿
- 禁止未来使用其作品的禁令 如果被判故意侵权,苹果可能面临每部侵权作品最高15万美元的罚款。
诉讼提出之际正值科技公司数据实践受到日益严格的审查:
"这不仅关乎赔偿——更是要为AI时代如何使用创意作品确立道德边界,"知识产权律师Mark Lemley表示。
此案之前已有涉及Midjourney和Anthropic的类似纠纷,法院在将传统版权框架应用于AI开发时面临困难。
市场背景
尽管投诉指出苹果宣布AI计划后市值增加了2000亿美元,但分析师警告不要将此完全归因于有争议的训练方法:
- 苹果估值五年来持续增长
- 多重因素影响股票表现
- 实际影响仍有待法律结果明确
该公司尚未对这些指控做出实质性回应。
关键点:
- 法律行动: SUNY教授指控苹果未经授权使用其书籍进行AI训练
- 争议来源: Books3数据集在被下架前包含盗版材料
- 高风险: 潜在罚款可能达到每部侵权作品15万美元
- 更广泛影响: 本案考验AI开发中的版权边界

