作家起诉Adobe使用盗版书籍训练AI
Adobe因涉嫌使用盗版书籍训练AI遭起诉
科技巨头Adobe陷入争议漩涡,俄勒冈州作家Elizabeth Lyon提起集体诉讼,指控该公司使用非法获取的书籍训练其SlimLM人工智能模型。此案为内容创作者与科技公司在AI时代的版权保护之争提供了新的视角。
核心指控
撰写非虚构写作指南的Lyon声称,Adobe未经许可或支付报酬就将她的盗版作品纳入SlimLM的训练数据。法庭文件显示,Adobe使用了可追溯至Books3的问题数据集——该合集包含约19.1万本据称从盗版网站抓取的受版权保护书籍。
诉状特别指向SlimPajama-627B数据集(Adobe承认将其用于开发SlimLM)。尽管该数据集公开可用,但Lyon的法律团队认为SlimPajama继承了其前身RedPajama的版权问题——后者直接使用了Books3的内容。
"Adobe走了捷径," Lyon的代理律师Mark Rifkin表示,"他们利用窃取的创意作品开发商业产品,却绕过了正当授权渠道."
行业影响
这起诉讼并非孤立事件。多家科技巨头目前面临类似法律挑战:
- 苹果去年9月就因其Apple Intelligence系统受到指控
- Anthropic上月刚与作家们达成15亿美元的和解协议
- Salesforce10月因其AI训练方式收到投诉
这一系列事件表明,整个行业可能即将面临关于AI公司如何获取训练材料的清算。
本案意义
判决结果可能重塑科技公司未来开发AI的方式。目前许多企业依赖从各种网络来源抓取的大规模数据集(其版权状态存疑)。若Adobe败诉或将迫使企业:
- 实施更严格的训练数据审查流程
- 开发补偿内容创作者的新方法
- 可能限制可合法使用的材料范围
这不仅是经济赔偿问题——核心在于如何为当今AI革命所依赖的创意工作建立公平补偿机制。
随着生成式AI对海量文本数据的依赖日益加深,本案时机可谓至关重要。
关键点:
- Adobe因涉嫌在SlimLM训练中使用盗版书籍面临集体诉讼
- 案件焦点是包含约19.1万部版权作品的争议性Books3数据集
- 针对苹果、Anthropic和Salesforce的类似诉讼相继出现
- 判决结果可能重新定义AI训练材料的版权标准
- 对科技行业惯例或造成数十亿美元影响