英伟达因涉嫌与盗版网站合作获取AI训练数据而面临强烈反对
英伟达因涉嫌盗版数据交易而备受抨击
一起爆炸性诉讼震撼硅谷,指控芯片制造商英伟达秘密与臭名昭著的盗版网站Anna's Archive谈判,以获取大量受版权保护的材料用于AI训练。法庭文件披露的内部通信显示,英伟达寻求高达500TB的盗版电子书——相当于约500万本小说——以加速其大语言模型的开发。
盗版网站关联
Anna's Archive作为一个影子图书馆运营,托管了数百万本未经出版商许可获取的书籍。尽管对该网站的非法性质有明确警告,英伟达据称在其与OpenAI等竞争对手的竞赛中仍选择了这一可疑捷径。
"这不仅仅是疏忽——而是蓄意行为,"代表作者集体诉讼的律师马克·雷诺兹声称,"内部邮件显示高管们清楚地知道这些内容的来源。"
诉讼引用了除Anna's Archive之外的多个盗版来源,包括:
- LibGen(Library Genesis)
- Sci-Hub
- Z-Library
竞争压力爆发
行业分析师认为,英伟达的激进举动反映了AI军备竞赛中日益增长的压力。自2022年底OpenAI的ChatGPT震惊科技界以来,各公司纷纷争先恐后追赶。
"他们需要数据——大量的数据——而且要快,"麻省理工学院研究员埃琳娜·彼得罗夫博士解释道,"当你处理需要数十亿参数的模型时,道德来源往往被抛诸脑后。"
英伟达在2023年秋季开发者大会上推出了NeMo和Retro-48B模型,不久后便进行了这些据称的数据获取。
合理使用还是不当行为?
该公司通过科技界常见的合理使用论点来维护自己的清白。"AI训练代表了一种变革性使用,"英伟达律师大卫·陈在最近的听证会上表示。
作者们反驳说,大规模复制不能仅仅因为输出不是完全相同的副本就得到正当化。"这不是灵感——这是吞噬,"畅销小说家莎拉·郑(本案原告之一)辩称,她的全部作品都出现在Anna's Archive上。
此案加入了多起类似诉讼的行列,这些诉讼正在测试现行版权法是否能应对AI对数据的渴望。此前的裁决结果不一,使法院缺乏明确的先例可循。
接下来会怎样?
这起诉讼恰逢影子图书馆本身面临的法律压力日益增加之际。Anna's Archive的创始人在多个司法管辖区面临潜在的刑事指控。
与此同时,尽管丑闻缠身,英伟达股票表现出惊人的韧性。投资者似乎相信该公司能够像过去应对争议一样度过这场风暴。
科技界密切关注此案进展,因为它可能会重塑未来AI公司获取训练数据的方式。
关键点:
- 英伟达寻求500TB涉嫌盗版内容
- 集体诉讼中引用内部邮件作为证据
- 据报除Anna's Archive外还使用了多个盗版网站
- 本案测试AI领域"合理使用"原则的边界
- 结果可能影响整个生成式AI行业
