英伟达版权诉讼:被指控联系影子图书馆获取500TB盗版数据

AI资讯3周前发布 ainav
25 0

1月20日讯 据Torrentfreak报道,英伟达内部高管曾批准使用”安娜档案馆”的大量盗版书籍数据,用于其人工智能模型的训练工作。在一项引用英伟达内部文件的集体诉讼中,多位图书作者指控该公司直接联系”安娜档案馆”,寻求该非法图书馆资源的高速访问权限。

英伟达版权诉讼:被指控联系影子图书馆获取500TB盗版数据

作为人工智能领域的领军企业,英伟达近年来在财务上获益颇丰。得益于市场对其AI训练芯片及数据中心服务的强劲需求,公司营收持续增长,并且这一增长趋势预计仍将持续。

除了销售热门硬件产品外,英伟达也在积极研发自己的人工智能模型,包括NeMo、Retro-48B、InstructRetro和Megatron等。与其它科技巨头的做法类似,这些模型均基于英伟达自研的硬件,并利用海量文本库进行训练。

然而,与其他科技公司一样,英伟达的这种模型训练方式也面临版权方的强烈反对。多位图书作者已对该公司提起诉讼,指控其使用未经授权的盗版书籍数据来训练AI模型。

2024年初,就有数位作者以涉嫌侵犯版权为由起诉英伟达。诉讼中指出,英伟达的人工智能模型是基于Books3数据集进行训练,而该数据集包含从盗版网站Bibliotik获取的受版权保护的作品。

面对指控,英伟达示意其行为属于”合理使用”,声称这些书籍对于AI模型而言只是用于统计关联分析。然而这一说法并未平息争议,原告方在证据开示阶段发现了更多支持性材料。

上周五,原告提交了修订后的起诉书,诉讼范围显著扩大。新增内容包括更多涉案书籍、作者以及AI模型,并增加了对”影子图书馆”的广泛指控。

根据新提交的诉状显示,英伟达数据战略团队的一名成员曾主动联系”安娜档案馆”,探讨获取该盗版图书馆资源的可能性。诉状中提到:”为获取海量图书数据,在市场竞争压力下,英伟达主动接洽了规模最大的非法图书馆——’安娜档案馆’,并洽谈购买其数百万份盗版资料的高速访问权限。”

值得注意的是,”安娜档案馆”随后警示英伟达其资源均为非法获取,要求对方确认内部授权情况。据称,在一周内英伟达就批准了这项合作,并获得了该图书馆提供的数百万本盗版书籍访问权限。

诉状指出,”安娜档案馆”承诺向英伟达开放约500TB的数据访问权限,其中包含大量仅可通过”互联网档案馆”数字借阅系统获取的图书。而该档案馆本身也正深陷相关诉讼争议。

关于是否支付费用的问题,诉状并未明确说明。但可以确定的是,在得知图书馆藏书非法性质后,英伟达仍坚持推进合作。

除了’安娜档案馆’,原告还指控英伟达从其他盗版平台如LibGen、Sci-Hub和Z-Library下载了大量图书用于AI训练。这些指控进一步发展出两项新的诉讼主张——辅助侵权与共同侵权。

诉状称,英伟达不仅自己使用盗版数据集进行模型训练,还向企业客户提供脚本和工具,帮助他们自动下载包含盗版Books3数据集的”The Pile”数据库。这种行为被认为构成了侵权协助和共同侵权。

基于上述指控,原告要求英伟达对其造成的损失进行赔偿,并特别指出该诉求不仅适用于现有诉讼当事人,还包括未来可能加入诉讼的其他数百位作者。

此次披露的文件显示,这是首次公开美国大型科技公司与”安娜档案馆”往来的内部函件。而就在不久前,这家非法图书馆还丢失了多个域名,这无疑将进一步提升其公众关注度。

© 版权声明

相关文章