Adobe因使用盗版书籍训练AI涉嫌侵权,面临集体诉讼

AI资讯2个月前发布 ainav
47 0

12月18日讯 据外媒TechCrunch报道,美国作家伊丽莎白·莱昂发起的一起集体诉讼指控Adobe在其SlimLM语言模型的训练过程中使用了大量未经授权的作品。这些作品包括莱昂在内的多位作者的专著。

据悉,SlimLM是一款面向移动设备文档辅助场景的小型语言模型。其预训练数据集基于Cerebras公司在2023年发布的 SlimPajama-627B 数据集。该数据集被描述为一个去重处理且多语种的开源集合。但诉讼指出,SlimPajama的数据来源存在严重问题。

根据诉讼文件显示,SlimPajama是在RedPajama数据集的基础上进行复制和加工而来的。而RedPajama数据集本身包含了一个名为Books3的子数据集。该子数据集收录了约19.1万本图书,其中大量为受版权保护的作品

诉讼明确指出,作为RedPajama的衍生作品,SlimPajama不可避免地包含了Books3中的内容。因此,在未获得相关作者授权的情况下,这些版权作品被用于语言模型的训练。

实际上,围绕 Books3 和 RedPajama 的争议早已超出 Adobe 一家公司。此前,苹果和 Salesforce 等科技巨头也曾因涉嫌在AI训练中使用未经许可的数据集而成为被告。这些案件的核心问题都是未经授权使用受版权保护的内容。

从行业发展的角度来看,类似法律纠纷正在变得越来越普遍。由于AI模型对海量训练数据的高度依赖,数据来源的合法性问题正频频引发法律风险。今年9月,Anthropic公司就曾同意向多名作者支付15亿美元(约合人民币105.77亿元),以和解其在开发Claude AI模型过程中使用未经授权作品的指控。这一事件被视为AI训练版权争议的一个重要转折点,但行业的法律挑战仍在持续。

© 版权声明

相关文章