Adobe因使用盗版书籍训练AI涉嫌侵权，面临集体诉讼

168 0 0

12月18日讯据外媒TechCrunch报道，美国作家伊丽莎白·莱昂发起的一起集体诉讼指控Adobe在其SlimLM语言模型的训练过程中使用了大量未经授权的作品。这些作品包括莱昂在内的多位作者的专著。

据悉，SlimLM是一款面向移动设备文档辅助场景的小型语言模型。其预训练数据集基于Cerebras公司在2023年发布的 SlimPajama-627B 数据集。该数据集被描述为一个去重处理且多语种的开源集合。但诉讼指出，SlimPajama的数据来源存在严重问题。

根据诉讼文件显示，SlimPajama是在RedPajama数据集的基础上进行复制和加工而来的。而RedPajama数据集本身包含了一个名为Books3的子数据集。该子数据集收录了约19.1万本图书，其中大量为受版权保护的作品。

诉讼明确指出，作为RedPajama的衍生作品，SlimPajama不可避免地包含了Books3中的内容。因此，在未获得相关作者授权的情况下，这些版权作品被用于语言模型的训练。

实际上，围绕 Books3 和 RedPajama 的争议早已超出 Adobe 一家公司。此前，苹果和 Salesforce 等科技巨头也曾因涉嫌在AI训练中使用未经许可的数据集而成为被告。这些案件的核心问题都是未经授权使用受版权保护的内容。

从行业发展的角度来看，类似法律纠纷正在变得越来越普遍。由于AI模型对海量训练数据的高度依赖，数据来源的合法性问题正频频引发法律风险。今年9月，Anthropic公司就曾同意向多名作者支付15亿美元（约合人民币105.77亿元），以和解其在开发Claude AI模型过程中使用未经授权作品的指控。这一事件被视为AI训练版权争议的一个重要转折点，但行业的法律挑战仍在持续。

# AI资讯