12月3日,科技媒体Ars Technica发布了一篇博文,详细报道了一起由多位作家发起的集体诉讼案件。根据最新进展,美国法官已要求OpenAI公开其删除两个盗版书籍数据集的相关内部沟通记录,这一裁决可能成为案件的重要转折点。
这起诉讼的核心指控是OpenAI在开发ChatGPT过程中涉嫌非法使用未经授权的盗版书籍进行训练。案件的关键争议点在于,该公司曾在2022年ChatGPT发布之前移除了名为”Books1″和”Books2″的重要数据集。
针对删除行为,OpenAI给出的理由是这些数据集”未被使用”。然而,当原告方要求提供相关证据时,该公司却又试图将所有删除理由归入受”律师-客户特权”保护的机密信息范畴。这种前后不一的说法引发了原告方的高度质疑。
美国地区法官Ona Wang对OpenAI的做法表示强烈不满。她指出,当一家公司首先提出一个公开的理由(如”未使用”),却又在后续声称该理由涉及特权保护时,这种行为是不被允许的。
法官特别强调,OpenAI的行为”令人难以置信”。她要求该公司必须在12月8日前提交所有与删除数据集相关的内部沟通记录,包括但不限于与法律顾问的讨论内容以及涉及盗版书库LibGen的所有相关信息。
此外,法院还安排OpenAI的内部法律顾问在12月19日前接受质询。如果最终被认定存在”恶意侵权”行为,OpenAI可能面临巨额赔偿。根据美国版权法规定,恶意侵权每部作品的法定赔偿金额最高可达15万美元(约合人民币106.2万元)。
法官Wang进一步指出,OpenAI一方面声称自己是”善意”行事,另一方面又试图隐藏其决策过程,这种做法明显自相矛盾。陪审团有必要了解OpenAI所谓的”善意”实际上基于哪些事实,而这些被隐藏的内部信息正是判断是否存在恶意侵权的关键证据。
法官还特别指出,OpenAI在辩护过程中曲解了另一起涉及AI公司Anthropic的判决。她明确表示,”为训练大语言模型而下载盗版书籍并不等同于合法行为”。