近日,国外媒体Ars Technica报道了一起引发广泛关注的案件。当地时间周一公布的法庭文件显示,人工智能公司Anthropic曾投入巨资,将大量实体图书拆解并扫描成数字文件,用于训练类似ChatGPT的人工智能助手Claude。为获取所需的数据,该公司对购入的书籍进行了装订拆除和系统扫描,随后直接报废了所有纸质原版。
这份长达32页的判决书披露了Anthropic在2024年2月聘用汤姆·特鲁维(Tom Turvey)的过程。特鲁维曾参与谷歌图书项目的合作事务,公司委托他”获取全球范围内的图书资源”。这一人事任命显然借鉴了谷歌此前被法院判定为合法的图书数字化模式。
最终,威廉姆斯·奥尔普斯法官(William Alsup)作出判决,认定这种扫描方式属于合理使用。法官认为,Anthropic是通过合法购买图书后进行数字化处理,并且在扫描完成后销毁了所有纸质原版,数字文件仅用于内部培训。他指出,这种转换过程相当于”节省空间的数字化转换”,符合合理使用中的”转化性”特征。
AI模型的训练需要海量高质量的文本数据作为支撑。为了构建大型语言模型,研究人员必须将数以亿计的词语输入神经网络进行反复训练,从而建立词语与概念之间的关联关系。
训练数据的质量直接决定了AI输出结果的准确性。相比杂乱无章的网络评论,经过编辑整理的书籍和文章能够显著提升人工智能的语言理解能力。
对于亟需优质出版内容的AI公司而言,与作者或出版社逐一洽谈授权显然耗时费力。而美国的”首次销售原则”为这一问题提供了一个法律解决方案:购买实体书后,使用者可以自行决定如何处理。
和同行企业一样,Anthropic最初也选择了绕过版权保护的捷径。从法庭材料中可以看出,公司曾主张使用未经授权的电子书来规避繁琐的授权流程。但到了2024年,在充分考虑法律风险后,他们开始寻求更加安全的数据获取方式。
最终,收购二手书成为Anthropic的理想选择:既无需获得授权许可,又能确保数据来源可靠。为了加快数字化进程,该公司采用了”破坏式扫描”的方式——大量采购图书后进行拆封、裁剪,并以整批形式扫描成可机读的PDF文件,完成之后所有纸本文献均被废弃处理。整个过程耗资数百万美元。
Anthropic的数据来源主要是零售渠道的二手旧书。然而事实上,非破坏性的扫描技术早已成熟并投入使用。例如互联网档案馆(Internet Archive)就采用了能够完整保留原版书籍的数字化方案。本月早些时候,OpenAI和微软宣布与哈佛大学图书馆达成合作,计划利用近百万本公版书籍进行AI训练,这些珍贵资料在被数字化的同时也得到了妥善保存。