微软与OpenAI联合支持下,哈佛大学法学院图书馆近期正式发布了其首个面向公开的AI训练数据集——”Institutional Books 1.0″。

该数据集堪称学术界的一大突破,其规模之宏大令人瞩目。据官方统计数据显示,此数据集收录了哈佛大学图书馆珍藏的98.3万册图书,覆盖包括英语在内的245种不同语言,并包含总计2420 billion tokens的丰富文本资源。
值得注意的是,该数据集中的藏书具有鲜明的时代特征。其中约有40%为英文书籍,其余则涵盖了多种语言;在时间分布上,主要集中在19世纪和20世纪这两个出版业蓬勃发展的时期。此外,每本图书都经过细致分类,划分为20个主题类别,并完整保存了包括作者、出版年份、原始来源等在内的元数据信息。
据项目负责人透露,这一开放数据集将持续优化和扩容。目前哈佛图书馆已与波士顿公共图书馆达成合作,计划将数百万份历史报纸进行数字化处理,并整合进现有数据库中。这一举措无疑将进一步丰富该数据集的学术价值。
展望未来,哈佛大学法学院图书馆还规划开发一系列AI辅助工具,旨在提高馆藏资源管理效率,同时推动建立”负责任的数据使用规范”,为全球AI研究提供更高质量的基础资源支持。这一项目不仅展现了顶尖学府的学术远见,也为全球开放数据运动树立了新的标杆。
© 版权声明
文章版权归作者所有,未经允许请勿转载。