哈佛大学开源AI训练数据集“InstitutionalBooks1.0”：涵盖馆藏98.3万本图书

AI资讯1年前 (2025)发布 ainav

278 0 0

微软与OpenAI联合支持下，哈佛大学法学院图书馆近期正式发布了其首个面向公开的AI训练数据集——”Institutional Books 1.0″。

该数据集堪称学术界的一大突破，其规模之宏大令人瞩目。据官方统计数据显示，此数据集收录了哈佛大学图书馆珍藏的98.3万册图书，覆盖包括英语在内的245种不同语言，并包含总计2420 billion tokens的丰富文本资源。

值得注意的是，该数据集中的藏书具有鲜明的时代特征。其中约有40%为英文书籍，其余则涵盖了多种语言；在时间分布上，主要集中在19世纪和20世纪这两个出版业蓬勃发展的时期。此外，每本图书都经过细致分类，划分为20个主题类别，并完整保存了包括作者、出版年份、原始来源等在内的元数据信息。

据项目负责人透露，这一开放数据集将持续优化和扩容。目前哈佛图书馆已与波士顿公共图书馆达成合作，计划将数百万份历史报纸进行数字化处理，并整合进现有数据库中。这一举措无疑将进一步丰富该数据集的学术价值。

展望未来，哈佛大学法学院图书馆还规划开发一系列AI辅助工具，旨在提高馆藏资源管理效率，同时推动建立”负责任的数据使用规范”，为全球AI研究提供更高质量的基础资源支持。这一项目不仅展现了顶尖学府的学术远见，也为全球开放数据运动树立了新的标杆。

文章版权归作者所有，未经允许请勿转载。

ainav

206 0

ainav

242 0

ainav

208 0

ainav

327 0

ainav

198 0

ainav

192 0