智源研究院推出的CCI 3.0 —— 大型中文网络文本数据库

AI工具2年前 (2025)发布 ainav

402 0 0

CCI 3.0指的是什么？

智源研究院近期推出了大规模中文互联网语料库CCI 3.0，该数据库包含总计1000GB的数据集及一个498GB的优质子集CCI 3.0-HQ。与上一版本相比，CCI 3.0在数据量方面几乎翻了一番，并且新增了超过20个数据来源机构，从而增强了其覆盖范围和代表性。这个语料库涵盖了逾2.68亿网页的内容，涉及新闻报道、社交平台及博客等多种类型的信息资源。此外，CCI 3.0还对原始信息进行了详尽的分类与标注工作，在语法、句法结构以及教育水平等10多个层面上进行筛选和评价，从而甄选出具有高学术价值的数据集。

CCI 3.0的核心特性

数据的大小及其出处CCI 3.0 的数据量级为1TB，涵盖逾2.68亿页面，并涉及新闻报道、社交平台及个人博客等多种渠道。其信息采集范围拓展到超过20个不同的源头机构，显著增强了资料的广泛性和典型性。
精准标记CCI 3.0 对初始数据实施了精细划分与标注，涵盖语法、句法及教育水平在内的超过十个方面，并从中甄选出具有高度价值的数据。
高精度部分集合CCI 3.0 内含一个高品质子集 CCI 3.0-HQ，其大小为498GB。该子集是在使用70B规模模型自动标注样本后，经由训练一个小体量的质量评估模型而生成的，旨在更有效地适应各行各业及各类应用场景的需求。
数据管理规范在CCI 3.0的构建阶段，采用了多种策略来保证数据质量和安全，其中包括运用规则基础的筛选手段（比如关键词筛检、垃圾信息剔除）、模型驱动的内容质量控制（例如过滤低质内容），以及实施重复数据删除措施（涵盖单个及多个数据集间的去重操作）。

CCI 3.0 的技术亮点

明显的培训成效通过使用不同数据集进行的从零开始的100B规模的数据对比测试显示，在仅用中文资料或结合中英双语文本进行培训的情况下，CCI 3.0的表现超越了其他的训练数据集，而CCI 3.0 HQ版本则展现了更为卓越的效果。
共同建设与分享的观念CCI 3.0 的推出促进了数据的合作与分享，助力打造一个规模庞大、质量上乘且信息密集的中文数据库，对推进中国人工智能行业的发展具有重要意义。
轻松获得的方法CCI 3.0 数据集能够从Flopsera、Huggingface以及Datahub等多个平台上获取，极大地便利了研究人员与开发者的利用。