中文互联网基础语料3.0发布:120GB助力大模型训练与AI发展

AI资讯2个月前发布 ainav
71 0

9月18日上午消息,在昆明市举办的2025年国家网络安全宣传周人工智能安全治理分论坛上,备受关注的中文互联网基础语料3.0版本正式对外发布。

中文互联网基础语料3.0发布:120GB助力大模型训练与AI发展

在国家相关监管部门的指导下,中国网络空间安全协会联合国家互联网应急中心等机构,在此前推出中文互联网基础语料1.0和2.0版本的基础上,充分发挥企业、高校及科研单位的协同作用。依托人工智能安全治理专业委员会建立的数据共享机制,整合了一批高质量且可信赖的新数据资源,并通过信源筛选、内容过滤、数据去重等一系列严格的处理流程,最终完成了中文互联网基础语料3.0的建设工作并正式向社会公布。此次发布的语料库在多个方面实现了重要突破:首先,显著扩大了优质中文网站的数据来源;其次,强化了对违法和不良信息的过滤机制;第三,数据总量达到120GB。有需求的用户可通过访问中国网络空间安全协会官网(https://www.cybersac.cn/newhome),点击”中文互联网语料资源平台”链接,并按照注册、认证等流程操作,即可下载所需语料。

据中国网络空间安全协会负责人介绍,中文互联网基础语料3.0的发布标志着多方协作共建高质量中文语料库取得了新的重要进展,进一步充实了优质中文语料资源的储备。未来,网安协会将与国家互联网应急中心等单位继续深化合作,在各行业领域共同努力下,持续推进中文互联网基础语料的建设工作,为推动人工智能技术的创新发展和产业进步提供更坚实的数据支撑。

© 版权声明

相关文章