网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

中文互联网语料资源大平台上线,27个数据集总量达2.7T!

2025-01-11来源:ITBEAR编辑:瑞雪

中国网络空间安全协会近日宣布了一项重大举措,正式推出了中文互联网语料资源平台,这一平台旨在为用户提供丰富多样的中文语料资源。该平台于1月9日正式上线,并面向全社会开放。

在中央网信办的指导下,中国网络空间安全协会携手国家互联网应急中心,在已有的中文互联网基础语料1.0的基础上,进一步升级并发布了中文互联网基础语料2.0。这一新版本经过严格的信源筛选、内容过滤和数据去重等处理,确保了数据的高质量和可信度。据悉,该语料库规模达到了120GB,包含3800万条数据。

平台的语料数据集涵盖了多个领域和模态,用户可以根据行业领域、内容模态以及体量规模等多种标签进行分类筛选,从而轻松找到所需资源。目前,平台已经吸引了27个语料数据集入驻,总数据量高达2.7T。

这些语料数据集主要分为三类:第一类是由中国网络空间安全协会与国家互联网应急中心等联合建设的中文互联网基础语料;第二类则是由人民网、北京智源研究院、上海人工智能实验室等单位共享的互联网语料;第三类则是由中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等机构提供的优质中文基础语料样本。

用户只需登录中国网络空间安全协会官方网站,点击“中文互联网语料资源平台”链接,完成注册和认证程序后,即可自由下载所需的语料资源。这一平台的推出,无疑为中文信息处理、自然语言处理以及人工智能等领域的研究和应用提供了强有力的支持。

中国网络空间安全协会人工智能安全治理专委会负责人表示,数据是人工智能发展的基石,中文互联网基础语料2.0的发布是各界共同努力、协同共建高质量中文语料的重要成果。未来,专委会将继续加强中文互联网基础语料的建设工作,为人工智能技术的创新和产业发展提供更加坚实的支撑和保障。

安谋科技发布“周易”X3 NPU IP,AIGC大模型能力跃升开启端侧AI新篇
智东西11月14日消息,昨日,安谋科技正式发布了专为端侧大模型而生的最新一代NPUIP——“周易”X3,其能够与Arm架构CPU、GPU协同,组成基于Arm生态的异构算力解决方案。 新的“周易”X3 NP…

2025-11-15

百度李彦宏2025世界大会发声:AI内化驱动,开启生产力革命新篇章
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14