NKCorpus:利用海量网络数据构建大型高质量中文数据集被引量：2

NKCorpus: Extracting High Quality Large Chinese Dataset from Web Data

下载PDF

导出

摘要【目的】大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架。【方法】利用语言提取、文本清洗、数据去重等多种方法对原始数据进行处理获取数据集,并利用并行技术对数据处理框架的效率进行优化。【结果】提出了一个流程完善且高效的可以利用海量网络数据构建大型高质量中文数据集的框架NKCorpus,并且利用NKCorpus构建了约700GB的可直接用于中文预训练语言模型的训练工作的高质量中文数据集。【结论】NKCorpus已能够基本满足当前对于大规模、高质量中文数据集的高效构建需求。 [Objective]For large-scale Chinese pre-trained language models or other natural language processing models,it is very important to collect and process large-scale high-quality Chinese data for model training.Therefore,a comprehensive large-scale dataset construction framework is required.[Methods]We use pipeline preprocessing procedures such as language extraction,text cleaning,and deduplication to process data.The performance of our framework is also optimized by parallel computing techniques.[Results]A comprehensive and efficient dataset construction framework NKCorpus is proposed to construct large-scale high-quality Chinese corpus datasets from massive web data,and a high-quality Chinese dataset of about 700GB is constructed using NKCorpus.[Conclusions]NKCorpus can meet the current needs for the efficient construction of large-scale,high-quality Chinese datasets.

作者李东闻钟震宇申峻宇王昊天孙羽菲张玉志 LI Dongwen;ZHONG Zhenyu;SHEN Junyu;WANG Haotian;SUN Yufei;ZHANG Yuzhi(College of software,Nankai University,Tianjin 300350,China)

机构地区南开大学

出处《数据与计算发展前沿》 CSCD 2022年第3期30-45,共16页 Frontiers of Data & Computing

基金国家重点研发计划(2021YFB0300104)。

关键词自然语言处理中文数据集数据集构建 natural language processing Chinese dataset dataset construction

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：155
2汤佳杰,曹永忠,顾浩.基于文本标点密度连续和的网页正文抽取[J].计算机时代,2020,0(1):69-72. 被引量：2

二级参考文献4

1李伟男,李书琴,景旭,魏露,李新乐.基于模拟退火算法和二阶HMM的Web信息抽取[J].计算机工程与设计,2014,35(4):1264-1268. 被引量：7
2刘利,戴齐,尹红风,贾真,胡万亭.基于多特征融合的网页正文信息抽取[J].计算机应用与软件,2014,31(7):47-49. 被引量：4
3姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015,32(4):317-322. 被引量：6
4刘鹏程,胡骏,吴共庆.基于文本块密度和标签路径覆盖率的网页正文抽取[J].计算机应用研究,2018,35(6):1645-1650. 被引量：5

共引文献155

1王伟,阮文翰,孟祥福.融合对抗训练的中文GPT对话模型研究[J].辽宁工程技术大学学报（自然科学版）,2023(3):378-384.
2邱凯锋,王则远,何志超,付凯利,梅童霖,关英杰,高飞,伍俊妍.人工智能技术在超说明书用药循证中的应用研究[J].中华临床医师杂志（电子版）,2023,17(12):1212-1218.
3余同瑞,金冉,韩晓臻,李家辉,郁婷.自然语言处理预训练模型的研究综述[J].计算机工程与应用,2020,56(23):12-22. 被引量：49
4Yi HAN,Linbo QIAO,Jianming ZHENG,Hefeng WU,Dongsheng LI,Xiangke LIAO.A survey of script learning[J].Frontiers of Information Technology & Electronic Engineering,2021,22(3):341-373.
5郝超,裘杭萍,孙毅,张超然.多标签文本分类研究进展[J].计算机工程与应用,2021,57(10):48-56. 被引量：26
6邱石贵,章化奥,段湘煜,张民.神经机器翻译的词级别正则化[J].厦门大学学报（自然科学版）,2021,60(4):662-669.
7王涛,刘超辉,郑青青,黄嘉曦.基于单向Transformer和孪生网络的多轮任务型对话技术[J].计算机工程,2021,47(7):55-58.
8陈晓玲,唐丽玉,胡颖,江锋,彭巍,冯先超.基于ALBERT模型的园林植物知识实体与关系抽取方法[J].地球信息科学学报,2021,23(7):1208-1220. 被引量：6
9王永鹏,周晓磊,马慧敏,曹吉龙,无.联合知识的融合训练模型[J].计算机系统应用,2021,30(7):50-56. 被引量：1
10杨修远,彭韬,杨亮,林鸿飞.基于知识蒸馏的自适应多领域情感分析[J].山东大学学报（工学版）,2021,51(3):15-21. 被引量：1

同被引文献8

1陈涛.MVVM设计模式及其应用研究[J].计算机与数字工程,2014,42(10):1982-1985. 被引量：26
2洪健.C#中的数据库编程技术研究[J].计算机光盘软件与应用,2014,17(17):265-266. 被引量：6
3王舒宁,樊超逸,谷青范.基于WPF的民机驾驶舱人机接口快速原型技术[J].航空电子技术,2019,50(4):47-52. 被引量：1
4罗婕溪,刘帅,张玉志,李正丹,孙羽菲,张圣林.基于知识图谱技术的线上教学资源推荐系统设计与实现[J].数据与计算发展前沿,2022,4(3):3-18. 被引量：26
5隋轶丞,石昌青,孙羽菲,张玉志,陈禹乔,张宇哲.基于OpenCL的TensorFlow框架中Element-Wise算子实现[J].数据与计算发展前沿,2022,4(3):19-29. 被引量：2
6孙永谦,张茹茹,林子涵,张圣林,谭智元,张玉志.KPI异常检测方法评估[J].数据与计算发展前沿,2022,4(3):46-65. 被引量：4
7梁思立,姜桂飞,陈泰劼,邓益超,战瑀璠,张玉志.基于蒙特卡洛树搜索的通用博弈系统的构建与优化研究[J].数据与计算发展前沿,2022,4(3):66-77. 被引量：3
8李思毅,马诗雨,崔丽月,张圣林,孙永谦,张玉志.微服务架构下的根因定位方法综述[J].数据与计算发展前沿,2022,4(3):78-89. 被引量：1

引证文献2

1张玉志.专刊序言[J].数据与计算发展前沿,2022,4(3):1-2.
2李甜华,央啦,杨文艺,春燕.基于爬虫和WPF技术的藏文命名实体数据集半自动构建器设计[J].现代计算机,2023,29(21):93-97.

1吴丽云,阎芷歆.冰雪旅游产业高质量发展的内涵、困境与路径突破[J].泰山学院学报,2022,44(3):58-63. 被引量：4
2梁枫.乒乓球运动中的战术训练和战术运用[J].文体用品与科技,2022(11):145-147.

数据与计算发展前沿

2022年第3期

浏览历史

内容加载中请稍等...

NKCorpus:利用海量网络数据构建大型高质量中文数据集被引量：2

参考文献2

二级参考文献4

共引文献155

同被引文献8

引证文献2

相关作者

相关机构

相关主题

浏览历史

NKCorpus:利用海量网络数据构建大型高质量中文数据集 被引量：2

参考文献2

二级参考文献4

共引文献155

同被引文献8

引证文献2

相关作者

相关机构

相关主题

浏览历史

NKCorpus:利用海量网络数据构建大型高质量中文数据集被引量：2