关于中文拼写纠错数据增强的方法被引量：1

Data Enhancement Approach of Chinese Spelling Error Correction

导出

摘要针对中文文本纠错领域中训练深度学习模型所需要的标注数据有限这一问题,提出了五种数据噪声替换方案。通过实验验证,证明了其中的音似替换和形似替换两种方案可以有效增强该领域数据质量,然后通过对这两种替换方案的对比实验,探索出了一种更有效的混合替换方案。其核心在于通过噪声替换的方式提升现有数据集的大小和多样性,进而提高中文拼写纠错模型的性能。 Due to the limitation of the label data needed to train the deep learning model in the field of Chinese text error correction,five data noise replacement schemes are proposed.Experiment proves that the sound similarity replacement and form similarity can effectively enhance the data quality in the area.Then a more effective hybrid alternative scheme is explored through the comparative experiment of the two alternatives.The core of this method is to improve the performance of Chinese spelling correction model by increasing the size and diversity of existing data sets by means of noise substitution.

作者李建义白雪丽王洪俊王迦南 Li Jianyi;Bai Xueli;Wang Hongjun;Wang Jianan(School of Computer Science&Engineering,North China Institute of Aerospace Engineering,Langfang 065000,China;TRS Information Technology Co.,Ltd.,Beijing 100000,China)

机构地区北华航天工业学院计算机学院拓尔思信息技术股份有限公司

出处《北华航天工业学院学报》 CAS 2021年第6期1-4,44,共5页 Journal of North China Institute of Aerospace Engineering

基金河北省自然科学基金项目(F2019409056)。

关键词中文拼写纠错深度学习标注数据噪声替换数据增强 Chinese spelling correction deep learning label data noise substitution data enhancement

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
2陶永才,吴文乐,海朝阳,石磊,卫琳.一种结合LSTM和集成算法的文本校对模型[J].小型微型计算机系统,2020,41(5):967-971. 被引量：11

二级参考文献40

1张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
2张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
3张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：34
4易蓉湘,何克抗.计算机汉语文稿校对系统[J].计算机研究与发展,1997,34(5):346-350. 被引量：12
5Karen Kukich.Techniques for Automatically Correcting Words in Text[J].ACM Computing Surveys,1992,24(4):377-438.
6Andrew R Golding.A Winnow-based Approach to Context-Sensitive Spelling Correction[J].Machine Learning,1999,34:107-130.
7Li Jianhua,Wang Xiaolong.Study on Automatic Spelling Check and Correction[J].Journal of Chinese Language and Computing,2003,1(1):25-36.
8Lei Zhang,Ming Zhou,Changning Huang,et al.Automatic Chinese Text Error Correction Approach Based on Fast Approximate Chinese Word-matching Algorithm[C].Microsoft Research China Paper Collection,2000.231-235.
9Lei Zhang,Ming Zhou,Changning Huang,et al.Automatic Detecting/Correcting Errors in Chinese Text by an Approximate Word-matching Algorithm[C].Microsoft Research China Paper Collection,2000.135-141.
10Lei Zhang,Ming Zhou,Changning Huang.Multifeature-based Approach to Automatic Error Detection and Correction of Chinese Text[C].Microsoft Research China Paper Collection,2000.193-197.

共引文献47

1陈翔,徐平先,张玉志.面向文本数字化的自动纠错方法[J].计算机应用研究,2008,25(5):1434-1436. 被引量：3
2王永景,刘功申,李生红,荆涛.用于文本校对的分词与词性标注一体化算法[J].计算机技术与发展,2008,18(8):1-3. 被引量：1
3李斌,姚建民,朱巧明.英文作文的自动拼写检查研究[J].郑州大学学报（理学版）,2008,40(3):48-51. 被引量：5
4潘昊,颜军.基于中文分词的文本自动校对算法[J].武汉理工大学学报,2009,31(3):18-20. 被引量：4
5才让卓玛,才智杰.藏文文本自动校对系统开发研究[J].西北民族大学学报（自然科学版）,2009,30(1):25-28. 被引量：10
6斯.劳格劳.基于不确定有限自动机的蒙古文校对算法[J].中文信息学报,2009,23(6):110-115. 被引量：8
7赵莉.基于OCR的拼写校正系统[J].兵工自动化,2010,29(9):92-94. 被引量：3
8郭充,张仰森.基于《知网》义原搭配的中文文本语义级自动查错研究[J].计算机工程与设计,2010,31(17):3924-3928. 被引量：12
9马立东.Metaphone语音匹配算法及其应用研究[J].计算机时代,2010(10):39-43. 被引量：2
10陆玉清,洪宇,陆军,姚建民,朱巧明.基于上下文的真词错误检查及校对方法[J].中文信息学报,2011,25(1):85-90. 被引量：5

同被引文献3

1王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：29
2胡晓峰,李伟,马萍,杨明.复杂仿真实验结果可信度评估方法[J].上海航天,2019,36(4):37-41. 被引量：2
3Liner Yang,Chengcheng Wang,Yun Chen,Yongping Du,Erhong Yang.Controllable data synthesis method for grammatical error correction[J].Frontiers of Computer Science,2022,16(4):69-78. 被引量：1

引证文献1

1宋程,谢振平.中文纠错任务为例的数据集增强质量评价方法[J].计算机工程与应用,2024,60(3):331-339.

1J.KRUEGER,P.WINK,M.WERNER,陈佳(译).采用主动排气系统减少CO_(2)排放并符合未来的通过噪声限值[J].汽车与新动力,2021,4(6):47-51.

北华航天工业学院学报

2021年第6期

浏览历史

内容加载中请稍等...

关于中文拼写纠错数据增强的方法被引量：1

参考文献2

二级参考文献40

共引文献47

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

关于中文拼写纠错数据增强的方法 被引量：1

参考文献2

二级参考文献40

共引文献47

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

关于中文拼写纠错数据增强的方法被引量：1