基于Transformer网络的中文单字词检错方法研究被引量：5

A Transformer Approach to Error Detection of Chinese Single-character Word

下载PDF

导出

摘要错别字自动识别是自然语言处理中一项重要的研究任务,在搜索引擎、自动问答等应用中具有重要价值。尽管传统方法在识别文本中多字词错误方面的准确率较高,但由于中文单字词错误具有特殊性,传统方法对中文单字词检错准确率较低。该文提出了一种基于Transformer网络的中文单字词检错方法。首先,该文通过充分利用汉字混淆集和Web网页构建中文单字词错误训练语料库。其次,在实际测试过程中,该文对实际的待识别语句采用滑动窗口方法,对每个滑动窗口中的句子片段分别进行单字词检错,并且综合考虑不同窗口的识别结果。实验表明,该方法具有较好的实用性。在自动生成的测试集上,识别准确率和召回率分别达到83.6%和65.7%;在真实测试集上,识别准确率和召回率分别达到82.8%和61.4%。 Typo automatic detection is an important research task in natural language processing. It has important value in search engine, automated Q&A, etc. Although the accuracy of traditional methods for recognizing muliti-word typos in Chinese text is relatively high. However, due to the particularity of Chinese single word error, these methods generally have low accuracy. This paper proposes a method to identify Chinese single word error using a Transformer network. Firstly, In this paper, we make full use of Chinese character confusion set and web pages to build a Chinese single word error training corpus. Secondly, during actual testing process, the sliding window method is adopted for the actual sentences to be identified, single word error detection is performed for each sentence segment in each sliding window, and the recognition results of each window are comprehensively considered. Experiments show that the method in this paper has better practicability. Experimental results indicate that our method achieves a precision rate of 83.6% and a recall rate of 65.7% on an artifical test set, and a precision rate of 82.8% and a recall rate of 61.4% respectively on a real test set.

作者曹阳曹存根王石 CAO Yang;CAO Cungen;WANG Shi(Key Laboratory of Intelligent Information Processing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China)

机构地区中国科学院计算技术研究所智能信息处理重点实验室中国科学院大学

出处《中文信息学报》 CSCD 北大核心 2021年第1期135-142,共8页 Journal of Chinese Information Processing

基金国家重点研发计划(2017YFC1700300,2017YFB1002300)。

关键词单字词检错 Transformer网络滑动窗口 single word error detection Transformer network sliding window

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1刘亮亮,曹存根.中文“非多字词错误”自动校对方法研究[J].计算机科学,2016,43(10):200-205. 被引量：15
2施恒利,刘亮亮,王石,符建辉,张再跃,曹存根.汉字种子混淆集的构建方法研究[J].计算机科学,2014,41(8):229-232. 被引量：7
3于勐,姚天顺.一种混合的中文文本校对方法[J].中文信息学报,1998,12(2):31-36. 被引量：22
4张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：34
5易蓉湘,何克抗.计算机汉语文稿校对系统[J].计算机研究与发展,1997,34(5):346-350. 被引量：12

二级参考文献33

1张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
2张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
3马金山,张宇,刘挺,李生.利用三元模型及依存分析查找中文文本错误[J].情报学报,2004,23(6):723-728. 被引量：7
4陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：7
5张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：34
6王思力,张华平,王斌.双数组Trie树算法优化及其应用研究[J].中文信息学报,2006,20(5):24-30. 被引量：29
7陈志忠，计算机学报，1991年，14卷，2期
8刘开瑛，自然语言处理，1991年
9孙茂松，中文信息学报，1989年，3卷，4期
10慕勇，汉语文本自动查错与确认纠错系统的研究，1995年

共引文献64

1华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
2张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
3张仰森,曹元大,徐波.中文文本自动校错系统中知识库及其构造方法研究[J].小型微型计算机系统,2004,25(12):2237-2242. 被引量：3
4张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
5陈翔,徐平先,张玉志.面向文本数字化的自动纠错方法[J].计算机应用研究,2008,25(5):1434-1436. 被引量：3
6林晖,林劼.基于Markov模型的改进型疑错窗口算法[J].实验科学与技术,2008,6(4):40-42. 被引量：1
7吕威,林文昶,姚正安,李磊.基于String Kernel和KPCA的负实例语法特征提取算法[J].计算机工程与应用,2009,45(20):136-139.
8李蓉.一个用于OCR输出的中文文本的拼写校对系统[J].中文信息学报,2009,23(5):92-97. 被引量：3
9黄魏,高兵,刘异,杨克巍.基于词条组合的中文文本分词方法[J].科学技术与工程,2010,10(1):85-89. 被引量：6
10黄魏,高兵,刘异,杨克巍.基于词条组合的军事类文本分词方法[J].计算机科学,2010,37(2):171-174. 被引量：2

同被引文献34

1孙瑞.基于英语翻译应用视角下的计算机智能校对系统开发研究[J].微型电脑应用,2020,36(2):145-148. 被引量：6
2王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：29
3华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
4谭红叶,李宣影,刘蓓.基于外部知识和层级篇章表示的阅读理解方法[J].中文信息学报,2020(4):85-91. 被引量：6
5易蓉湘,何克抗.计算机汉语文稿校对系统[J].计算机研究与发展,1997,34(5):346-350. 被引量：12
6刘挺,施洪滨,邵艳秋.中文计算机辅助校对系统原理[J].中文信息,1997,14(2):21-22. 被引量：6
7张仰森,唐安杰,张泽伟.面向政治新闻领域的中文文本校对方法研究[J].中文信息学报,2014,28(6):79-84. 被引量：12
8刘亮亮,曹存根.中文“非多字词错误”自动校对方法研究[J].计算机科学,2016,43(10):200-205. 被引量：15
9张仰森,郑佳.中文文本语义错误侦测方法研究[J].计算机学报,2017,40(4):911-924. 被引量：20
10陶永才,海朝阳,石磊,卫琳.中文词语搭配特征提取及文本校对研究[J].小型微型计算机系统,2018,39(11):2485-2490. 被引量：10

引证文献5

1郭可翔,王衡军,白祉旭.融合多通道CNN与BiGRU的字词级文本错误检测模型[J].计算机工程,2022,48(9):63-70. 被引量：4
2杨冰.基于深度学习的英语短语译文智能校对系统[J].自动化与仪器仪表,2022(8):185-188. 被引量：1
3张芙蓉.中文文本高频差错类型解析及自动纠错研究[J].信息技术与信息化,2022(10):184-188. 被引量：1
4曹阳,曹存根,资康莉,王石.基于BiLSTM-CRF的中文分组单字错误识别方法研究[J].中文信息学报,2023,37(4):156-165. 被引量：5
5罗琨皓,曹擎星,梁小丹.一种引入结构化知识的常识问答模型[J].中文信息学报,2023,37(12):115-128. 被引量：1

二级引证文献12

1朱思猛,杜瑞颖,陈晶,何琨.基于循环神经网络的Web应用防火墙加固方案[J].计算机工程,2022,48(11):120-126. 被引量：3
2仲美玉,吴培良,窦燕,刘毅,孔令富.基于中文语义−音韵信息的语音识别文本校对模型[J].通信学报,2022,43(11):65-79. 被引量：7
3鲁芳.基于深度学习的英语翻译机器人错误文本检测系统研究[J].自动化与仪器仪表,2023(3):284-290.
4普哇拉毛,尼玛扎西,道吉扎西,王超.藏文文本校对技术研究进展[J].高原科学研究,2023,7(2):99-104.
5何娟.基于深度学习网络的手写英文自动化识别模型在机器英汉互译中的应用研究[J].自动化与仪器仪表,2023(7):191-195.
6罗佳,李萌.基于BiLSTM-CRF模型的房屋出租App系统的设计与实现[J].软件,2024,45(1):18-20.
7刘雪梅,程彭圣男,李海瑞,曹闯,高英,崔培.基于字词向量的BiLSTM-CRF水利工程巡检文本实体识别模型[J].华北水利水电大学学报（自然科学版）,2024,45(3):9-17. 被引量：2
8肖雪丽,廖常辉,李惠仪.一种基于深度学习的档案文件齐全性检验方法[J].信息记录材料,2024,25(3):198-200.
9胡若云,刘鹏,张燕,金家红,赵天成.稀疏向量匹配技术在智能信息快速搜索中的运用评价[J].粘接,2024,51(5):177-180.
10侯天宇,张珊,金峰,苑超,陈子煊.基于Seq2Seq深度学习方法的气象预警纠错模型研究[J].天津科技,2024,51(5):10-12.

1黄诗怡,李继云.基于KV-MemNN的心血管病自动问答系统设计与实现[J].智能计算机与应用,2020,10(9):124-126.
2魏旭,成卫青.基于特征融合和机器学习的恶意网页识别研究[J].南京邮电大学学报（自然科学版）,2019,39(5):95-104. 被引量：4
3邱小倩,胡月明,朱阿兴,郭玉彬,沈晓文.基于关联规则的耕地质量评价数据检错方法研究——以广州市为例[J].中国土地科学,2020,34(3):75-83. 被引量：6
4鲁佩佩.基于知识库对齐的命名实体识别方法[J].电脑知识与技术,2021,17(4):184-186. 被引量：1
5徐冬冬.基于Transformer的普通话语声识别模型位置编码选择[J].应用声学,2021,40(2):194-199. 被引量：2

中文信息学报

2021年第1期

浏览历史

内容加载中请稍等...

基于Transformer网络的中文单字词检错方法研究被引量：5

参考文献5

二级参考文献33

共引文献64

同被引文献34

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Transformer网络的中文单字词检错方法研究 被引量：5

参考文献5

二级参考文献33

共引文献64

同被引文献34

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Transformer网络的中文单字词检错方法研究被引量：5