基于规则与统计相结合的中文文本自动查错模型与算法被引量：33

A Hybrid Model of Combining Rule-based and Statistics-based Approaches for Automatic Detecting Errors in Chinese Text

下载PDF

导出

摘要中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43%,误报率为30.57%。 Chinese text automatic proofreading is an important research subjeci in NLP. A hybrid model based on the combination of rules and statistics are proposed in this article. According to the distribution of Chinese single-character after word segmentation in Chinese text and the conception of ＂non-multi-character word error＂, we proposed a group of rules to find errors in texts, to construct the automatic error-detection model and to implement its algorithm by com- bining the scattered single-character Bigram models, part-of-speech Bigram and Trigram models. Our experiment for the 30 texts that contain 578 error test points shows that the recall rate is 86. 85% and accuracy rate is 69. 43%, distorting rate is 30. 57%.

作者张仰森曹元大俞士汶

机构地区北京大学计算语言学研究所北京理工大学计算机科学工程系北京信息科技大学计算机及自动化系

出处《中文信息学报》 CSCD 北大核心 2006年第4期1-7,55,共8页 Journal of Chinese Information Processing

基金国家973项目资助(2004CB318102) 国家863计划资助(2001AA114210 2002AA117010) 中国博士后基金项目资助(2005038026)

关键词计算机应用中文信息处理中文文本自动查错规则与统计相结合非多字词错误真多字词错误 Computer application Chinese information processing Chinese text automatic error-detecting Combing rule-based and statistics-based approaches non-multi-character word error real-multi-character word error

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Chao-Huang Chang.A Pilot Study on Automatic Chinese Spelling Error Correction[J].Communication of COLIPS,1994,4(2):143 -149.
2张仰森,丁冰青.基于二元接续关系检查的字词级自动查错方法[J].中文信息学报,2001,15(3):36-43. 被引量：29
3Lei zhang,Ming zhou,Changning Huang,Haihua Pan.Automatic detecting correcting errors in Chinese text by an approximate word-matching algorithm[A].Microsoft Research China Paper Collection[C],2000.9,Vol.1:135-141.
4骆卫华,罗振声,宫小瑾.中文文本自动校对技术的研究[J].计算机研究与发展,2004,41(1):244-249. 被引量：21
5骆卫华,罗振声,龚小谨.中文文本自动校对的语义级查错研究[J].计算机工程与应用,2003,39(12):115-118. 被引量：13
6龚小谨,罗振声,骆卫华.中文文本自动校对中的语法错误检查[J].计算机工程与应用,2003,39(8):98-100. 被引量：13
7Li Jianhua,Wang xiaolong.Combining Trigram and Automatic Weight Distribution in Chinese Spelling Error Correction[J].Journal of Computer science and technology.2002,Vol.17 (6):915-923.
8张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
9张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7

二级参考文献25

1罗振声,郑碧霞.汉语句型自动分析和分布统计算法与策略的研究[J].中文信息学报,1994,8(2):1-19. 被引量：20
2慕勇.清华语料库的研制与汉语文本自动校对的研究学位论文[D].清华大学计算机系,1995.
3黄晓宏.汉语文本自动查错和确认纠错系统的研究学位论文[D].清华大学计算机系,1996.
4罗振声孙才.汉语文本校对字词级查错处理的研究[A].见:陈力为袁琦编著.语言工程[C].北京:清华大学出版社,1997.319—324.
5张磊周明黄昌宁等.基于多重特征的中文自动校对方法[A]..见:NL-PRS 99[C].北京:NLPRS,1999..
6罗振声孙才.汉语文本校对字词级查错处理的研究[J].语言工程,1997,.
7张照煌.中文错别字自动订正方法初探[J].Communications of COLIPS,1994,4(2):143-149.
8慕勇孙才罗振声.汉语文本自动查错与确认纠错系统的研究[J].计算语言学进展与应用,1995,.
9.知网及其说明文档..http://www.keenage.com(Hownet and its specifications. 2001. http://www.keenage.com).,2001.
10Karen Kukieh.Techniques for automatically correcting words in text [J].ACM Computing Surveys, 1992 ; 24 ( 4 ) : 378-431.

共引文献72

1王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：26
2华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
3马金山,张宇,刘挺,李生.利用三元模型及依存分析查找中文文本错误[J].情报学报,2004,23(6):723-728. 被引量：7
4陈笑蓉,秦进.特征和语言模型结合的中文文本查错[J].计算机应用,2004,24(B12):259-261. 被引量：1
5陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：6
6梁志建,徐广生,方宇彤.科学期刊编辑工作流程再造探索及实践[J].编辑学报,2005,17(2):94-96. 被引量：10
7李成城,白涛,赵述芳,钟义信.基于OCR的纵向文字校对的研究与实现[J].计算机应用研究,2006,23(4):234-236. 被引量：1
8张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
9许庆欣.词汇语法拼写校对软件——功能语法的应用实例[J].天津外国语学院学报,2007,14(2):49-54.
10张永奎,张彦,安增波,刘睿.Web新闻语料分词和标注错误分析[J].计算机工程与应用,2007,43(15):166-169. 被引量：4

同被引文献203

1王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：26
2曲维光.汉语自动分词的方法选择[J].计算机科学,2002,29(z1):54-56. 被引量：2
3赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
4冯志伟.链语法述评[J].语言文字应用,1999(4):100-102. 被引量：2
5夏莹,马少平,孙茂松,朱小燕,金奕江,常新功.汉字文本识别的自动后处理[J].语言文字应用,1997(2):101-107. 被引量：1
6张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
7王燚.基于Trie结构的带通配符的相似字符串匹配算法[J].计算机应用,2004,24(10):121-124. 被引量：2
8张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
9冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,3(1):1-21. 被引量：23
10哈力木拉提,阿孜古丽.多字体印刷维吾尔文字符识别系统的研究与开发[J].计算机学报,2004,27(11):1480-1484. 被引量：35

引证文献33

1华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
2陈翔,徐平先,张玉志.面向文本数字化的自动纠错方法[J].计算机应用研究,2008,25(5):1434-1436. 被引量：3
3林晖,林劼.基于Markov模型的改进型疑错窗口算法[J].实验科学与技术,2008,6(4):40-42. 被引量：1
4吕威,林文昶,姚正安,李磊.基于String Kernel和KPCA的负实例语法特征提取算法[J].计算机工程与应用,2009,45(20):136-139.
5黄魏,高兵,刘异,杨克巍.基于词条组合的中文文本分词方法[J].科学技术与工程,2010,10(1):85-89. 被引量：6
6黄魏,高兵,刘异,杨克巍.基于词条组合的军事类文本分词方法[J].计算机科学,2010,37(2):171-174. 被引量：2
7伊力亚尔.基于2-gram语言模型的哈萨克文语料库校对研究[J].伊犁师范学院学报（自然科学版）,2010,4(3):50-53. 被引量：1
8郭充,张仰森.基于《知网》义原搭配的中文文本语义级自动查错研究[J].计算机工程与设计,2010,31(17):3924-3928. 被引量：12
9王静婷.基于规则的中文字符串近似匹配研究[J].网络安全技术与应用,2010(12):41-44. 被引量：1
10徐金安.理性主义与经验主义相结合的机器翻译研究策略[J].计算机科学,2011,38(6):223-229. 被引量：5

二级引证文献148

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2丁丽,方晓.融合用户兴趣和评论文本主题挖掘的推荐算法研究[J].青海师范大学学报（自然科学版）,2022,38(1):14-23.
3华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
4王子斌,张全,谢聪,余沛,余泓江,李沣庭.基于知识图谱与BERT的安全领域汉字文本纠错模型[J].计算机应用,2023,43(S01):75-80.
5刘凡平,高艳华,于炯,张伟.基于关键决策方法的站内搜索研究与实现[J].微电子学与计算机,2010,27(8):214-217. 被引量：1
6熊晶,钟珞,王爱民.甲骨文本体构建方法研究及应用[J].武汉理工大学学报（信息与管理工程版）,2011,33(6):953-957. 被引量：5
7吴林,张仰森,王璐.《现代汉语语法信息词典》的概率化改造及其应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):57-61.
8张翠萍.基于规则的英汉翻译系统的设计与实现[J].三明学院学报,2011,28(6):36-41.
9桑书娟,王庆喜.一种结合正向最大匹配法和互信息的中文分词算法[J].计算机光盘软件与应用,2012,15(7):30-30.
10张仰森,黄改娟,苏文杰.基于隐最大熵原理的汉语词义消歧方法[J].中文信息学报,2012,26(3):72-78. 被引量：8

1石翠.依存句法分析研究综述[J].智能计算机与应用,2013,3(6):47-49. 被引量：6
2黄德根,张丽静,张艳丽,杨元生.规则与统计相结合的兼类词处理机制[J].小型微型计算机系统,2003,24(7):1252-1255. 被引量：6
3赵伟,戴新宇,尹存燕,陈家骏.一种规则与统计相结合的汉语分词方法[J].计算机应用研究,2004,21(3):23-25. 被引量：35
4王虹,张仰森.基于词性预测的中文文本自动查错研究[J].贵州师范大学学报（自然科学版）,2001,19(2):72-75. 被引量：4
5姚兴山.基于词频的中文文本分类研究[J].现代情报,2009,29(2):179-181. 被引量：3
6王虹,张仰森.基于词二元接续的中文文本自动查错研究[J].贵州大学学报（自然科学版）,2001,18(1):16-21. 被引量：3
7谷雨,段鹏,张天军,周波.一个基于时间窗口的入侵检测算法[J].云南民族学院学报（自然科学版）,2003,12(2):105-107. 被引量：2
8吴岩,李秀坤,刘挺,王开铸.中文自动校对系统的研究与实现[J].哈尔滨工业大学学报,2001,33(1):60-64. 被引量：12
9崔梦娇,李红莲,吕学强,周建设.基于高校网站内容的实体抽取研究[J].北京信息科技大学学报（自然科学版）,2016,31(5):92-96. 被引量：1
10张静杰,昝红英.副词“都”用法自动识别研究[J].北京大学学报（自然科学版）,2013,49(1):165-169. 被引量：1

中文信息学报

2006年第4期

浏览历史

内容加载中请稍等...

基于规则与统计相结合的中文文本自动查错模型与算法被引量：33

参考文献9

二级参考文献25

共引文献72

同被引文献203

引证文献33

二级引证文献148

相关作者

相关机构

相关主题

浏览历史

基于规则与统计相结合的中文文本自动查错模型与算法 被引量：33

参考文献9

二级参考文献25

共引文献72

同被引文献203

引证文献33

二级引证文献148

相关作者

相关机构

相关主题

浏览历史

基于规则与统计相结合的中文文本自动查错模型与算法被引量：33