期刊文献+

基于规则与统计相结合的中文文本自动查错模型与算法 被引量:33

A Hybrid Model of Combining Rule-based and Statistics-based Approaches for Automatic Detecting Errors in Chinese Text
下载PDF
导出
摘要 中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43%,误报率为30.57%。 Chinese text automatic proofreading is an important research subjeci in NLP. A hybrid model based on the combination of rules and statistics are proposed in this article. According to the distribution of Chinese single-character after word segmentation in Chinese text and the conception of "non-multi-character word error", we proposed a group of rules to find errors in texts, to construct the automatic error-detection model and to implement its algorithm by com- bining the scattered single-character Bigram models, part-of-speech Bigram and Trigram models. Our experiment for the 30 texts that contain 578 error test points shows that the recall rate is 86. 85% and accuracy rate is 69. 43%, distorting rate is 30. 57%.
出处 《中文信息学报》 CSCD 北大核心 2006年第4期1-7,55,共8页 Journal of Chinese Information Processing
基金 国家973项目资助(2004CB318102) 国家863计划资助(2001AA114210 2002AA117010) 中国博士后基金项目资助(2005038026)
关键词 计算机应用 中文信息处理 中文文本自动查错 规则与统计相结合 非多字词错误 真多字词错误 Computer application Chinese information processing Chinese text automatic error-detecting Combing rule-based and statistics-based approaches non-multi-character word error real-multi-character word error
  • 相关文献

参考文献9

二级参考文献25

  • 1罗振声,郑碧霞.汉语句型自动分析和分布统计算法与策略的研究[J].中文信息学报,1994,8(2):1-19. 被引量:20
  • 2慕勇.清华语料库的研制与汉语文本自动校对的研究 学位论文[D].清华大学计算机系,1995.
  • 3黄晓宏.汉语文本自动查错和确认纠错系统的研究 学位论文[D].清华大学计算机系,1996.
  • 4罗振声 孙才.汉语文本校对字词级查错处理的研究[A].见:陈力为 袁琦编著.语言工程[C].北京:清华大学出版社,1997.319—324.
  • 5张磊 周明 黄昌宁 等.基于多重特征的中文自动校对方法[A]..见:NL-PRS 99[C].北京:NLPRS,1999..
  • 6罗振声 孙才.汉语文本校对字词级查错处理的研究[J].语言工程,1997,.
  • 7张照煌.中文错别字自动订正方法初探[J].Communications of COLIPS,1994,4(2):143-149.
  • 8慕勇 孙才 罗振声.汉语文本自动查错与确认纠错系统的研究[J].计算语言学进展与应用,1995,.
  • 9.知网及其说明文档..http://www.keenage.com(Hownet and its specifications. 2001. http://www.keenage.com).,2001.
  • 10Karen Kukieh.Techniques for automatically correcting words in text [J].ACM Computing Surveys, 1992 ; 24 ( 4 ) : 378-431.

共引文献72

同被引文献203

引证文献33

二级引证文献148

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部