期刊文献+

一种基于噪声信道模型的汉字识别后处理新方法 被引量:5

New post processing method based on noisy channel model for Chinese character recognition
原文传递
导出
摘要 利用上下文关系进行汉字识别后处理时 ,若候选字集中不含有正确字符 ,文本识别率的提高会受到很大限制。基于单字识别系统的噪声信道模型 ,文中提出一种扩充候选字集的方法 ,利用单字识别给出的候选字来推测可能正确的字 ,并将它们与识别候选字进行集成 ,得到新的候选字集。30 0套脱机手写体样本的测试表明 ,新候选字集的 5 0选平均错误率较原先的识别候选字集下降了 37.88%。脱机手写体文本 (约 8万字 )识别后处理中 ,语言模型为基于字的bigram时 ,文本平均识别率从扩充候选字之前的 93.93%提高至 95 .82 % ,错误率下降了 31.14%。 In Chinese document recognition incorporating post processing, the document recognition rate is limited if the candidate sets do not cantain any correct characters. The noisy channel model is used to develop a method for expanding the candidate sets. The method uses the original candidates given by the recognizer to conjecture the most likely correct characters and then combines them with the original candidates to produce new candidate sets. In a test with 300 off line handwritten samples, the top 50 candidates of the new candidate sets achieved 37.88% average error reduction rate in comparison with the original candidate sets. Using the character based bigram language model, and after expanding the candidate sets using the method proposed here, the average recognition rate for off line handwritten Chinese documents (about 80,000 characters) is 95.82%, compared with the average recognition rate of 93.93% without candidates sets expansion. On average, a 31.14% error reduction rate is achieved.
出处 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2001年第1期24-28,共5页 Journal of Tsinghua University(Science and Technology)
基金 国家"八六三"高技术计划项目!(86 3-30 6 -0 3-0 5 -6 ) 国家自然科学基金资助项目!(6 96 82 0 0 3)
关键词 汉字识别 后处理 语言模型 扩充候选字 噪声信道 方案集成 通信系统 Chinese character recognition post processing language model candidate set expansion noisy channel model combination
  • 相关文献

参考文献11

  • 1于勐,姚天顺.一种混合的中文文本校对方法[J].中文信息学报,1998,12(2):31-36. 被引量:23
  • 2傅祖云.信息论基础[M].北京:电子工业出版社,1989..
  • 3陈友斌.非特定人脱机手写汉字识别方法的研究[M].北京:清华大学,1997..
  • 4李元祥,丁晓青,刘长松.基于HMM的汉语文本识别后处理研究[J].中文信息学报,1999,13(4):29-34. 被引量:14
  • 5Wong P K,IEEE Trans Syst Man Cybernet,1999年,29卷,2期,286页
  • 6元祥,中文信息学报,1999年,13卷,4期,29页
  • 7Lin Xiaofan,Pattern Recognit Lett,1998年,19卷,10期,975页
  • 8陈友斌,学位论文,1997年
  • 9Tong X,Proc 4th Workshop on Very Large Corpora,1996年,88页
  • 10Tung C H,Pattern Recognition,1994年,27卷,9期,1259页

二级参考文献12

  • 1夏莹,马少平,常新功,朱小燕,金奕江.基于统计的汉字识别文本自动后处理方法[J].模式识别与人工智能,1996,9(2):172-178. 被引量:14
  • 2陈友斌.非特定人脱机手写汉字识别方法的研究[博士学位论文].北京:清华大学,1997..
  • 3慕勇,汉语文本自动查错与确认纠错系统的研究,1995年
  • 4姚天顺,自然语言理解,1995年
  • 5张照煌,Commun COLIPS,1994年,4卷,2期,143页
  • 6郭进,ICCC’94Tutorial Notes,1994年
  • 7施得胜,电脑与通讯,1992年,8期,19页
  • 8陈友斌,博士学位论文,1997年
  • 9Tung C H,Pattern Recognition,1994年,27卷,9期
  • 10Le H J,Proc 2nd ICDAR,1993年

共引文献35

同被引文献54

引证文献5

二级引证文献28

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部