一种基于噪声信道模型的汉字识别后处理新方法被引量：5

New post processing method based on noisy channel model for Chinese character recognition

导出

摘要利用上下文关系进行汉字识别后处理时 ,若候选字集中不含有正确字符 ,文本识别率的提高会受到很大限制。基于单字识别系统的噪声信道模型 ,文中提出一种扩充候选字集的方法 ,利用单字识别给出的候选字来推测可能正确的字 ,并将它们与识别候选字进行集成 ,得到新的候选字集。30 0套脱机手写体样本的测试表明 ,新候选字集的 5 0选平均错误率较原先的识别候选字集下降了 37.88%。脱机手写体文本 (约 8万字 )识别后处理中 ,语言模型为基于字的bigram时 ,文本平均识别率从扩充候选字之前的 93.93%提高至 95 .82 % ,错误率下降了 31.14%。 In Chinese document recognition incorporating post processing, the document recognition rate is limited if the candidate sets do not cantain any correct characters. The noisy channel model is used to develop a method for expanding the candidate sets. The method uses the original candidates given by the recognizer to conjecture the most likely correct characters and then combines them with the original candidates to produce new candidate sets. In a test with 300 off line handwritten samples, the top 50 candidates of the new candidate sets achieved 37.88% average error reduction rate in comparison with the original candidate sets. Using the character based bigram language model, and after expanding the candidate sets using the method proposed here, the average recognition rate for off line handwritten Chinese documents (about 80,000 characters) is 95.82%, compared with the average recognition rate of 93.93% without candidates sets expansion. On average, a 31.14% error reduction rate is achieved.

作者李元祥丁晓青刘长松

机构地区清华大学电子工程系

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2001年第1期24-28,共5页 Journal of Tsinghua University(Science and Technology)

基金国家"八六三"高技术计划项目!(86 3-30 6 -0 3-0 5 -6 ) 国家自然科学基金资助项目!(6 96 82 0 0 3)

关键词汉字识别后处理语言模型扩充候选字噪声信道方案集成通信系统 Chinese character recognition post processing language model candidate set expansion noisy channel model combination

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TN914 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献11

1于勐,姚天顺.一种混合的中文文本校对方法[J].中文信息学报,1998,12(2):31-36. 被引量：23
2傅祖云.信息论基础[M].北京:电子工业出版社,1989..
3陈友斌.非特定人脱机手写汉字识别方法的研究[M].北京:清华大学,1997..
4李元祥,丁晓青,刘长松.基于HMM的汉语文本识别后处理研究[J].中文信息学报,1999,13(4):29-34. 被引量：14
5Wong P K，IEEE Trans Syst Man Cybernet，1999年，29卷，2期，286页
6元祥，中文信息学报，1999年，13卷，4期，29页
7Lin Xiaofan，Pattern Recognit Lett，1998年，19卷，10期，975页
8陈友斌，学位论文，1997年
9Tong X，Proc 4th Workshop on Very Large Corpora，1996年，88页
10Tung C H，Pattern Recognition，1994年，27卷，9期，1259页

二级参考文献12

1夏莹,马少平,常新功,朱小燕,金奕江.基于统计的汉字识别文本自动后处理方法[J].模式识别与人工智能,1996,9(2):172-178. 被引量：14
2陈友斌.非特定人脱机手写汉字识别方法的研究[博士学位论文].北京:清华大学,1997..
3慕勇，汉语文本自动查错与确认纠错系统的研究，1995年
4姚天顺，自然语言理解，1995年
5张照煌，Commun COLIPS，1994年，4卷，2期，143页
6郭进，ICCC’94Tutorial Notes，1994年
7施得胜，电脑与通讯，1992年，8期，19页
8陈友斌，博士学位论文，1997年
9Tung C H，Pattern Recognition，1994年，27卷，9期
10Le H J，Proc 2nd ICDAR，1993年

共引文献35

1张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
2李朝虹,陆建湖.现代汉语自动分析研究现状综述[J].广西教育学院学报,2003(1):112-116. 被引量：1
3赵骥,王丽君,李晶皎.基于统计的满文识别后处理的研究和实现[J].鞍山科技大学学报,2005,28(6):444-446. 被引量：1
4张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
5赵骥,李晶皎,王丽君,张继生.基于HMM的满文文本识别后处理的研究[J].中文信息学报,2006,20(4):63-67. 被引量：3
6祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
7赵骥,李晶皎,张广渊,王杰.脱机手写体满文文本识别系统的设计与实现[J].模式识别与人工智能,2006,19(6):801-805. 被引量：7
8贾剑峰,史晓东,赖兴邦.基于HMM的汉语整句拼音输入法研究[J].现代计算机,2008,14(4):4-6.
9董广宇,吕学强,王涛,施水才.基于N-gram语言模型的汉字识别后处理研究[J].微计算机信息,2009,25(10):276-278. 被引量：5
10李蓉.一个用于OCR输出的中文文本的拼写校对系统[J].中文信息学报,2009,23(5):92-97. 被引量：3

同被引文献54

1俞庆英,吴建国.一种联机手写汉字识别算法的研究与实现[J].合肥学院学报（自然科学版）,2004,14(1):37-39. 被引量：2
2鲁湛,丁晓青.基于笔段间关系的联机手写汉字HMM模型[J].清华大学学报（自然科学版）,2004,44(7):913-916. 被引量：7
3龚才春,刘荣兴.基于整体特征的快速手写体数字字符识别[J].计算机工程与应用,2004,40(19):82-83. 被引量：17
4力提甫.托乎提.电脑处理维吾尔语语音和谐律的可能性[J].中央民族大学学报（哲学社会科学版）,2004,31(5):108-113. 被引量：14
5张文国.“汉王”多文种手写印刷体字符识别系统简介[J].中国科技产业,1997(2):45-46. 被引量：1
6陈兆学,施鹏飞,周煦潼.一类特殊印刷体字符的分割和识别方法[J].微型电脑应用,2003,19(2):40-42. 被引量：2
7黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
8周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
9唐亮,胡运发,张文龙.基于小波变换在强干扰条件下印刷体汉字处理研究[J].计算机应用与软件,2005,22(8):46-47. 被引量：1
10张冬霞.基于ANN和HMM的联机手写体汉字识别系统[J].微计算机信息,2005,21(08X):144-146. 被引量：8

引证文献5

1李朝虹,陆建湖.现代汉语自动分析研究现状综述[J].广西教育学院学报,2003(1):112-116. 被引量：1
2岳晓峰,焦圣喜,韩立强,李洪洲.模式识别中的光字符识别技术及应用综述[J].河北工业科技,2006,23(5):312-316. 被引量：9
3艾山.吾买尔,吐尔根.依步拉音,早克热.卡德尔.基于噪声信道的维吾尔语央音原音识别模型[J].计算机工程与应用,2010,46(15):118-120. 被引量：2
4李元祥,丁晓青.一种利用逻辑回归模型的候选字可信度估计方法[J].模式识别与人工智能,2002,15(2):143-148. 被引量：1
5王维兰,丁晓青,祁坤钰.藏文识别中相似字丁的区分研究[J].中文信息学报,2002,16(4):60-65. 被引量：15

二级引证文献28

1柳洪轶,王晓东,王维兰.藏文联机手写识别的难点及其解决方法[J].西北民族大学学报（自然科学版）,2005,26(1):77-80. 被引量：3
2徐蔚然,郭军.手写金融汉字识别中的可信度估计[J].电子学报,2005,33(10):1879-1882. 被引量：1
3柳洪轶,王维兰.联机手写藏文识别中字丁规范化处理[J].计算机应用研究,2006,23(9):179-181. 被引量：7
4罗永全.课件制作中用数码相机实现OCR识别[J].西江教育论丛,2006(4):61-62.
5陈光磊,罗林开.矢量量化在OCR特征库压缩中的应用[J].福建电脑,2007,23(10):103-104.
6高定国,关白.回顾藏文信息处理技术的发展[J].西藏大学学报（社会科学版）,2009,24(3):18-27. 被引量：17
7郭海,赵晶莹.基于小波分析及改进二次鉴别函数的民族文种识别[J].计算机应用,2009,29(12):3360-3362. 被引量：2
8郭海,赵晶莹,韦宗伟.一种采用小波包分析及RBFN的民族文种识别方法[J].计算机工程与科学,2010,32(8):78-80. 被引量：1
9赵栋材.基于BP网络的木刻藏文经书文字识别研究[J].微处理机,2012,33(5):35-38. 被引量：5
10边巴旺堆,卓嘎,陈延利,武强.藏文构件元素识别算法研究[J].中文信息学报,2014,28(3):104-111. 被引量：9

1张余.基于通讯互连的分布控制式自动化生产线的设计[J].橡塑技术与装备,2016,42(8):57-58.
2孙义和,贺祥庆,管杰.汉字识别专用集成电路测试方法研究[J].微电子测试,1994,8(4):10-16.
3赵海兰.汉字识别后处理的一种并行算法[J].河南大学学报（自然科学版）,2000,30(3):74-77.
4秦姣华,向旭宇.HMM在汉字识别技术中的应用[J].现代计算机,2000,6(97):29-31. 被引量：1
5冯少荣,肖文俊.基于样本选取的决策树改进算法[J].西南交通大学学报,2009,44(5):643-647. 被引量：18
6沈丰.VBA在OFFICE中的应用探讨[J].孝感学院学报,2000,20(4):28-30.
7Steffen Horn,薛小芹.全新的安全系统解决方案[J].现代制造,2012(21):72-72.
8英飞凌率先推出符合“80PLUS白金”认证标准的银盒电源参考设计[J].电子与电脑,2011(5):81-81.
9nForce4 SLI：Intel PC用媒体和通信处理器[J].世界电子元器件,2005(5):81-81.
10王辉,王嘉梅.一种基于像素点的手写体文本图像分割方法[J].计算机应用与软件,2009,26(11):61-64. 被引量：1

清华大学学报（自然科学版）

2001年第1期

浏览历史

内容加载中请稍等...

一种基于噪声信道模型的汉字识别后处理新方法被引量：5

参考文献11

二级参考文献12

共引文献35

同被引文献54

引证文献5

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

一种基于噪声信道模型的汉字识别后处理新方法 被引量：5

参考文献11

二级参考文献12

共引文献35

同被引文献54

引证文献5

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

一种基于噪声信道模型的汉字识别后处理新方法被引量：5