文档识别中误切分字符拒识问题的研究被引量：6

Research on the Missegmented Character Rejection in Document Recognition

下载PDF

导出

摘要自动文档识别中字切分算法如果仅仅依靠大小位置等度量信息,很容易产生误切分图像块,需要字符分类器给出一定的反馈才能准确切分,为此提出了一个新的拒识算法,目标是尽可能准确地拒识非法字符。该文分析了基于距离的分类器的置信度和广义置信度,在此基础上改进了常用的广义置信度映射函数,并设计了一个基于样本学习的拒识规则,提高了拒识算法的适应性。在中日韩三种文档样本上的实验表明,该文算法明显改善了系统性能,对于较低质量的印刷文本识别具有一定的普遍意义。 In OCR systems the character segmentation algorithm may generate missegmented blocks,especially when us-ing only geometric measure information such as size and location.Feedback information from character classifier is nec-essary to achieve higher character segmentation accuracy.In this paper a novel rejection algorithm is proposed to reject these invalid characters more accurately.First,the confidence and generalized confidence of distance-based classifiers are analyzed,and then usual generalized confidence mapping function is modified.A new sample-based rejection rule is also proposed,which is more adaptive and flexible.Experiments on Chinese,Japanese and Korean document recognition show that new rejection algorithm evidently improved the system performance,especially for low-quality printed document recognition.

作者陈臻刚丁晓青刘长松彭良瑞

机构地区清华大学电子工程系智能技术与系统国家重点实验室

出处《计算机工程与应用》 CSCD 北大核心 2002年第17期69-72,共4页 Computer Engineering and Applications

基金国家863高技术研究发展计划(编号:2001AA114081) 国家自然科学基金(编号:69972024)

关键词文档识别误切分字符拒识问题字符识别置信度拒识规则 OCR,Character Recognition,Confidence,Rejection Rule

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1[1]C K Chow. An optimum recognition error and rejection tradeoff[J].IEEE Trans Information Theory, 1970; IT- 16 (1) :41～46
2[2]B Dubusson,M Masson.A statistical decision rule with incomplete knowledge about classes[J].Pattern Recognition, 1993 ;26(1): 155～165
3[3]T M Ha. The optimum class-selective rejection rule[J].IEEE Trans Pattern Analysis and Machine Intelligence, 1997; 19(6) :608～615
4[4]C L Liu ,M Nakagawa. Precise candidate selection for large character set recognition by confidence evaluation[J].2000;22(6):636～642
5马少平,夏莹,朱小燕,姜哲.汉字识别系统的误识模型[J].清华大学学报（自然科学版）,1998,38(S1):111-114. 被引量：5
6[6]X Lin et al.Adaptive confidence transform based classifier combination for Chinese character recognition[J].Pattern Recognition Letters,1998; 19(10) :975～988
7[7]R G Casey,E Lecolinnet. A survey of methods and strategies in character segmentation[J].IEEE Trans Pattern Analysis Machine Intelligence, 1996; 18(7) :690～706
8林晓帆,丁晓青,吴佑寿.最近邻分类器置信度估计的理论分析[J].科学通报,1998,43(3):322-325. 被引量：10

二级参考文献1

1Lin Xiaofan，Proceedings of ICDAR’97, Los Alamitos，1997年，471页

共引文献13

1李超,熊璋,孟岩,韩军.基于视听信息融合的智能监控系统[J].计算机工程与应用,2004,40(31):218-221. 被引量：3
2杨柳,任长明,周铜,吴艳纬.采用Parzen窗法的随机模式分类器研究[J].河南科学,2005,23(1):97-99. 被引量：2
3徐蔚然,郭军.手写金融汉字识别中的可信度估计[J].电子学报,2005,33(10):1879-1882. 被引量：1
4喻莹,杨扬,董才林.基于动态特征选择的手写体相似汉字的识别[J].计算机工程,2006,32(17):10-11.
5任俊玲.基于广义置信度的样本选择算法[J].中文信息学报,2007,21(3):106-110. 被引量：4
6冯德军,马梁,陶华敏.基于置信度分析的导弹目标距离像序贯识别[J].雷达科学与技术,2007,5(5):358-364. 被引量：2
7朱秋煜,王朔中.图像特征检测和马氏距离中的数据融合与置信度[J].电子与信息学报,2008,30(3):534-538. 被引量：2
8林晓帆,丁晓青,吴佑寿,陈友斌,刘今晖.字符识别的置信度分析[J].清华大学学报（自然科学版）,1998,38(9):47-50. 被引量：13
9张德喜,马少平,朱绍文,金奕江.基于统计与神经元方法相结合的手写体相似字识别[J].中文信息学报,1999,13(3):33-39. 被引量：12
10李翠霞.现代计算机智能识别技术处理自然语言研究的应用与进展[J].科学技术与工程,2012,20(36):9912-9918. 被引量：10

同被引文献34

1NAGY G. Twenty years of document image analysis in PAMI [ J ]. IEEE Xrans on Pattern Analysis and Machine Intelligence, 2000,22( 1 ) :38-62.
2LU Yi. Machine printed character segmentation:an overview[ J]. Pat- tom Recognition, 1995,28 ( 1 ) :67- 80.
3NOMURA A, MICHISHITA K, UCHIDA S, et al. Detection and seg- mentation of touching characters in mathematical expressions [ C ]// Proc of the 7th Intemafional Conference on Document Analysis and Recognition. Washington DC: IEEE Computer Society, 2003: 126- 130.
4LU Yi, HAIST B, HARMON L, et al. An accurate and efficient system for segmenting machine-printed text [ C ]//Proc of the 5th Advanced Technology Conference. Washington DC : IEEE Press, 1992:93-105.
5WANG J, JEAN J. Segmentation of merged characters by neural net- works and shortest path [ J]. Pattern Recognition, 1994,27 ( 5 ) : 649 - 658.
6TSUJIMOTO S,ASADA H. Resolving ambiguity in segmenting touch- ing characters [ C ]//Proc of the 1 st International Conference on Docu- ment Ananlysis and Recognition. 1991:701-709.
7RICHARD G,ERIC L.A survey of methods and strategies in character segmentation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1996,18(7):690-706.
8YI Lu,SHRIDHAR M.Characters segmentation in handwritten words-an overview [J].IEEE Transaction Pattern Recognition,1996,29(1):77-96.
9Zhi-Dan Feng,Qiang Huo.Confidence Guided Processive Search and Fast Match Techniques for High Performance Chinese/English OCR[C].In:ICDAR,2002:89～92
10Seng Whan Lee,Jong-Soo Kim.Multi-lingual,multi-font and multisize large set character recognition using self-organizing neural network[C].In:ICDAR,1995:28～33

引证文献6

1安艳辉,董五洲.粘连搭接字符切分方法研究[J].河北师范大学学报（自然科学版）,2005,29(2):137-140. 被引量：2
2陈国平,张明新,付跃文,王劲林.高性能的多体印刷英文识别系统的实现[J].计算机工程与应用,2006,42(12):183-186. 被引量：2
3安艳辉,董五洲,张广慧.基于轮廓线搜索策略的搭接英文字符切分方法[J].河北省科学院学报,2008,25(1):32-34. 被引量：1
4安艳辉,董五洲.基于识别反馈的粘连字符切分方法研究[J].河北省科学院学报,2008,25(2):32-35. 被引量：4
5刘阳兴.基于折线切分路径的粘连搭接字符切分算法的研究[J].计算机应用研究,2011,28(10):3998-4000. 被引量：1
6杨振宇.中英文混合字符串切分技术[J].电脑知识与技术（过刊）,2011,17(5X):3426-3428.

二级引证文献10

1沙尔旦尔·帕尔哈提,阿布都热合曼·卡的尔,阿力木江·亚森.多字体印刷体维-哈-柯文关键词图像识别[J].计算机科学,2022,49(S02):615-620. 被引量：1
2孔凡辉.基于小波矩的印刷体英文字符识别研究[J].哈尔滨商业大学学报（自然科学版）,2007,23(6):694-697. 被引量：1
3李小园,杨芳,张望博.基于结构聚类和笔画分析的粘连手写汉字切分[J].计算机工程与应用,2008,44(34):163-165. 被引量：3
4周源,白顺科.基于上下文语义词库的OCR识别方法[J].中国制造业信息化（学术版）,2008,37(12):62-64. 被引量：4
5张振绘,刘赛.女书文字切分算法的设计与实现[J].中国科技信息,2010(12):119-120. 被引量：2
6安艳辉,陈韶霞,刘宗敏.基于字符类别的识别反馈混排字符切分方法[J].河北省科学院学报,2011,28(1):15-19.
7罗佳.一种对粘连英文字符串的快速切分算法研究[J].计算机技术与发展,2014,24(8):59-62. 被引量：3
8尹芳,李全通,周昕,金飞虎.一种基于连通域搜索的英文单词切分方法[J].哈尔滨理工大学学报,2014,19(5):109-112. 被引量：1
9任荣梓,高航.基于反馈合并的中英文混排版面OCR技术研究[J].计算机技术与发展,2017,27(3):39-43. 被引量：5
10李前汭,于力革.基于ARM Cortex-A9字符识别系统设计[J].计算机系统应用,2018,27(9):256-261. 被引量：3

1第13届文档分析与识别国际会议（英文）[J].智能系统学报,2015,10(1):67-67.
2张勇.ABBYY捷多款本土化产品发力中国[J].电脑爱好者,2010(17):103-103.
3曹卫.基于二分法的字符垂直投影分割算法[J].软件导刊,2010,9(10):71-72. 被引量：4
4清华大学多体蒙古文印刷文档识别平台通过鉴定[J].印刷杂志,2007(6):93-93.
5许颖泉.用神经网络进行数字图象识别研究[J].科技风,2008(24):59-60. 被引量：11
6文通参加中国少数民族语言文字工作成果展[J].数码世界（A）,2008,7(1):15-15.
7秦姣华,向旭宇.文本字切分的研究与实践[J].益阳师专学报,2000,17(5):54-55.
8黄岳峰.表格图象处理技术及其在出入境部门的应用[J].广东公安科技,2004,12(2):45-48.
9靳简明,王华,丁晓青.维汉英混排文档识别[J].电子与信息学报,2006,28(7):1188-1191. 被引量：3
10李德红,张宏远,付新荣,赵丹丹.Isomap的特点及其在基因芯片数据分析中的应用[J].生物信息学,2008,6(1):35-37.

计算机工程与应用

2002年第17期

浏览历史

内容加载中请稍等...

文档识别中误切分字符拒识问题的研究被引量：6

参考文献8

二级参考文献1

共引文献13

同被引文献34

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

文档识别中误切分字符拒识问题的研究 被引量：6

参考文献8

二级参考文献1

共引文献13

同被引文献34

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

文档识别中误切分字符拒识问题的研究被引量：6