鲁棒的多体印刷英文识别系统的实现被引量：8

Implementation of Robust Multi-Font Printed English Character Recognition System

下载PDF

导出

摘要文章讨论了设计一个实用的多体英文识别系统中解决的主要问题。该系统能识别多达260种字体,包括斜体和黑体等字体,对训练集的识别率达到99%,对实际文本测试的错误率比TH-OCR2000低56%。文章详细阐述了文本行字切分,特征提取和分类器设计,以及后处理所使用的常用技术,对各种技术的特点进行了分析和比较,并提出了一些新的技术。文章对于OCR系统的设计具有一定的指导意义。 This paper addresses the main problems in designing a multi-font English character recognition system.The system can recognize more than260kinds of fonts,including italic font and black font.The recognition ratio in training set is99%,and the error recognition ratio in real-world documents is56%lower than TH-OCR2000.Techniques of text line segmentation and character segmentation,feature extraction and classifier design,and post-processing are discussed in detail.Characteristics of techniques are analyzed and compared.Some novel techniques are provided in the paper.This paper can be used as guidance for OCR system design.

作者伍振军丁晓青

机构地区清华大学电子工程系

出处《计算机工程与应用》 CSCD 北大核心 2001年第20期120-122,共3页 Computer Engineering and Applications

基金国家863高技术计划(编号:863-306-ZT03-03-1) 国家自然科学基金(编号:69972024)

关键词多体印刷英文识别系统分类器特征提取字符切分 OCR,Character Segmentation,Feature Extraction,Classifier Design,Post-Processing

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1[1]Y Yi Lu,B Haist,L Harmon et al.An accurate and Efficient System for Segmenting Machine-printed Text[R].U.S.Postal Service 5th Advanced Technology Conference,1992;3:A-93-A-105
2[2]Fumitaka Kimura,Kenji Takashina,Shinji Tsuruoka. Modified Quardratic Discriminant Functions and the Application to Chinese Charac ter Recognition[J].IEEE ,PAMI, 1987 ;9(1): 149-153
3[3]Alman Kundu,Yanghe,Paramvir Bahl. Recognition of Handwritten Word:First and Second Order Hidden Markov Model Based Approach[J].Pattern Recognition, 1989;22(3) :283-297
4[4]H Takahashi,N Itoh,T Amano et al.A Spelling Correction Method and Its Application to An OCR System[J].Pattern Recognition, 1990;23 (3/4): 363-377

同被引文献47

1赵烨,王明磊,李新友.应用OCR技术的大数据量文档处理系统模型[J].计算机应用,2000,20(S1):325-327. 被引量：3
2AbbasH.Hassin Xiang-LongTang Jia-FengLiu WeiZhao.Printed Arabic Character Recognition Using HMM[J].Journal of Computer Science & Technology,2004,19(4):538-543. 被引量：3
3哈力木拉提,阿孜古丽.多字体印刷维吾尔文字符识别系统的研究与开发[J].计算机学报,2004,27(11):1480-1484. 被引量：36
4吴锐,赵巍,尹芳,唐降龙.特征融合及相似度判据在英文识别中的应用[J].计算机工程与应用,2005,41(16):55-57. 被引量：5
5马壮,赵国权,任占鹏.基于OCR识别技术的自动阅卷系统的研究[J].河北工业科技,2005,22(6):354-357. 被引量：4
6苗琦龙,栾新.基于遗传算法和BP网络的文字识别方法[J].计算机应用,2005,25(B12):330-332. 被引量：16
7岳思聪,王庆,赵荣椿.一种基于词片识别的字符分割算法[J].中国图象图形学报,2006,11(1):8-12. 被引量：3
8夏国恩,金炜东,张葛祥.基于组合特征的手写体数字识别方法[J].计算机应用研究,2006,23(6):170-172. 被引量：8
9孙巍.一种面向中文信息检索的汉语自动分词方法[J].现代图书情报技术,2006(7):33-36. 被引量：7
10蓝章礼.基于中心与圆周的英文字符识别方法研究[J].计算机科学,2007,34(4):241-242. 被引量：3

引证文献8

1吴锐,赵巍,尹芳,唐降龙.特征融合及相似度判据在英文识别中的应用[J].计算机工程与应用,2005,41(16):55-57. 被引量：5
2何苗,常智勇,杨海成.数字识别技术在激光切割机中的应用[J].制造技术与机床,2006(9):57-60.
3蓝章礼.基于中心与圆周的英文字符识别方法研究[J].计算机科学,2007,34(4):241-242. 被引量：3
4高海波,洪文学,樊凤杰,崔建新.基于雷达图表示原理的英文字符识别方法[J].燕山大学学报,2008,32(5):464-467.
5吴德天,杨根兴.嵌入式平台下英文名片字符识别算法的实现[J].北京机械工业学院学报,2008,23(4):62-64.
6尹芳,王卫兵,陈德运.印刷体英文文档识别系统的设计与实现[J].哈尔滨理工大学学报,2008,13(6):9-12. 被引量：9
7邹霞,哈力木拉提·买买提,艾尔肯·赛甫丁.维吾尔新文字印刷体识别系统的研究与开发[J].新疆大学学报（自然科学版）,2012,29(2):223-228. 被引量：2
8禹涛,何勰绯.OCR组件在智能阅读器的应用[J].电脑知识与技术（过刊）,2012,18(5X):3385-3387. 被引量：1

二级引证文献19

1杨晓敏,何小海,吴炜,陈默,薛磊.一种基于相似度判据的K近邻分类器的车牌字符识别方法[J].四川大学学报（自然科学版）,2006,43(5):1043-1047. 被引量：5
2罗鑫,吴炜,杨晓敏,何小海,盛曦.一种基于PCA的多模板字符识别[J].电子测量技术,2007,30(1):138-141. 被引量：5
3蓝章礼.基于中心与圆周的英文字符识别方法研究[J].计算机科学,2007,34(4):241-242. 被引量：3
4安然,张少军,陈华,喻振华.字符识别中毛刺的去除方法[J].计算机技术与发展,2007,17(9):136-138. 被引量：8
5孔凡辉.基于小波矩的印刷体英文字符识别研究[J].哈尔滨商业大学学报（自然科学版）,2007,23(6):694-697. 被引量：1
6高海波,洪文学,樊凤杰,崔建新.基于雷达图表示原理的英文字符识别方法[J].燕山大学学报,2008,32(5):464-467.
7李文珺,丁岳伟.一种验证码倾斜自动矫正算法[J].计算机工程,2011,37(15):205-207. 被引量：2
8徐奕奕,刘智琦,刘琦.基于文本图像的自适应补偿二值化处理算法[J].计算机仿真,2011,28(10):240-243. 被引量：8
9李晓,袁保社,陈卿,任宏宇,张建华.基于像素积分投影的印刷体维文字母切分方法[J].计算机技术与发展,2012,22(4):41-44. 被引量：9
10宋贤霞,李玉琴.基于扫描圈的字符识别方法[J].自动化与信息工程,2012,33(5):15-17.

1王润民,钱盛友,邹永星.基于SVM混合网络的车牌字符识别研究[J].微计算机信息,2007,23(34):222-223. 被引量：4
2陈国平,张明新,付跃文,王劲林.高性能的多体印刷英文识别系统的实现[J].计算机工程与应用,2006,42(12):183-186. 被引量：2
3许颖泉.用神经网络进行数字图象识别研究[J].科技风,2008(24):59-60. 被引量：11
415英寸LCD显示器主观测试成绩[J].大众硬件,2003(10):53-53.
517英寸LCD显示器主观测试成绩[J].大众硬件,2003(10):53-53.
6秦姣华,向旭宇.文本字切分的研究与实践[J].益阳师专学报,2000,17(5):54-55.
7斜体外文字母主要用于以下场合[J].东北电力技术,2014,35(1):62-62.
8吴锐,赵巍,尹芳,唐降龙.特征融合及相似度判据在英文识别中的应用[J].计算机工程与应用,2005,41(16):55-57. 被引量：5
9莓荔.清华文通推出TH-OCR 8.0、TH-OCR 2000和TH-OA3.0[J].办公自动化,1999(6):61-61. 被引量：1
10谭立湘.Web页面描述语言HTML(二)[J].微型机与应用,1998,17(9):34-38.

计算机工程与应用

2001年第20期

浏览历史

内容加载中请稍等...

鲁棒的多体印刷英文识别系统的实现被引量：8

参考文献4

同被引文献47

引证文献8

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

鲁棒的多体印刷英文识别系统的实现 被引量：8

参考文献4

同被引文献47

引证文献8

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

鲁棒的多体印刷英文识别系统的实现被引量：8