中英文混合文章识别问题被引量：18

Research on Chinese/English Mixed Document Recognition

下载PDF

导出

摘要当前,已经有大量为单一字符集(或语种)而设计的OCR(optical character recognition)分类器.同时,随着全球一体化,多语文档的出现越来越普遍.因此,设计多语文档处理系统势在必行.提出了一般性的解决方案:两项OCR技术、一个系统和语言判断.为了使研究工作具体化,实现了一个中英文混合文章处理系统.其中主要涉及了3个关键问题:系统流程控制、汉英语言区域分离和英文字符切分.与以往的系统相比,该系统增加了汉英语言区域分离模块,并将基于等间距性的新方法应用于该模块.为了验证本系统的有效性,综合以往的方法实现了另一个系统.实验结果表明,该系统的性能明显优于另一个系统,在杂志样和书籍样上的识别率分别从98.48%和98.68%提高到99.13%和99.25%. Currently, OCR (optical character recognition) classifiers are generally designed for one character set (or language). On the other hand, multilingual document increases drastically due to the globalization. Therefore, designing a document processing system with multilingual capability is very important. A general scheme is presented in this paper: two OCR techniques, a system, and a language classification. For embodying the scheme, a Chinese/English mixed document processing system is implemented. Three key problems are considered: the control of the system flow, the classification of Chinese/English regions, and the segmentation of English characters. Compared with old systems presented in other papers, the module of the classification of Chinese/English regions is added in the system, and a novel approach based on the equidistance is applied to the module. To verify the effectiveness of the system, another system is implemented according to the methods presented in other papers. Experiment shows, the new system is more effective than the old system. The recognition rate increases from 98.48% to 99.13% on magazine samples and from 98.68% to 99.25% on book samples, respectively.

作者王恺王庆人

机构地区南开大学机器智能研究所

出处《软件学报》 EI CSCD 北大核心 2005年第5期786-798,共13页 Journal of Software

基金国家自然科学基金天元基金~~

关键词系统设计语言判别字符切分多语光学字符识别系统文档图像处理 Algorithms Electronic document identification systems Feature extraction Flowcharting Image processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1朱小燕,史一凡.基于反馈的手写体字符识别方法的研究[J].计算机学报,2002,25(5):476-482. 被引量：18
2.ExperVision公司研发OCR高科技产品,在国际同类产品20项评比中19项得第一,副标题王庆人在南开大学研发成功技术转移来美·大放异彩[N].美国:世界日报,1993-9-17(头版头条).
3Rice SV, Kanai J, Nartker TA. An evaluation of OCR accuracy. Technical Report, Las Vegas: Information Science Research Institute, University of Nevada, 1993.9-33.
4Rice SV, Kanai J, Nartker TA. The 3rd annual test of OCR accuracy. Technical Report, Las Vegas: Information Science Research Institute, University of Nevada, 1994. 11-38.
5Kanai J, Liu YC, Rice SV, Nartker TA. A preliminary evaluation of Chinese OCR systems. Technical Report, Las Vegas:Information Science Research Institute, University of Nevada, 1994.41-47.
6Guo H, Ding XQ, Zhang Z, Guo FX. Realization of a high-performance bilingual Chinese-English OCR system. In: Kavanaugh M,Storms P, eds. ICDAR'95: the 3rd Int'l Conf. on Document Analysis and Recognition. Los Alamitos: IEEE Computer Society Press,1995. 978-981.
7Feng ZD, Huo Q. Confidence guided progressive search and fast match techniques for high performance Chinese/English OCR. In:Kasturi R, Laurendeau D, Suen C, eds. ICPR 2002: the 16th Int'l Conf. on Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2002. 89-92.
8Huo Q, Feng ZD. Improving Chinese/English OCR performance by using MCE-based character-pair modeling and negative training. In: Antonacopoulos A, ed. ICDAR 2003: the 7th Int'l Conf. on Document Analysis and Recognition. Los Alamitos: IEEE Computer Society Press, 2003. 364-368.
9靳简明王庆人.多语言字符识别系统集成研究[J].软件学报,2002,13:225-230.
10Pan WM, Jin JM, Shi GS, Wang QR. A system for automatic Chinese business card recognition. In: Antonacopoulos A, ed. ICDAR2003: the 7th Int'l Conf. on Document Analysis and Recognition. Los Alamitos: IEEE Computer Society Press, 2003.1138-1141.

二级参考文献10

1郝红卫,戴汝为.人机结合的集成方法及其在字符识别中的应用[J].模式识别与人工智能,1996,9(1):10-20. 被引量：14
2Garris M D, Wilson C L. Neural network-based systems for handprinted OCR applications. IEEE Trans Image Processing, 1998, 7(8):1097-1112
3Zhu Xiao-Yan. Multiple neural networks model and its application in pattern recognition. In: Proc International Conference on Neural Information, Beijing, China, 1995. 996-969
4Wang Song, Zhu Xiao-Yan. Multiple experts recognition system based on neural network. In:Proc International Conference on Pattern Recognition, Vienna, Austria, 1996. 545-548
5Brows R M, Foy T H. Handprinted symbol recognition system. Pattern Recognition, 1988, 21(2):981-118
6Huang Kai, Yan Hong. Off-line signature verification based on geometric feature extraction and neural network classification. Pattern Recognition, 1997, 30(1):9-17
7Cheung A, Bennamoun M, Bergmann N M. Recognition-based arabic optical character recognition system. In: Proc IEEE International Conference on System, Man and Cybernetics, USA, 1998.4189-4194
8Brows R M, Foy T H. Handprinted symbol recognition system. Pattern Recognition, 1988, 21(2):981-118
9Kimura F, Shiridhar M. Handwritten numerical recognition based on multiple algorithms. Pattern Recognition, 1991, 24(10):969-983
10陈友斌,丁晓青,吴佑寿.一种新的用于手写汉字识别的非线性规一化方法[J].模式识别与人工智能,1998,11(3):310-317. 被引量：14

共引文献18

1郑胜林,赵学军,潘保昌.字符识别中的加权极向笔道密度特征[J].微电子学与计算机,2004,21(6):35-37. 被引量：1
2李盼池,许少华.正规化模糊神经网络及在手写体汉字识别中的应用[J].计算机工程与设计,2005,26(3):816-817. 被引量：1
3芮挺,沈春林,丁健,江南.独立分量重建模型的手写数字字符识别[J].计算机辅助设计与图形学学报,2005,17(3):455-460. 被引量：6
4苗夺谦,张红云,李道国,王真.基于主曲线的脱机手写数字识别[J].电子学报,2005,33(9):1639-1643. 被引量：14
5靳简明,王华,丁晓青.维汉英混排文档识别[J].电子与信息学报,2006,28(7):1188-1191. 被引量：3
6岳晓峰,焦圣喜,韩立强,李洪洲.模式识别中的光字符识别技术及应用综述[J].河北工业科技,2006,23(5):312-316. 被引量：9
7王维兰,陈万军.基于笔划特征和MCLRNN模型的联机手写藏文识别[J].计算机工程与应用,2008,44(14):91-93. 被引量：6
8王建平,潘乐,王金玲.基于反馈的手写体汉字识别系统[J].合肥工业大学学报（自然科学版）,2008,31(7):1020-1025. 被引量：1
9何志国,曹玉东.脱机手写体汉字识别综述[J].计算机工程,2008,34(15):201-204. 被引量：9
10王建平,王二帅.基于特征反馈的手写体汉字识别系统研究[J].计算机应用,2010,30(3):768-771.

同被引文献112

1王洪,汪同庆,刘建胜,朱永权,皇甫征声.基于小波包纹理分析的字体识别方法[J].光电工程,2002,29(S1):62-65. 被引量：5
2陈艳,孙羽菲,张玉志.灰度图像中字符切分方法的研究[J].中文信息学报,2004,18(4):44-49. 被引量：11
3余立功,王强,卜佳俊,陈纯.印鉴识别相似度的计算框架[J].计算机辅助设计与图形学学报,2004,16(10):1366-1370. 被引量：1
4吕俊哲.图像二值化算法研究及其实现[J].科技情报开发与经济,2004,14(12):266-267. 被引量：27
5吴锐,刘家锋,唐降龙,孙广玲.基于Gabor小波变换的汉字识别方法[J].高技术通讯,2005,15(3):7-10. 被引量：4
6陈芒,程治国,彭静,刘允才.纸质地图的地图特征曲线提取[J].上海交通大学学报,2005,39(4):565-569. 被引量：3
7陈艳,孙羽菲,张玉志.基于连通域的汉字切分技术研究[J].计算机应用研究,2005,22(6):246-248. 被引量：11
8李圣权,胡鹏,杨传勇.图形部件Voronoi图生成算法与应用研究[J].计算机工程,2005,31(10):42-44. 被引量：9
9杨志华,齐东旭,杨力华,吴立军.基于经验模式分解的汉字字体识别方法[J].软件学报,2005,16(8):1438-1444. 被引量：13
10明德烈,蒋欣,田金文.基于数值背景表达的地图符号识别方法[J].华中科技大学学报（自然科学版）,2005,33(8):72-74. 被引量：3

引证文献18

1钟辉,刘辉,姜小帅.一种基于数据分析的字符切分方法[J].沈阳建筑大学学报（自然科学版）,2006,22(1):158-162.
2夏勇,王春恒,戴汝为.基于自适应特征与多级反馈模型的中英文混排文档分割[J].自动化学报,2006,32(3):353-359. 被引量：4
3王恺,史广顺,王庆人.欧洲文字识别方法研究[J].模式识别与人工智能,2006,19(4):491-496.
4陈飞,王秀芳,王坤,农宇.地形图点状符号的自动提取和识别[J].自动化学报,2007,33(10):1074-1080. 被引量：4
5王佐林,王希常,刘江,周义彬.基于数学形态学的文档图像段落标记及其应用[J].山东师范大学学报（自然科学版）,2007,22(4):27-29. 被引量：2
6肖镜辉,刘秉权,王晓龙.面向汉语建模的自适应词表生成算法[J].自动化学报,2008,34(1):40-47. 被引量：1
7张吉玲,王希常,刘江.数学形态学和投影方差在文档图像倾斜校正中的应用[J].福建电脑,2008,24(3):100-100.
8王恺,靳简明,史广顺,王庆人.基于特征点的汉字字体识别研究[J].电子与信息学报,2008,30(2):272-276. 被引量：7
9杨玉科,何小海,吴炜,徐锐义.中文名片识别系统[J].成都信息工程学院学报,2008,23(1):21-24. 被引量：1
10张艳玲,汪仁煌,黄宇华.基于综合特征的仪表盘参数符号识别技术研究[J].计算机工程与应用,2008,44(16):221-224. 被引量：2

二级引证文献32

1张艳玲,汪仁煌,黄宇华.基于综合特征的仪表盘参数符号识别技术研究[J].计算机工程与应用,2008,44(16):221-224. 被引量：2
2辛动军,史迎春.地图要素识别与提取研究现状[J].中州大学学报,2009,26(4):115-118. 被引量：2
3范红梅,王希常,于建伟.基于特征的文档子图像检索及其相关反馈[J].信息技术与信息化,2009(5):33-35.
4傅丰,王端.基于距离变换和变形校正的点状符号模式识别研究[J].计算机工程与设计,2010,31(6):1308-1312. 被引量：1
5林砺宗,周罗善.基于统计结构模式的特种票据字符识别技术[J].铁路计算机应用,2010,19(3):12-16.
6王建平,王二帅.基于特征反馈的手写体汉字识别系统研究[J].计算机应用,2010,30(3):768-771.
7郑菁菁.指针式仪表表盘的缺陷检测[J].科技经济市场,2010(4):34-36. 被引量：1
8李华蓉.基于图段连通体的线符号提取[J].测绘信息与工程,2010,35(6):46-48. 被引量：1
9农宇,陈飞.土地利用现状图扫描符号的自动提取与识别[J].测绘科学,2011,36(2):199-201. 被引量：1
10王丹,刘江.基于投影直方图的文档图像快速匹配研究[J].计算机技术与发展,2011,21(7):129-131. 被引量：3

1王恺,史广顺,王庆人.欧洲文字识别方法研究[J].模式识别与人工智能,2006,19(4):491-496.
2顾李晶,赵霁.基于MODI的文档图像处理的研究[J].自动化技术与应用,2013,32(11):45-47.
3王震,李仁发,李彦彪,田峥.一种并行中英文混合多模式匹配算法[J].计算机工程,2014,40(4):318-320.
4张秀常.中英文混合识别的利器—ABBYY FineReader[J].中国信息技术教育,2012(9):73-73.
5成鹏飞,吕建平.Hough变换和区域分离-合并相结合的分割算法[J].西安邮电学院学报,2013,18(3):42-45. 被引量：5
6何晓琴.基于CBS模式的档案管理数字化系统的研究[J].信息安全与技术,2011,2(2):39-41. 被引量：1
7户卫东,丁军娣.基于颜色通道比较的显著性检测[J].计算机系统应用,2016,25(8):35-40.
8张秀常.中英文混合识别的利器——ABBYY FineReader[J].中小学信息技术教育,2012(10):81-82.
9朱庆生,林杰,张敏.一种优化的文档图像分割方法[J].计算机科学,2004,31(4):151-153. 被引量：1
10王恺,李成学,王庆人,赵宏,张健.异态汉字识别方法研究[J].软件学报,2014,25(10):2266-2281. 被引量：8

软件学报

2005年第5期

浏览历史

内容加载中请稍等...

中英文混合文章识别问题被引量：18

参考文献13

二级参考文献10

共引文献18

同被引文献112

引证文献18

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

中英文混合文章识别问题 被引量：18

参考文献13

二级参考文献10

共引文献18

同被引文献112

引证文献18

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

中英文混合文章识别问题被引量：18