维汉英混排文档识别被引量：3

Uyghur, Chinese and English Multilingual Document Recognition

下载PDF

导出

摘要维、汉、英是特点完全不同的文字。该文依据多层次语言判断和适当干预的多语言字符识别系统设计原则首次实现了维、汉、英混排文本识别系统。识别系统首先根据维、汉、英文字的各自特点实现字符块语言属性的初步判断,然后针对每种文字设计不同的字符切割算法。字符识别可信度用来判断字符语言属性和字符切分结果是否正确。实验结果表明,各种维、汉、英混排文本识别率达到96.4%以上。 The characteristics of Uyghur, Chinese and English scripts are totally different. A Uyghur, Chinese and English multilingual document recognition system is implemented the first time based on the multilingual OCR system design principle, which includes ＂multi-layer character language estimation＂ and ＂suitable adjustment＂. At first, the language property of each text block is estimated according to the characteristics of Uyghur, Chinese and English scripts. After that, language-oriented character segmentation algorithms are performed on text blocks, and the character recognition confidence is used to judge whether the results of character segmentation and language property estimation of a text block are right. Experimental results show the recognition accuracy of Uyghur, Chinese and English multilingual documents achieves 96.4% and above.

作者靳简明王华丁晓青

机构地区智能技术与系统国家重点实验室清华大学电子工程系

出处《电子与信息学报》 EI CSCD 北大核心 2006年第7期1188-1191,共4页 Journal of Electronics & Information Technology

基金国家自然科学基金(60241005) 中国博士后科学基金(2004035331)资助课题

关键词混排文本识别字符切割字符识别维吾尔文 Multilingual document recognition, Character segmentation, Character recognition, Uyghur script

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1刘长松，郭繁夏，丁晓青，郭宏．印刷汉字识别方法综述．中国计算机报，1997(663)：141—145．
2Rice S V, Jenkins F R, Nartker T A. The Fifth annual test of OCR accuracy. Technical Report, Information Science Research Institute, University of Nevada, Las Vegas, 1996.
3Kanungo T, Marton G A, Bulbul O. Omnipage vs. Sakhr: Paired model evaluation of two Arabic OCR products. SPIE Conference on Document Recognition and Retrieval VI, San Jose, CA, USA,January 27-28, 1999, 3651: 109- 120.
4靳简明王庆人.多语言字符识别系统集成研究[J].软件学报,2002,13:225-230.
5Romeo-Pakker K, Miled H, Lecourtier Y. A new approach for Latin/Arabic character segmentation. The 3rd International Conference on Document Analysis and Recognition. Montreal,Canada, 1995:874 - 877.
6Lee Seong-Whan, Kim Jong-Soo. Multi-lingual, multi-font and multi-size large-set character recognition using self-organizing neural network. The 3rd International Conference on Document Analysis and Recognition, Montreal, Canada, 1995:28 - 33.
7Chi Su-Young, Moon Kyung-Ae, Oh Weon-Geun. Recognition of large-set multilingual characters by optimal feature class reduction.The 17th International Conference on Computer Processing of Oriental Languages, Hong Kong, 1997:349 - 352.
8Guo H, Ding X. Realization of a high-performance bilingual Chinese-English OCR system. The 3rd International Conference on Document Analysis and Recognition, Montreal, Canada, 1995:978 - 981.
9靳简明.汉英双语OCR系统集成原则及实现[J].工程图学学报,2001,22:26-26.
10靳简明,丁晓青,彭良瑞,王华.印刷维吾尔文本切割[J].中文信息学报,2005,19(5):76-83. 被引量：17

二级参考文献15

1Adnan Amin, and Jean F. Mari. Machine recognition and correction of printed Arabic text [J]. IEEE Transactions on Systems, Man and Cybernetics, 1989, 19(5):1300- 1306.
2Katerin Romeo-Pakker, H. Miled, and Yves Lecourtier. A new approach for Latin / Arabic character segmentation [A]. Proceedings of the 3rd International Conference on Document Analysis and Recognition [C]. Montréal, Cana da, 1995, 874- 877.
3H. Al-Muallim, and S. Yamaguchi. A method of recognition of Arabic cursive handwriting [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1987, 9(5):715- 722.
4Anthony Cheung, Mohammed Bennamoun, and Neil W. Bergmann. An Arabic optical character recognition system using recognition-based segmentation [J]. Pattern Recognition, 2001, 34(2):215- 233.
5Issam Bazzi, Richard Schwartz, and John Makhoul. An omnifont open-vocabulary OCR system for English and Arabic [J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21(6):495- 504.
6Anniwear Ymin, and Yoshinao Aoki. On the segmentation of multi-font printed Uygur scripts [A]. Proceedings of the 13th International Conference on Pattern Recognition [C]. Vienna, Austria, 1996, 215- 219.
7A. Zahour, B. Taconet, P. Mercy, and S. Ramdane. Arabic hand-written text-line extraction [A]. Proceedings of the 6th International Conference on Document Analysis and Recognition [C]. Seattle, USA, 2001, 281 - 285.
8Gasser A. Auda, and Hazem Raafat. An automatic text reader using neural networks [A]. Proceedings of the Canadian Conference on Electrical and Computer Engineering [C]. Vancouver, BC Canada, 1993, 92- 95.
9Ibrahim S. I. Abuhaiba, M. J. J. Holt, and S. Datta. Recognition of off-line cursive handwriting [J]. Computer Vision and Image Understanding, 1998, 71(1) :19- 38.
10M.F. Bushofa, and M. Spann. Segmentation and recognition of Arabic characters by structural classification [J].Image and Vision Computing, 1997, 15(3): 167 - 179.

共引文献18

1王恺,王庆人.中英文混合文章识别问题[J].软件学报,2005,16(5):786-798. 被引量：18
2杨玉科,何小海,吴炜,徐锐义.中文名片识别系统[J].成都信息工程学院学报,2008,23(1):21-24. 被引量：1
3陈卿,袁保社,李晓,任宏宇,张建华.基于模板匹配的印刷维吾尔文字符识别研究[J].计算机技术与发展,2012,22(4):119-122. 被引量：10
4玛日耶姆古丽.米吉提,哈力旦. A.基于复杂背景的彩色图像中维吾尔文字切分[J].计算机工程与科学,2012,34(9):98-103. 被引量：4
5郑江华,王冠生,瓦哈甫.哈力克,阿地力.肉孜.一种面向维文网站的动态天气图文信息服务支持系统[J].中文信息学报,2013,27(2):52-57. 被引量：1
6万金娥,袁保社,李晓,谷朝,米尔沙力江.沙吾提.一种改进的印刷体维吾尔文投影切分方法[J].计算机工程,2013,39(4):263-266. 被引量：10
7许亚美,卢朝阳,李静,姚超.手写维文字符分割中的多信息融合路径寻优方法[J].西安交通大学学报,2013,47(8):68-73. 被引量：2
8邓俊,吾守尔.斯拉木,艾尼宛尔.托乎提,袁廷磊,赵志成.维吾尔文网页研究及Android维文浏览器的实现[J].中文信息学报,2014,28(1):118-124.
9李亚男,陈兴文,张丹.印刷体维文切分算法的改进——基于像素积分投影法和连通域搜索法[J].大连民族学院学报,2014,16(3):315-318. 被引量：5
10杨燚,祖丽菲亚.卡哈尔,艾斯卡尔.艾木都拉.基于改进SRG法的叠加维吾尔文字提取算法[J].计算机工程与应用,2014,50(12):220-225.

同被引文献37

1王华,丁晓青,哈力木拉提.多字体多字号印刷维吾尔文字符识别[J].清华大学学报（自然科学版）,2004,44(7):946-949. 被引量：18
2古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
3张丽,陈志强,高文焕,康克军.均值加速的快速中值滤波算法[J].清华大学学报（自然科学版）,2004,44(9):1157-1159. 被引量：54
4哈力木拉提,阿孜古丽.多字体印刷维吾尔文字符识别系统的研究与开发[J].计算机学报,2004,27(11):1480-1484. 被引量：36
5马宁,于洪志.Linux的民文化技术[J].西北民族大学学报（自然科学版）,2005,26(1):58-63. 被引量：1
6严曲,赵跃龙.一种基于迭代阈值法的身份证图像二值化算法研究[J].计算机测量与控制,2005,13(6):595-597. 被引量：31
7靳简明,丁晓青,彭良瑞,王华.印刷维吾尔文本切割[J].中文信息学报,2005,19(5):76-83. 被引量：17
8芮建武,吴健,孙玉芳.国际化文字处理综述[J].中文信息学报,2006,20(2):87-93. 被引量：4
9崔政,李壮.两种改进的模板匹配识别算法[J].计算机工程与设计,2006,27(6):1083-1085. 被引量：26
10苏国平,缪成,夏国平.LINUX下维、哈、柯文多语种图形化处理平台的设计与实现[J].中文信息学报,2006,20(4):88-93. 被引量：6

引证文献3

1苏建辉,程晶,蒋同海.维、哈、柯文版Linux操作系统关键技术的设计实现[J].计算机科学,2008,35(10):288-291.
2陈卿,袁保社,李晓,任宏宇,张建华.基于模板匹配的印刷维吾尔文字符识别研究[J].计算机技术与发展,2012,22(4):119-122. 被引量：10
3苗红霞,张龙,徐文杰,齐本胜.一种身份证图像字符分割的改进方法[J].微处理机,2016,37(3):51-55. 被引量：2

二级引证文献12

1沙尔旦尔·帕尔哈提,阿布都热合曼·卡的尔,阿力木江·亚森.多字体印刷体维-哈-柯文关键词图像识别[J].计算机科学,2022,49(S02):615-620. 被引量：1
2贾建忠,龚声蓉,衣马木艾山.阿布都力克木.基于弹性网格混合特征的脱机手写维文识别[J].计算机应用与软件,2014,31(9):172-176. 被引量：1
3张振东,哈力旦.阿布都热依木,赵永霄.印刷体维吾尔文字符切分自适应算法[J].计算机工程与设计,2014,35(10):3685-3690. 被引量：3
4朱兰,袁保社,余伟.基于滴水算法的印刷体维吾尔文切分方法[J].计算机技术与发展,2015,25(7):107-110. 被引量：5
5如先姑力.阿布都热西提,贺一峰,亚森.艾则孜.基于文本分类的维吾尔文数字取证研究[J].现代电子技术,2016,39(10):9-13. 被引量：1
6姑丽祖热.吐尔逊,尤努斯.艾沙,吐尔根.依布拉音,库尔班.吾布力.连通域结合重叠度的维吾尔文档图像文字切分[J].计算机工程与设计,2016,37(7):1892-1897. 被引量：6
7阿里木.赛买提,哈力木拉提.买买提,吐尔根.依不拉因.基于安卓平台的哈萨克斯拉夫文识别系统[J].计算机工程与设计,2016,37(11):3068-3074.
8于丽,亚森.艾则孜.基于HOG特征和MLP分类器的印刷体维吾尔文识别方法[J].微型电脑应用,2017,33(6):30-33. 被引量：2
9李志杰,袁鹏泰,李博涵.基于透视变换的手机身份证字符分割算法[J].计算机技术与发展,2018,28(7):58-62. 被引量：2
10玛伊莱.艾力,玛依拉.依布拉音,地里木拉提.吐尔逊,艾斯卡尔.艾木都拉.脱机手写维吾尔文单词的过拆分方法[J].电脑知识与技术,2018,14(4X):271-273.

1李元金,高维春,王精明.车牌识别技术中字符切割新算法[J].深圳信息职业技术学院学报,2007,5(1):32-34. 被引量：3
2陆安江,金力,杨家红,赵麒.基于改进的BP神经网络在车牌识别中的应用研究[J].贵州大学学报（自然科学版）,2015,32(6):71-74. 被引量：8
3第13届文档分析与识别国际会议（英文）[J].智能系统学报,2015,10(1):67-67.
4曾仲杰,潘晴,徐如意,蔡念,许少秋.基于字符切割拼接的字段式液晶数字识别[J].计算机工程与应用,2013,49(12):110-112. 被引量：3
5戚桂美,希润高娃.基于Matlab的纸币面额识别[J].科技与生活,2011(19):162-162.
6王广彦,齐铁力.三坐标测量机检测数据与CAD系统之间的接口技术研究[J].机械与电子,2003,21(6):43-45. 被引量：2
7张勇.ABBYY捷多款本土化产品发力中国[J].电脑爱好者,2010(17):103-103.
8徐辉.基于MATLAB实现汽车车牌自动识别系统[J].电脑知识与技术（过刊）,2010,0(17):4752-4754. 被引量：4
9王静娇,孙晶,周玉冰,程震,夏伟杰.基于TMS320DM642的人民币图像特征识别系统[J].数据采集与处理,2012,27(S2):206-211. 被引量：3
10清华大学多体蒙古文印刷文档识别平台通过鉴定[J].印刷杂志,2007(6):93-93.

电子与信息学报

2006年第7期

浏览历史

内容加载中请稍等...

维汉英混排文档识别被引量：3

参考文献10

二级参考文献15

共引文献18

同被引文献37

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

维汉英混排文档识别 被引量：3

参考文献10

二级参考文献15

共引文献18

同被引文献37

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

维汉英混排文档识别被引量：3