基于多引擎的印刷体汉字识别系统的设计

Development of Multi-engine Printed Chinese Character Recognition System

下载PDF

导出

摘要设计一种基于多引擎的印刷体汉字识别系统,优先采用汉王光学字符识别(OCR)引擎的版面分析结果,在汉王、清华OCR引擎分别完成字符识别之后,根据字符的图像坐标,整合两者的识别结果,并用彩色突出两OCR引擎的冲突字符、置信度低的字符及WiseCheck语义校对引擎提示的错误字符。该系统改善了现有大规模数字化加工生产线中人工比照图像时对识别文本逐字、全文遍历式校对的工作模式,能减轻劳动强度,提高工作效率,降低处理成本。 A printed Chinese characters recognition system based on multi-engine has been constructed.Basing on the HW-OCR engine＇s layout analysis,the HW-OCR and TH-OCR engines accomplished character recognition respectively.According to the coordinate of the character image,the system will integrate the two OCR engine＇s recognition results using different colors to highlight their conflict character and low confidence character,and the other wrong words which are checked by the ＂WiseCheck＂（a semantic collation engine）.This system has improved the text verbatim identification by artificial contrast image and full-text search proofreading work mode in the existing mass digitization processing production line,which further can reduce labor intensity,improve work efficiency and reduce the cost of processing.

作者梁莹肖健李玥

机构地区广西计算中心

出处《广西科学院学报》 2011年第4期317-319,共3页 Journal of Guangxi Academy of Sciences

关键词汉字识别光学字符识别语义校对多引擎 Chinese character recognition OCR semantic collation multiengine

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1REDDY K T R, REDDY P J, et al. Studies of ZnxCd1-xS films and Znx Cd1-xS/CuGaSe2 heterojunction solar cells [ J ]. J.Phys. D: Appl. Phys. , 1992, 25:1345-1348.
2罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19

二级参考文献10

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
4冯志伟.自然语言的计算机处理[M].上海外语教育出版社,1994..
5娄埏．现代汉语分词系统通用性设计及切分歧义处理：[硕士论文]．北京：北京工业大学，2000.
6罗智勇，宋柔，等．现代汉语自动分词中专名的一体化、快速况别方法．2001 Int'l Conf．Chinese Computing(ICCC’2001)，新加坡，2001.
7Andi Wu，Zixin Jiang．Word segmentation in sentence analysis．1998中文信息处理国际会议论文集．北京：清华大学出版社，1998．169～180.
8孙茂松，左正平，等．汉语真实文本中交集型切分歧义．汉语计量与计算研究．香港：香港城市大学语言资讯科学研究中心，1998．323～338.
9何克抗,徐辉,孙波.书面汉语自动分词专家系统设计原理[J].中文信息学报,1991,5(2):1-14. 被引量：30
10娄珽,宋柔,李卫亮,罗智勇.现代汉语分词系统通用接口设计与实现[J].中文信息学报,2001,15(5):1-7. 被引量：6

共引文献19

1冯秋菊,申德振,张吉英,单崇新,张振中,吕有明,刘益春,范希武.Zn_(1-x)Cd_xS合金薄膜的结构和光学性质[J].发光学报,2004,25(5):515-518. 被引量：2
2郑家恒,张剑锋,谭红叶.中文分词中歧义切分处理策略[J].山西大学学报（自然科学版）,2007,30(2):163-167. 被引量：10
3熊回香,夏立新.基于词索引的中文全文检索关键技术及其发展方向[J].中国图书馆学报,2007,33(4):45-49. 被引量：6
4余希田,李丹亚,胡铁军.汉语自动分词歧义处理研究[J].医学信息学杂志,2007,28(6):541-544.
5王硕,尤枫,山岚,赵恒永.一种适用于专业搜索引擎的中文分词系统研究[J].计算机工程与应用,2008,44(19):142-145. 被引量：4
6乔维,孙茂松.汉语交集型歧义切分字段关于专业领域的统计特性[J].中文信息学报,2008,22(4):10-18. 被引量：3
7张劲松,袁健.回溯正向匹配中文分词算法[J].计算机工程与应用,2009,45(22):132-134. 被引量：16
8袁健,张劲松,马良.二次回溯中文分词方法[J].计算机应用研究,2009,26(9):3321-3323. 被引量：3
9张彩琴,袁健.改进的正向最大匹配分词算法[J].计算机工程与设计,2010,31(11):2595-2597. 被引量：11
10魏博诚,王爱平,沙先军,王永.一种消除中文分词中交集型歧义的方法[J].计算机技术与发展,2011,21(5):60-63. 被引量：4

1马飞,吕海莲,石果.基于最短欧氏距离匹配的印刷体汉字识别[J].平顶山学院学报,2012,27(2):70-73. 被引量：2
2毛忠萍.印刷体汉字识别系统的研究[J].北京机械工业学院学报,1994,9(2):76-80.
3张天祥.一种多字体印刷体汉字识别方案[J].中国印刷,1992(36):41-46.
4崔国伟,舒文豪,李仲荣.印刷体汉字识别特征选择方法的研究[J].哈尔滨工业大学学报,1989,21(2):77-84.
5张晓明,周修光.手持扫描输入印刷体汉字特征提取方法的研究[J].计算机与数字工程,1995,23(2):55-58.
6朱学芳,毕厚杰,王绍棣.多种印刷体汉字识别的一种方法[J].南京邮电学院学报,1990,10(4):5-8. 被引量：1
7监控智能向“前”看[J].A&S（安全&自动化）,2015(3):66-69.
8姜赢,庄润钹,吴烨凡,朱玲萱.基于描述逻辑本体推理的语义级中文校对方法[J].计算机系统应用,2017,26(4):224-229. 被引量：6
9刘暾,周有文.印刷体汉字识别的预分类方法[J].新浪潮,1989(5):44-47.
10于秀云.一个印刷体汉字识别系统的设计[J].计算机工程与设计,1998,19(5):29-35. 被引量：4

广西科学院学报

2011年第4期

浏览历史

内容加载中请稍等...

基于多引擎的印刷体汉字识别系统的设计

参考文献2

二级参考文献10

共引文献19

相关作者

相关机构

相关主题

浏览历史