基于Tesseract文字识别的预处理研究被引量：5

Research on Preprocessing Based on Tesseract Text Recognition

下载PDF

导出

摘要针对Tesseract文字识别框架对输入图像的像素要求,以及图像采集过程中可能出现的歪斜、黑边等情况,基于文字识别流程,对预处理阶段的二值化、缩放、边框处理与倾斜矫正进行研究与C++代码的实现。对文字识别OCR(optical character recognition,光学字符识别)的流程进行了概述,重点研究图像缩放与二值化过程,利用双线性插值算法逐像素、逐行分别对横纵坐标进行线性插值,完成图像缩放;利用最大类间方差法、聚类的思想,遍历灰度值,获取最佳二值化阈值,实现图像的二值化。参考OpenCV库函数,提出图像边框与偏移的处理思路。在VS2015环境下基于Tesseract框架,对整个流程进行实现,介绍了Tesseract框架的接口与功能、输入与输出参数。图像的预处理对文字识别必不可少,有利于Tesseract之后的识别工作。 According to the pixel requirements of the input image of the Tesseract text recognition framework,as well as the skew and black edges that may occur in the image acquisition process,based on the text recognition process,the binarization,scaling,border processing and tilt correction in the preprocess are researched and implemented in C++code.The process of OCR(optical character recognition)is summarized,focusing on the process of image scaling and binarization.The bilinear interpolation algorithm is used to linearly interpolate the horizontal and vertical coordinates pixel by pixel and line by line so as to complete image scaling.According to idea of maximum inter-class variance method and clustering,the gray value is traversed to obtain the optimal binarization threshold to achieve the binarization of the image.With reference to the OpenCV library function,the image frame and offset processing ideas are proposed.Based on the Tesseract framework in VS2015,the entire process is implemented,and the interfaces and functions of the Tesseract framework,input and output parameters are introduced.Image preprocessing is essential for text recognition,which is beneficial to the recognition work after Tesseract.

作者章安马明栋 ZHANG An;MA Ming-dong(School of Telecommunications&Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;School of Geographical and Biological Information,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

机构地区南京邮电大学通信与信息工程学院南京邮电大学地理与生物信息学院

出处《计算机技术与发展》 2021年第1期73-76,174,共5页 Computer Technology and Development

基金江苏省自然科学基金-青年基金项目(BK20140868)

关键词 OCR 文字识别预处理 Tesseract框架 C++ OCR text recognition preprocessing Tesseract framework C++

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1冯磊.OCR,让纸质信息“上高速”[J].信息系统工程,2006,19(9):90-93. 被引量：1
2杨丽娟,李利.基于双线性插值的内容感知图像缩放算法仿真[J].计算机仿真,2019,36(12):244-248. 被引量：20
3王文华.浅谈OCR技术的发展和应用[J].福建电脑,2012,28(6):56-56. 被引量：17
4隋雪,王晓彤,任桂琴.词汇识别中字母换位效应的研究[J].辽宁师范大学学报（社会科学版）,2015,38(3):345-350. 被引量：2
5白元明,孔令成,张志华,赵江海,戴魏魏.基于改进OTSU算法的快速作物图像分割[J].江苏农业科学,2019,47(24):231-236. 被引量：21
6陈海峰,丁丽丽.二值化图像的灰度处理算法研究[J].电脑与电信,2019,0(7):34-38. 被引量：22
7张婷婷,马明栋,王得玉.OCR文字识别技术的研究[J].计算机技术与发展,2020,30(4):85-88. 被引量：53
8柴晨阳.印刷体汉字识别处理技术综述[J].计算机光盘软件与应用,2014,17(24):141-142. 被引量：1
9李霄霄.基于OCR的字符识别的研究与实现[J].科技视界,2017,0(14):98-98. 被引量：9
10弓耀辉.图像文字识别中的预处理技术研究综述[J].信息通信,2017,30(9):291-292. 被引量：10

二级参考文献76

1孙忠贵.数字图像光照不均匀校正及Matlab实现[J].微计算机信息,2008,24(12):313-314. 被引量：17
2赵烨,王明磊,李新友.OCR在大数据量文档处理系统中的应用[J].计算机应用,2000,20(S1). 被引量：1
3陈熙霖,朱志莹.手写体字符的分割与识别[J].模式识别与人工智能,1993,6(2):136-142. 被引量：9
4尤玉虎,周孝宽.数字图像最佳插值算法研究[J].中国空间科学技术,2005,25(3):14-18. 被引量：40
5丁国盛,彭聃龄.汉语逆序词识别中整词与词素的关系[J].当代语言学,2006,8(1):36-45. 被引量：27
6刘悦,刘明业,刘明军.快速响应矩阵码自动识别算法的设计[J].计算机系统应用,2006,15(6):51-54. 被引量：6
7ZHU Kai-hua,QI Fei-hu,JIANG Ren-jie,XU Li.Automatic character detection and segmentation in natural scene images[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2007,8(1):63-71. 被引量：12
8邢立民,陈永琴.扫描仪的OCR技术[J].实验室科学,2006,9(6):58-59. 被引量：6
9Velan H, Frorst R. Cambridge University Versus Hebrew Uni- versity~The Impact of Letter Transposition on Reading English and Hebrew[J]. Psychonomic Bulletin ~ Review, 2007, 14(5) 913-918.
10O'Connor R E,Forster K I. Criterion Bias and Search Sequence Bias in Word Recognition[J]. Memory and Cognition, 1981,9 (1) ~ 78-92.

共引文献149

1阿卜杜如苏力·奥斯曼,艾力米努·阿布力江,祖丽哈也提·艾合买提.小波域内循环平移操作的图像高分辨率重建算法[J].应用科学学报,2022,40(2):279-287. 被引量：2
2周纪武,于新生.基于深度学习技术的地铁车辆车号识别系统研究[J].运输经理世界,2020(13):19-22. 被引量：1
3王筝,袁慧书.胶片集中打印中提高信息识别率的分析与策略[J].国际生物医学工程杂志,2013,36(1):26-29. 被引量：2
4李志强,项辉宇,李哲.OCR在印刷字符实时检测系统中的应用[J].机电产品开发与创新,2013,26(3):129-130. 被引量：3
5郭佳,刘晓玉,吴冰,付晓薇.一种光照不均匀图像的二值化方法[J].计算机应用与软件,2014,31(3):183-186. 被引量：64
6张继荣,王利军.一种改进的QR码图像二值化算法[J].现代电子技术,2014,37(7):56-58. 被引量：9
7杨冬梅,郭晓翠.数字化转型背景下图书馆档案管理的问题与对策[J].西安电子科技大学学报（社会科学版）,2018,28(4):24-27. 被引量：5
8王玲丽.浅谈OCR技术在图书馆文献资源加工中的应用——以上海图书馆近代文献全文OCR数据制作项目为例[J].数字与缩微影像,2015(1):23-26. 被引量：3
9徐杰,靳国庆,袁庆升.互联网QR码图片监测系统的设计与实现[J].信息网络安全,2015(6):13-18. 被引量：1
10邱灿树,张健权,余少杰.电力工程人员持票状态智能核查系统的研究[J].电子技术与软件工程,2016(1):208-209.

同被引文献49

1周纪武,于新生.基于深度学习技术的地铁车辆车号识别系统研究[J].运输经理世界,2020(13):19-22. 被引量：1
2张晶,李雅琴,王博文.光学字符识别(OCR)技术在内部审计中的实践应用[J].纳税,2020,14(1):275-275. 被引量：5
3王兴,郑勇锋,严永兵,刘沿娟,张梦伊.基于OCR技术的票据识别算法研究[J].智能计算机与应用,2021,11(11):101-106. 被引量：7
4杨菊花,陈光武,包成启.基于图像的铁路货车车号定位与识别[J].兰州交通大学学报,2014,33(4):21-25. 被引量：6
5朱慧玲,邹文洁.二代身份证快速图像识别关键技术研究[J].科技资讯,2016,14(8):19-20. 被引量：6
6彭向韶.车辆检修管理信息化的研究与应用[J].技术与市场,2018,25(8):175-176. 被引量：3
7潘观潮,王峰,王宏武,王晓洒,刘进辉.基于OpenCV和Zbar的二维码图像提取与识别[J].电脑知识与技术,2019,15(6):191-193. 被引量：6
8杜东伟,张陆军,邢传义,梁双庆,彭博.车号图像识别设备在地铁中的应用[J].现代城市轨道交通,2019,0(10):1-4. 被引量：3
9刘丽媛,刘宏展,郝源,吴一.基于Python和OCR的仪表信息识别技术[J].电子技术与软件工程,2020(2):139-142. 被引量：3
10史宝坤,李欣,王淑娴,樊笑含,张真真.基于Flask的Python Web开发[J].数码世界,2020,0(3):43-44. 被引量：8

引证文献5

1杨树旺.地铁车辆车号识别系统的研究与应用[J].现代城市轨道交通,2022(5):20-23. 被引量：1
2王宏,刘博洋,任刚.疫情下老年人出行身份登记系统设计与实现[J].信息技术,2023,47(3):23-28.
3叶佩,王征风.基于OCR识别的英语翻译系统设计[J].自动化与仪器仪表,2023(2):258-262. 被引量：1
4侯照,高定国.敦煌藏文文献模糊版面的双重去噪预处理研究[J].信息与电脑,2023,35(6):93-99.
5范燕玲,吴钰婷,曾慧敏,王一帆,莫洁安.基于OCR的核酸检测结果截图识别系统[J].信息技术与信息化,2023(7):119-122. 被引量：1

二级引证文献3

1罗浩然,姚天宇,鄂海红,万开阳.基于云边协同的智能城市轨道交通PHM系统[J].软件,2023,44(2):13-16. 被引量：1
2徐英卓,王昊阳.基于OCR的国家职业资格证书信息提取研究与应用[J].信息技术与信息化,2024(5):10-14. 被引量：1
3赵亚文,范剑红,陈金国,涂志松,佘栋梁,徐志勇.基于ResNet50模糊称重装置双目识别系统的设计[J].四川轻化工大学学报（自然科学版）,2024,37(5):69-77.

1邓伟倩,杨建新,王波,呼子博.炮弹产品制造过程质量管控系统的设计与实现[J].新技术新工艺,2020(12):76-80.
2邵慧敏,张太红.基于CTPN神经网络对营业执照文字检测模型[J].计算机技术与发展,2021,31(1):94-97. 被引量：1
3李宏伟,祝海江,冯延强.基于双线性插值的超声成像测井数据重采样处理方法研究[J].世界核地质科学,2020,37(4):291-295. 被引量：5
4Zhonghong Ou,Baiqiao Xiong,Fenrui Xiao,Meina Song.ERCS: An Efficient and Robust Card Recognition System for Camera-Based Image[J].China Communications,2020,17(12):247-264. 被引量：1
5郑子贤,张小涵,陈冰,徐南阳.基于神经网络的金刚石色心自动识别算法实现[J].合肥工业大学学报（自然科学版）,2020,43(12):1723-1728.
6石文.混合教学模式在中职普通话教学中的应用[J].广西教育,2020(30):110-111.
7宋玲,夏智敏.人体关键点检测的Mask R-CNN网络模型改进研究[J].计算机工程与应用,2021,57(1):150-160. 被引量：7
8张旭,邓志光,陈世勇.基于代码生成器的DCS硬逻辑仿真系统的设计与实现[J].自动化与仪表,2020,35(11):83-88. 被引量：2
9中华神经外科杂志编辑部.本刊关于稿件图表的要求[J].中华神经外科杂志,2020,36(12):1194-1194.
10王茹意,李洪烈,杨振,杨航.基于蒙特卡罗法的海上落水遇险人员漂流轨迹预测[J].舰船电子工程,2020,40(12):48-50. 被引量：4

计算机技术与发展

2021年第1期

浏览历史

内容加载中请稍等...

基于Tesseract文字识别的预处理研究被引量：5

参考文献11

二级参考文献76

共引文献149

同被引文献49

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Tesseract文字识别的预处理研究 被引量：5

参考文献11

二级参考文献76

共引文献149

同被引文献49

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Tesseract文字识别的预处理研究被引量：5