基于多级文本检测的复杂文档图像扭曲矫正算法被引量：3

Distortion Correction Algorithm for Complex Document Image Based on Multi-level Text Detection

下载PDF

导出

摘要文档的扭曲矫正是进行文档OCR(Optical Character Recognition)的基础步骤,对提高OCR的准确率有重要作用。文档图像的扭曲矫正常常依赖于文本的提取,然而目前文档图像矫正算法大都无法对复杂文档中的文本进行准确定位和分析,导致其矫正效果不理想。针对此问题,提出了一种基于全卷积网络的文字检测框架,并使用合成文档对网络进行针对性训练,可实现对字符、词、文本行三级文本信息的准确获取,进而对文本进行自适应采样并利用三次函数对页面进行三维建模,将矫正问题转化为模型参数优化问题,达到矫正复杂文档图像的目的。使用合成扭曲文档以及真实测试数据进行矫正实验,结果表明,提出的矫正方法能够对复杂文档进行精确的文本提取,明显改善了复杂文档图像矫正后的视觉效果,相比于其他算法,该算法矫正后OCR的准确率得到显著提高。 Document distortion correction is the basic step of document OCR(optical character recognition),which plays an important role in improving the accuracy of OCR.Document image distortion correction often depends on text extraction.However,most of the current document image correction algorithms cannot accurately locate and analyze the text in complex documents,resulting in unsatisfactory correction effects.To address this problem,a text detection framework based on a fully convolutional network is proposed,and the synthetic document is used to train the network to achieve accurate acquisition of three-level text information of characters,words,and text lines.A self-adaptive sampling of text and three-dimensional modeling of the page using a cubic function will transform the correction problem into a model parameter optimization problem to achieve the purpose of correcting complex document images.Correction experiments using synthetic distortion documents and real test data show that the proposed correction method can accurately extract text from complex documents,significantly improve the visual effect of complex document image correction.Compared with other algorithms,the accuracy rate of OCR after correction significantly increases.

作者寇喜超张鸿锐冯杰郑雅羽 KOU Xi-chao;ZHANG Hong-rui;FENG Jie;ZHENG Ya-yu(College of Information Engineering,Zhejiang University of Technology,Hangzhou 310023,China;School of Informatics Science and Technology,Zhejiang Sci-Tech University,Hangzhou 310018,China)

机构地区浙江工业大学信息工程学院浙江理工大学信息学院

出处《计算机科学》 CSCD 北大核心 2021年第12期249-255,共7页 Computer Science

基金国家自然科学基金(61501402)。

关键词卷积神经网络文本检测文档三维建模文档图像矫正光学字符识别 Convolutional neural network Text detection Three-dimensional modeling of documents Document image correction Optical character recognition

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1曾凡锋,王晓,吴飞飞.基于文本行重构的扭曲文档快速校正方法[J].计算机工程与设计,2014,35(2):573-577. 被引量：4
2宋丽丽,吴亚东,孙波.改进的文档图像扭曲校正方法[J].计算机工程,2011,37(1):204-206. 被引量：10
3曾凡锋,郭正东,王战东.基于连通域的扭曲中文文本图像快速校正方法[J].计算机工程与设计,2015,36(5):1251-1255. 被引量：3

二级参考文献20

1张伟业,赵群飞.读书机器人的版面分析及文字图像预处理算法[J].微型电脑应用,2011(1):58-61. 被引量：8
2Brown M S, Seales W B. Image Restoration of Arbitrarily Warped Documents[J]. IEEE Transactions on Pattern Analysis and Machine/ntelligence, 2004, 26(10): 1295-1306.
3Fu Bin, Wu Minghui, Li Rongfeng, et al. A Model-based Book Dewarping Method Using Text Line Detection[C]//Proc. of the 2nd International Workshop on Camera-based Document Analysis and Recognition. Curitiba, Brazil: [s. n.], 2007.
4Zhang Zheng, Tan Chew Lira. Restoration of Images Scanned from Thick Bound Documents[C]//Proc. of 2001 International Conference on Image Processing. Thessaloniki, Greece: [s. n.], 2001.
5Gatos B, Pratikakis I, Ntirogiannis K. Segmentation-based Recovery of Arbitrarily Warped Document Images[C]//Proc. of the 9th International Conference on Document Analysis and Recognition. Curifiba, Brazil:[s. n.], 2007.
6Gatos B, Pratikakis I, Perantonis S J. Adaptive Degraded Document Image Binarization[J]. Pattern Recognition, 2006, 39(3): 317-327.
7田学东,马兴杰,韩磊,刘海博.视觉文档图像的几何校正[J].计算机应用,2007,27(12):3045-3047. 被引量：10
8HE Yuan, PAN Pan, XIE Shufu, et al. A book dewarping system by boundary-based 3D surface reconstruction [C] // 12th International Conference on Document Analysis and Recog nition, 2013: 403-407.
9LI Zhang, Andy M Yip, Michael S Brown, et al. A unified framework for document restoration using inpainting and shape- from-shading [J].Pattern Recognit J, 2009, 42 (11): 2961-2978.
10MENG Gaofeng, PAN Chunhong, XIANG Shiming, et al. Metric rectification of curved document images [J]. Pattern Analysis and Machine Intelligence, 2012, 34 (4): 707-722.

共引文献12

1张再银,童立靖,湛健,沈冲.基于文本域分割和文本行检测的扭曲文档图像校正[J].电脑与信息技术,2015,23(1):13-15.
2曾凡锋,郭正东,王战东.基于连通域的扭曲中文文本图像快速校正方法[J].计算机工程与设计,2015,36(5):1251-1255. 被引量：3
3陆文杰,赵群飞,肖义涵.页面扭曲的结构光辅助校正方法[J].计算机应用与软件,2015,32(5):178-181.
4王景中,张晓辉.扭曲文本图像校正的新模型方法[J].信息技术,2015,39(12):24-27.
5王景中,孙婷,童立靖.中英文混排扭曲文本图像快速校正方法[J].图学学报,2015,36(6):920-925. 被引量：1
6曾凡锋,段漾波.一种基于页眉线的扭曲文档图像快速校正方法[J].图学学报,2016,37(1):79-83.
7曾凡锋,郭玉阳,肖珂.基于三维数据的扭曲文档矫正技术[J].计算机工程与设计,2016,37(9):2475-2479. 被引量：1
8王景中,王兆亮.灰度文本图像的扭曲文本行信息检测提取[J].数字技术与应用,2017,35(3):130-132.
9罗晓萍.基于行间留白的文档图像校正方法[J].计算机工程,2017,34(4):277-280. 被引量：4
10曾凡锋,段漾波.一种复杂版面扭曲文档图像快速校正方法[J].计算机应用与软件,2016,33(6):172-175. 被引量：4

同被引文献13

1刘燕,温静.基于注意力机制的复杂场景文本检测[J].计算机科学,2020,47(7):135-140. 被引量：6
2孙光民,关世奎,李煜,郑鲲,刘军华.基于改进CTPN算法的试卷手写文本检测[J].信息技术,2020,44(9):94-98. 被引量：6
3陈淼妙,续晋华.基于高分辨率卷积神经网络的场景文本检测模型[J].计算机应用与软件,2020,37(10):138-144. 被引量：4
4李煌,王晓莉,项欣光.基于文本三区域分割的场景文本检测方法[J].计算机科学,2020,47(11):142-147. 被引量：8
5袁星星,吴秦.基于显著性特征和角度信息的遥感图像目标检测[J].计算机科学,2021,48(4):174-179. 被引量：8
6Wen-Jun Yang,Bei-Ji Zou,Kai-Wen Li,Shu Liu.A Character Flow Framework for Multi-Oriented Scene Text Detection[J].Journal of Computer Science & Technology,2021,36(3):465-477. 被引量：1
7刘崇宇,陈晓雪,罗灿杰,金连文,薛洋,刘禹良.自然场景文本检测与识别的深度学习方法[J].中国图象图形学报,2021,26(6):1330-1367. 被引量：34
8宫法明,刘芳华,李厥瑾,宫文娟.基于深度学习的场景文本检测与识别[J].计算机系统应用,2021,30(8):179-185. 被引量：6
9熊炜,艾美慧,杨荻椿,李利荣,刘敏,王娟,曾春艳.基于深度学习的场景文本检测算法研究[J].光电子．激光,2021,32(7):728-734. 被引量：2
10王霏,黄俊,文洪伟.基于改进YOLOv3的快速文本检测[J].电讯技术,2022,62(1):130-137. 被引量：4

引证文献3

1冉煜,张莉.R-YOLOv5:自动切割的旋转的文本检测模型[J].计算机科学,2022,49(S02):637-642. 被引量：1
2金成伟.基于聚类算法的离散文本同行合并方法研究[J].通讯世界,2022,29(3):64-66.
3徐远东,熊永平,张铮,伍贵宾,张兴,王伟.基于图像边缘检测的扭曲文档矫正[J].南京大学学报（自然科学版）,2023,59(4):660-668. 被引量：2

二级引证文献3

1刘博文,何勇伟,梁立娜,张湘玉,黄少年,陈荣元.基于随机霍夫变换的扭曲票据矫正系统设计[J].电脑知识与技术,2024,20(10):30-32.
2赵微,牟大中,李夏童,屈千林,曹鹏.基于三维特征和Transformer的数字化古籍文档图像矫正[J].北京印刷学院学报,2024,32(8):66-72.
3董燕,魏铭宏,高广帅,刘洲峰,李春雷.基于双重标签分配的遥感有向目标检测方法[J].计算机科学,2024,51(S02):486-494.

1骆蓉,黄俊,黎茂锋,刘志勤.基于Word模板的复杂文档快速生成方法[J].计算机应用与软件,2020,37(10):57-63. 被引量：8
2朱亚琪.教养方式、自尊对问题青少年应对方式的影响[J].现代交际,2020(20):179-181. 被引量：2
3庞荣,来林静,张磊.网格驱动的双向图像拼接算法[J].计算机科学,2020,47(3):130-136. 被引量：6
4王思俭.深度思考之导数--坐看高考真题解锁三次函数[J].新世纪智能,2021(54):4-8.
5陈仪瑢,王蕾,赵雪焱,李雪辉.上海某大型综合医院智慧财务建设实践探索[J].中国医院,2021,25(12):75-77. 被引量：17
6何淼,王浩,黄勇,薛绍.基于图像处理的野外金属破片靶测量研究[J].弹道学报,2021,33(4):83-90.
7陈雅.信息化时代下Office二次开发的方法研究[J].科学大众（科技创新）,2020,0(4):45-45.
8王静,姚远.基于特征距离的CNN人脸识别方法的实现[J].新疆师范大学学报（自然科学版）,2021,40(2):67-70. 被引量：6
9潘劲森.多解思维,变式拓展——以2021年高考数学全国乙卷理科10题(文科12题)为例[J].中学数学（高中版）,2021(11):32-33.
10袁奇,邹翔宇,梅珊珊,孙伟莎,沈斌,乐保罗,刘畅.基于图像识别技术的高压电缆附件数字化工艺库设计与研究[J].电力与能源,2021,42(5):554-556. 被引量：3

计算机科学

2021年第12期

浏览历史

内容加载中请稍等...

基于多级文本检测的复杂文档图像扭曲矫正算法被引量：3

参考文献3

二级参考文献20

共引文献12

同被引文献13

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于多级文本检测的复杂文档图像扭曲矫正算法 被引量：3

参考文献3

二级参考文献20

共引文献12

同被引文献13

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于多级文本检测的复杂文档图像扭曲矫正算法被引量：3