基于改进U⁃Net的低质量文本图像二值化被引量：2

Degraded Document Image Binarization Based on Improved U-Net

下载PDF

导出

摘要文本图像二值化是光学字符识别的关键步骤,但低质量文本图像背景噪声复杂,且图像全局上下文信息以及深层抽象信息难以获取,使得最终的二值化结果中文字区域分割不精确、文字的形状和轮廓等特征表达不足,从而导致二值化效果不佳。为此,提出一种基于改进U-Net网络的低质量文本图像二值化方法。采用适合小数据集的分割网络U-Net作为骨干模型,选择预训练的VGG16作为U-Net的编码器以提升模型的特征提取能力。通过融合轻量级全局上下文块的U-Net瓶颈层实现特征图的全局上下文建模。在U-Net解码器的各上采样块中融合残差跳跃连接,以提升模型的特征还原能力。从上述编码器、瓶颈层和解码器3个方面分别对U-Net进行改进,从而实现更精确的文本图像二值化。在DIBCO 2016—2018数据集上的实验结果表明,相较Otsu、Sauvola等方法,该方法能够实现更好的去噪效果,其二值化结果中保留了更多的细节特征,文字的形状和轮廓更精确、清晰。 Text image binarization is a key step in Optical Character Recognition(OCR). However,the complex background noise of a degraded text image makes the extraction of its global context information and deep abstract information difficult.This results in an inaccurate segmentation of the text region and insufficient expression of features,such as text shape and contour,because of a poor binarization effect. Therefore,this paper proposes a binarization method for degraded text images based on an improved U-Net network.The segmentation network U-Net is suitable as a backbone model for small datasets,and a pretrained VGG16 is selected as the U-Net encoder to improve the model’s feature extraction ability.The U-Net bottleneck layer of a lightweight global context block is fused to realize the global context modeling of feature graphs. The residual skip connection is fused in each upper sampling block of the U-Net decoder to improve the model’s feature restoration ability. U-Net’s improvement is based on the aforementioned three aspects:encoder,bottleneck layer,and decoder,to realize a more accurate text image binarization. Experimental results on the DIBCO 2016-2018 datasets show that the proposed method can achieve a better denoising effect,retain more detailed features in the binarization results,and provide a better delineation of characters in terms of accuracy and clarity than Otsu,Sauvola,and other methods.

作者王红霞何国昌李玉强陈德山 WANG Hongxia;HE Guochang;LI Yuqiang;CHEN Deshan(School of Computer Science and Technology,Wuhan University of Technology,Wuhan 430063,China;Intelligent Transportation System Research Center,Wuhan University of Technology,Wuhan 430063,China)

机构地区武汉理工大学计算机科学与技术学院武汉理工大学智能交通系统研究中心

出处《计算机工程》 CAS CSCD 北大核心 2022年第4期231-239,共9页 Computer Engineering

基金国家青年科学基金项目“基于多约束三维重构的低分辨率前视声呐目标探测研究”(51609193)。

关键词文本图像二值化 U-Net网络全局上下文残差跳跃连接 DIBCO数据集 document image binarization U-Net network global context residual skip connection DIBCO dataset

分类号 TP751 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献1

1熊炜,王鑫睿,王娟,刘敏,曾春艳.融合背景估计与U-Net的文档图像二值化算法[J].计算机应用研究,2020,37(3):896-900. 被引量：9

共引文献8

1张铮,熊盛辉,王孙强,胡凌辉.基于机器视觉的香蕉果肉缺陷预测方法[J].食品与机械,2020,36(7):150-154. 被引量：9
2芶小珊,黄兴禄,王文杰.模板匹配下图像局部视觉背景分割方法仿真[J].计算机仿真,2022,39(12):235-239. 被引量：3
3宋红毅.基于自适应投影的三维人体运动图像智能检测[J].吉林大学学报（信息科学版）,2023,41(1):151-157.
4范长俊,曲骅,谢超文.智能变电站视觉监控模型的仿真设计与实现[J].自动化与仪器仪表,2023(3):255-259.
5纪永.基于机器视觉的加热炉内异常情况图像识别方法研究[J].工业加热,2023,52(3):80-84. 被引量：5
6鄢琳.基于增强现实的交互式产品三维虚拟展示设计[J].信息技术,2024,48(1):85-90.
7何灏,张海民.基于纹理增强和细化的可见光图像互信息边缘提取研究[J].长春工程学院学报（自然科学版）,2024,25(2):102-108.
8孙列,董富江.基于传感信号的工业机器人抛光加工位姿控制[J].传感技术学报,2024,37(8):1369-1376.

同被引文献14

1牛敏,邬战军,牛燕雄,杨露,许冰,耿天琪.一种基于排序统计理论的快速图像中值滤波法[J].电子测量技术,2015,38(6):60-63. 被引量：20
2陈明.基于邻域信息的色彩传递算法的研究和实现[J].长春工程学院学报（自然科学版）,2018,19(4):85-89. 被引量：1
3张阳伟,李成凤,佟良,张丰.嵌入式远程视频监控系统[J].测控技术,2018,37(12):137-140. 被引量：3
4乐英,赵志成.基于背景差分法的多运动目标检测与分割[J].中国工程机械学报,2020,18(4):305-309. 被引量：25
5王志芬,贾伟宽,牟善昊,侯素娟,印祥,ZE Ji.基于核优化密度聚类的绿色苹果分割算法[J].光谱学与光谱分析,2021,41(9):2980-2988. 被引量：2
6黄小华,苏燕.基于Android的远程视频监控系统的设计与实现[J].电子元器件与信息技术,2021,5(7):205-206. 被引量：3
7王波,李梦翔,刘侠.基于改进U-Net网络的甲状腺结节超声图像分割方法[J].电子与信息学报,2022,44(2):514-522. 被引量：12
8杨蕴,李玉,赵泉华.基于局部空间信息的可变类模糊阈值光学遥感图像分割[J].自动化学报,2022,48(2):582-593. 被引量：9
9耿磊,史瑞资,刘彦北,肖志涛,吴骏,张芳.基于多重感受野UNet的仪表图像分割方法[J].计算机工程与设计,2022,43(3):771-777. 被引量：12
10徐昌佳,易见兵,曹锋,方旺盛.采用DoubleUNet网络的结直肠息肉分割算法[J].光学精密工程,2022,30(8):970-983. 被引量：10

引证文献2

1梁瑞庆.远程视频技术在发电厂安全生产中的应用[J].电力设备管理,2023(3):182-184.
2陈小娥,陈德涛.基于多颜色空间融合的图像分割算法研究与改进[J].闽江学院学报,2023,44(5):44-50.

1刘高杰,黄亚宇,张崇崇.基于图像处理的打叶参数研究[J].农业装备与车辆工程,2022,60(3):87-91.
2郭战岭,徐雷,冉光再,陈建华.基于ORB算法及图像差分的PCB缺陷检测[J].数字技术与应用,2022,40(3):38-41. 被引量：3
3宋宝玉,王波涛.基于树莓派嵌入式平台的车道线检测算法[J].电子测量技术,2021,44(23):93-98. 被引量：11
4屈亚林,陶廷婷.能谱CT最佳单能量成像联合ASIR技术对子宫动脉图像质量的优化[J].中南医学科学杂志,2021,49(6):672-675. 被引量：1
5余沿臻,邱志斌,周银彪,朱轩,王青.基于卷积神经网络与ECOC-SVM的输电线路异物检测[J].智慧电力,2022,50(3):87-92. 被引量：15
6刘明.专业LED光源的发展及应用[J].黑龙江广播电视技术,2021(1):20-24.
7曲超然,陈立伟,王建生,王水根.基于深度学习的工业数字仪表识别算法研究[J].应用科技,2022,49(2):100-105. 被引量：6
8潘井宝,闫立新,梁宏霞,张显雨.数字化技术与碳排放领域的深度融合[J].内蒙古科技与经济,2022(3):93-94.
9甘建红,李炜.M型超声心动图中左室射血分数自动计算方法[J].成都信息工程大学学报,2021,36(6):624-628. 被引量：4
10李晓玉,宋永红,余涛.结合感受野增强和全卷积网络的场景文字检测方法[J].自动化学报,2022,48(3):797-807. 被引量：6

计算机工程

2022年第4期

浏览历史

内容加载中请稍等...

基于改进U⁃Net的低质量文本图像二值化被引量：2

参考文献1

共引文献8

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于改进U⁃Net的低质量文本图像二值化 被引量：2

参考文献1

共引文献8

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于改进U⁃Net的低质量文本图像二值化被引量：2