DPENet:轻量化文档姿态估计网络被引量：1

DPENet:Lightweight Document Pose Estimation Network

下载PDF

导出

摘要现有的用于矫正透视倾斜变形文档的深度学习模型存在空间泛化性差、模型参数量大、推理速度慢等问题。从姿态估计的角度出发,提出一种轻量化文档姿态估计网络DPENet(lightweight document pose estimation network),以优化上述问题。将文档图像中的单一文档视为一个姿态估计对象,将文档的四个角点视为文档对象的四个姿态估计点,采用兼具全连接回归与高斯热图回归优点的DSNT(differentiable spatial to numerical transform)模块实现文档图像角点的高精度定位,并通过透视变换处理实现透视变形文档图像的高精度矫正。DPENet采用轻量化设计,以面向移动端的MobileNetV2为主干网络,模型体量只有10.6 MB。在SmartDoc-QA(仅取148张文档图像)数据集上与现有的三种主流网络进行了对比实验,实验结果表明,DPENet的矫正成功率(96.6%)和平均位移误差(mean displacement error,MDE)(1.28个像素)均优于其他三种网络,同时其平均矫正速度也有良好的表现。在保持轻量化和速度快的条件下,DPENet网络具有更高的变形文档矫正成功率和矫正精度。 Existing deep learning models for perspective skewed deformation document correction processing have prob-lems of large number of model parameters,slow inference speed and poor spatial generalization.This paper introduces a pose estimation algorithm and proposes a lightweight document pose estimation network(DPENet)to cover the weak-ness.The model treats a single document in a document image as a pose estimation object,and treats the four corner points of a document as four pose estimation points of the document object,and uses DSNT(differentiable spatial to numer-ical transform)to predict coordinates of four pose estimation points,which has advantages of both full connection regres-sion and heatmap regression,and achieves high-precision localization of document images corner points,and implements high-precision correction of the perspective deformed document image by perspective transformation processing.DPENet adopts lightweight design which uses MobileNet V2 as the backbone network,so that DPENet has a small volume which is only 10.6 MB.Compared with three mainstream networks on SmartDoc-QA(148 images),the correction success rate(96.6%)and the mean displacement error(MDE)(1.28 pixels)of DPENet are better than the other three networks,while its average correction speed also has good performance.The DPENet has higher correction success rate and correction accuracy for deformed documents while maintaining light weight and fast speed.

作者韩晶吕学强张祥祥郝伟张凯 HAN Jing;LYU Xueqiang;ZHANG Xiangxiang;HAO Wei;ZHANG Kai(Beijing Key Laboratory of Internet Culture and Digital Dissemination,Beijing Information Science and Technology University,Beijing 100101,China;Research Center for Language Intelligence of China,Capital Normal University,Beijing 100048,China)

机构地区北京信息科技大学网络文化与数字传播北京市重点实验室首都师范大学中国语言智能研究中心

出处《计算机工程与应用》 CSCD 北大核心 2022年第22期210-218,共9页 Computer Engineering and Applications

基金国家重点研发计划(2017YFC0805006) 北京市自然科学基金(4212020) 北京市教委科研计划(KM202111232001) 北京信息科技大学网络文化与数字传播北京市重点实验室开放课题(20220010001)。

关键词姿态估计深度学习文档图像矫正轻量化网络 MobileNetV2 pose estimation deep learning document image rectification lightweight network MobileNet V2

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1兰天翔,向子彧,刘名果,陈凯.融合U-Net及MobileNet-V2的快速语义分割网络[J].计算机工程与应用,2021,57(17):175-180. 被引量：7
2柳长源,王琪,毕晓君.多目标小尺度车辆目标检测方法[J].控制与决策,2021,36(11):2707-2712. 被引量：27
3张祥祥,吕学强,韩晶,游新冬,张凯.TIMR:模板图像匹配矫正[J].小型微型计算机系统,2022,43(4):807-814. 被引量：2

二级参考文献10

1刘婀娜,罗予频,华成英.变形文档图像的矫正方法研究[J].微计算机信息,2007,23(3):260-262. 被引量：5
2尚新萍,兰瑛.一种新的基于Hough变换的文档图像倾斜矫正方法[J].科技信息,2007(19):73-74. 被引量：4
3杜金辉,管业鹏,叶勇,时勇杰,夏慧明.一种快速稳定的倾斜文档校正方法[J].电子器件,2011,34(5):566-570. 被引量：2
4冯雷,耿英楠.基于hough变换的倾斜文档图像快速校正[J].内蒙古师范大学学报（自然科学汉文版）,2017,46(2):219-222. 被引量：12
5张富凯,杨峰,李策.基于改进YOLOv3的快速车辆检测方法[J].计算机工程与应用,2019,55(2):12-20. 被引量：104
6邝辉宇,吴俊君.基于深度学习的图像语义分割技术研究综述[J].计算机工程与应用,2019,55(19):12-21. 被引量：49
7杨剑锋,王润民,何璇,李秀梅,钱盛友.基于FCN的多方向自然场景文字检测方法[J].计算机工程与应用,2020,56(2):164-170. 被引量：13
8边后琴,张皓霖,黄福珍.局部二值描述子的研究进展综述[J].图学学报,2020,41(2):254-261. 被引量：4
9李会军,王瀚洋,李杨,叶宾.一种基于视觉特征区域建议的目标检测方法[J].控制与决策,2020,35(6):1323-1328. 被引量：7
10徐子豪,黄伟泉,王胤.基于深度学习的监控视频中多类别车辆检测[J].计算机应用,2019,39(3):700-705. 被引量：23

共引文献33

1李震霄,孙伟,刘明明,郑丽丽,陈劭颖.交通监控场景中的车辆检测与跟踪算法研究[J].计算机工程与应用,2021,57(8):103-111. 被引量：21
2李文逵,韩俊英.基于一种轻量级卷积神经网络的植物叶片图像识别研究[J].软件工程,2022,25(2):10-13. 被引量：7
3胡漫,曹继华,李士心,彭芙蓉.改进YOLOv3和DeepSort的多目标跟踪算法[J].天津职业技术师范大学学报,2022,32(1):52-57. 被引量：2
4孙东来,王继超,陈科,孙士尉,刘昕彤,周闻天.基于Ghost-YOLOv3-2算法的2尺度猪目标检测[J].江苏农业科学,2022,50(7):189-196. 被引量：3
5熊正午,吴瑞梅,黄俊仕,李霸聪,戴仕明,艾施荣.深度学习结合快速导向滤波识别自然环境下脐橙果实[J].江西农业大学学报,2022,44(3):736-746. 被引量：4
6杨启明,王洪超,刘少柱,温玉芬,魏来.油气管道线路智能监控管理平台设计开发[J].石油化工自动化,2022,58(3):23-26.
7赵章焰,沈齐越.基于改进Unet的起重机攀爬机器人车道识别[J].起重运输机械,2022(12):64-68. 被引量：1
8田月媛,邓淼磊,高辉,张德贤.基于深度学习的人群计数算法综述[J].电子测量技术,2022,45(7):152-159. 被引量：4
9黄志强,李军,张世义.基于轻量级神经网络的目标检测研究[J].计算机工程与科学,2022,44(7):1265-1272. 被引量：2
10石敏,沈佳林,易清明,骆爱文.快速超轻量城市交通场景语义分割[J].计算机科学与探索,2022,16(10):2377-2386. 被引量：7

同被引文献2

1尚新萍,兰瑛.一种新的基于Hough变换的文档图像倾斜矫正方法[J].科技信息,2007(19):73-74. 被引量：4
2冯雷,耿英楠.基于hough变换的倾斜文档图像快速校正[J].内蒙古师范大学学报（自然科学汉文版）,2017,46(2):219-222. 被引量：12

引证文献1

1吕学强,郝伟,韩晶.一种面向缺角文档图像的矫正网络[J].北京信息科技大学学报（自然科学版）,2023,38(1):40-47.

1石少华,伊力哈木·亚尔买买提.基于残差连接的高帧率Siamese目标跟踪算法[J].机床与液压,2022,50(19):1-8.
2王道累,肖佳威,李建康,朱瑞.基于深度学习的立体影像视差估计方法综述[J].计算机工程与应用,2022,58(20):16-27. 被引量：1
3李红帅,罗笑南,邓春贵,钟艳如.基于LM算法的运动相机与激光雷达联合标定方法[J].桂林电子科技大学学报,2022,42(5):345-353. 被引量：7
4赵凤,李永恒,李晶,刘汉强.基于改进YOLOv4-tiny的轻量化室内人员目标检测算法[J].电子与信息学报,2022,44(11):3815-3824. 被引量：6
5李晔彬,刘娟秀,王旭东,王兴国.基于深度学习的微观芯片字符识别系统[J].兵器装备工程学报,2022,43(7):25-31. 被引量：1
6Shangyou Zhang.On the Full C_(1)-Q_(k) Finite Element Spaces on Rectangles and Cuboids[J].Advances in Applied Mathematics and Mechanics,2010,2(6):701-721. 被引量：2
7Jiaqi Yang,Zhiqiang Huang,Siwen Quan,Zhiguo Cao,Yanning Zhang.RANSACs for 3D Rigid Registration:A Comparative Evaluation[J].IEEE/CAA Journal of Automatica Sinica,2022,9(10):1861-1878. 被引量：2
8蔡剑锋,柏俊杰,向洪成,胡林,周涛琪,高帅.基于异域数据联邦学习的金属板表面划痕检测[J].安阳工学院学报,2022,21(6):40-44. 被引量：1
9Yu-Ren LIU,Yi-Qi HU,Hong QIAN,Chao QIAN,Yang YU.ZOOpt:a toolbox for derivative-free optimization[J].Science China(Information Sciences),2022,65(10):289-290. 被引量：3
10Ruiqi Sun,Qin Zhang,Chuang Luo,Jiamin Guo,Hui Chai.Human action recognition using a convolutional neural network based on skeleton heatmaps from two-stage pose estimation[J].Biomimetic Intelligence & Robotics,2022,2(3):22-33.

计算机工程与应用

2022年第22期

浏览历史

内容加载中请稍等...

DPENet:轻量化文档姿态估计网络被引量：1

参考文献3

二级参考文献10

共引文献33

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

DPENet:轻量化文档姿态估计网络 被引量：1

参考文献3

二级参考文献10

共引文献33

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

DPENet:轻量化文档姿态估计网络被引量：1