基于Transformer的证件图像无检测文字识别被引量：3

Non-detection text recognition of certificate image based on Transformer

下载PDF

导出

摘要深度学习在图像识别的现存模型中,都有检测和识别两个过程,且需借助复杂的网络结构、大量的文本框标注来提高识别准确率。文中针对存在的问题提出了一个简单且鲁棒性强的证件图片无检测文字识别方法,通过嵌入二维特征图中不同序列位置的水平、竖直方向位置编码,将不同子空间的特征表达连接到序列解码器,解码器部分加入了全局上下文模块,网络模型能并行训练并可以快速收敛,通过插入特殊符号直接得到结构化的字段,简化了信息后处理流程,单张图片识别时间在122ms左右。测试结果表明,模型在身份证扫描件文本图像识别上表现出优越的性能。 The existing models of deep learning in image recognition have two steps,including detection and recognition,and use the complex network structure and a large number of bounding box annotations to improve the recognition accuracy.The paper proposes a simple and robust method of non-detection text recognition for certificate image.This method directly embeds the horizontal and vertical position coding of different sequence positions in the two-dimensional feature map,and connects the feature expression of different subspaces to the sequence decoder.The decoder part is added with the global context module.The network model can be trained in parallel and can be converged quickly.Moreover,the structured text field can be readily obtained by inserting special symbols,which simplifies the information post-processing process.The recognition time of a single image is about 122ms.The test results show that the model has excellent performance in text image recognition of scanned ID card.

作者肖慧辉张东波王旺王家奎 XIAO Hui-hui;ZHANG Dong-bo;WANG Wang;WANG Jia-kui(School of Automation and Electronic Information,Xiangtan University,Xiangtan 411100,Hunan Province,China;Wuhan Veilytech Co.,Ltd.,Wuhan 430000,China)

机构地区湘潭大学自动化与电子信息学院武汉唯理科技有限公司

出处《信息技术》 2021年第6期78-85,90,共9页 Information Technology

关键词 TRANSFORMER 端到端模型无检测文字识别全局上下文二维位置编码 Transformer end-to-end model non detect text recognition Global Context two-dimensional position encoding

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图象图形学报,2014,19(2):175-184. 被引量：147

二级参考文献40

1Lowe D G. Distinctive image features from scale-invariant keypoints[J].{H}International Journal of Computer Vision,2004,(2):91-110.
2Dalal N,Triggs B. Histograms of oriented gradients for human detection[A].San Diego,CA,USA:IEEE,2005.886-893.
3Ojala T,Pietikainen M,Harwood D. Performance evaluation of texture measures with classification based on Kullback discrimination of distributions[A].Jerusalem,Irsael:IEEE,1994.582-585.
4Matas J,Chum O,Urban M. Robust wide-baseline stereo from maximally stable extremal regions[J].{H}IMAGE AND VISION COMPUTING,2004,(10):761-767.
5Hinton G E,Osindero S,Teh Y W. A fast learning algorithm for deep belief nets[J].{H}Neural Computation,2006,(7):1527-1554.
6Hinton G E. Learning multiple layers of representation[J].{H}Trends in Cognitive Sciences,2007,(10):428-434.
7Hinton G E,Zemel R S. Autoencoders,minimum description length,and Helmholtz free energy[A].Burlington,USA:Morgan Kaufmann,1994.3-10.
8Rumelhart D E,Hinton G E,Williams R J. Learning Representations by Back-Propagating Errors[M].Cogmitive Modeling:MIT Press,2002.213.
9Vincent P,Larochelle H,Bengio Y. Extracting and composing robust features with denoising autoencoders[A].New York,NY,USA:ACM,2008.1096-1103.
10Lee H,Grosse R,Ranganath R. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[A].New York,NY,USA:ACM,2009.609-616.

共引文献146

1谈咏东,王永雄,陈姝意,缪银龙.(2+1)D多时空信息融合模型及在行为识别的应用[J].信息与控制,2019,48(6):715-722. 被引量：3
2张常泉.基于深度学习的智能视频图像分析研究[J].计算机产品与流通,2019,0(12):177-177.
3章毓晋.中国图像工程:2013[J].中国图象图形学报,2014,19(5):649-658. 被引量：12
4陆萍,陈志峰,施连敏.RBM学习方法对比[J].计算机时代,2014(11):10-13. 被引量：4
5章毓晋.中国图像工程:2014[J].中国图象图形学报,2015,20(5):585-598. 被引量：12
6詹曙,臧怀娟,相桂芳.基于协作表示残差融合的3维人脸识别[J].中国图象图形学报,2015,20(5):700-707. 被引量：2
7黄琳,张尤赛.应用深层卷积神经网络的交通标志识别[J].现代电子技术,2015,38(13):101-106. 被引量：18
8程帅,曹永刚,孙俊喜,赵立荣,刘广文,韩广良.基于增强群跟踪器和深度学习的目标跟踪[J].电子与信息学报,2015,37(7):1646-1653. 被引量：2
9刘琮,许维胜,吴启迪.时空域深度卷积神经网络及其在行为识别上的应用[J].计算机科学,2015,42(7):245-249. 被引量：24
10康晓东,王昊,郭军,于文勇.无监督深度学习彩色图像识别方法[J].计算机应用,2015,35(9):2636-2639. 被引量：20

同被引文献24

1胡祖志,胡祥云.大地电磁三维反演方法综述[J].地球物理学进展,2005,20(1):214-220. 被引量：50
2张荣峰.采用生物遗传算法的大地电磁测深资料反演[J].物探化探计算技术,1996,18(1):67-70. 被引量：3
3徐海浪,吴小平.电阻率二维神经网络反演[J].地球物理学报,2006,49(2):584-589. 被引量：73
4王家映.地球物理资料非线性反演方法讲座(二) 蒙特卡洛法[J].工程地球物理学报,2007,4(2):81-85. 被引量：31
5朱培民,王家映.地球物理资料非线性反演方法讲座(六) 共轭梯度法[J].工程地球物理学报,2008,5(4):381-386. 被引量：16
6师学明,王家映.一维层状介质大地电磁模拟退火反演法[J].地球科学（中国地质大学学报）,1998,23(5):542-546. 被引量：50
7戴前伟,江沸菠.基于混沌振荡PSO-BP算法的电阻率层析成像非线性反演[J].中国有色金属学报,2013,23(10):2897-2904. 被引量：19
8李创社,张彦鹏,李实,张立新.瞬变电磁勘探中的人工神经网络反演法[J].西安交通大学学报,2001,35(6):604-607. 被引量：13
9汤井田,任政勇,周聪,张林成,原源,肖晓.浅部频率域电磁勘探方法综述[J].地球物理学报,2015,58(8):2681-2705. 被引量：77
10尹彬,胡祥云.非线性反演的贝叶斯方法研究综述[J].地球物理学进展,2016,31(3):1027-1032. 被引量：14

引证文献3

1黄率.基于PYQT5的AI图像识别工具[J].现代工业经济和信息化,2023,13(1):90-91. 被引量：4
2刘高村,王绪本,袁崇鑫,李德伟,谢卓良.Transformer网络在大地电磁反演成像中的应用[J].物探化探计算技术,2023,45(4):484-496. 被引量：2
3王文尚,高凡,侯冰莹,王林琳,冯佑.基于多层感知机的ATM英文凭单识别[J].信息技术,2024,48(5):144-148.

二级引证文献6

1薛荣辉,刘星星,王楠.计算机智能化图像识别技术探讨[J].信息记录材料,2023,24(8):98-100. 被引量：2
2张武.基于Pyinstaller+PyQt5的Python打包可视化研究与应用[J].湖南邮电职业技术学院学报,2023,22(4):44-47. 被引量：2
3王宇璇,屈忠义,白燕英,刘霞,刘全明,刘琦.基于Sentinel-2影像的黄河南岸典型改良示范区土壤含盐量反演模型[J].农业机械学报,2024,55(4):290-299. 被引量：1
4徐凯军,卢炎,王大勇,石双虎.基于深度学习的大地电磁二维反演研究[J].石油地球物理勘探,2024,59(5):1174-1183.
5侯成林,许元男,陈万春,孟偲.基于FlightSim和PyQt的电视制导系统仿真[J].飞行力学,2024,42(5):89-94.
6周游,李泽萌,于欣琪,王晓春,周盛.基于改进YOLOv5s的眼科超声影像病灶区域检测方法研究[J].医疗卫生装备,2024,45(11):1-7.

1英姿.大脑衰老或是这个基因在作怪[J].老同志之友（上半月）,2020,0(3):54-54.
2杨颢,徐清,邵帮丽,奚雪峰,付保川.一种基于端到端模型的中文句法分析方法[J].苏州科技大学学报（自然科学版）,2021,38(2):77-84. 被引量：2
3李青,赵唱,鞠永慧,何鑫泰,张健.基于深度学习的不均衡网络数据分类技术研究[J].信息工程大学学报,2021,22(2):215-221. 被引量：3
4吕俊霖,麦嘉铭,熊浩,蔡海真.基于深度学习的鱼类智能识别系统的设计与实现[J].渔业现代化,2021,48(3):90-96. 被引量：6
5雷世威,肖兴美,张明.基于改进YOLOv3的煤矸识别方法研究[J].矿业安全与环保,2021,48(3):50-55. 被引量：20
6阳超,卢雅欣,何锁宋,张雪松,张浩,王玉锁.砂卵石地层盾构隧道下穿铁路桥施工影响分析[J].四川建筑,2021,41(2):103-106. 被引量：4
7陈超,秦登林,赵升吨,高小雷,李海君.1600kN精压机工作机构的力学分析[J].塑性工程学报,2021,28(5):53-61. 被引量：3
8熊颢,雷迎科,吴子龙.对GMR-1系统逻辑信道的灵巧式干扰技术[J].弹箭与制导学报,2021,41(2):120-124.
9孔宁宁,朱海清,李天津.阀体搬运自动导向车轨迹跟踪控制[J].轻工机械,2021,39(3):49-53.

信息技术

2021年第6期

浏览历史

内容加载中请稍等...

基于Transformer的证件图像无检测文字识别被引量：3

参考文献1

二级参考文献40

共引文献146

同被引文献24

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Transformer的证件图像无检测文字识别 被引量：3

参考文献1

二级参考文献40

共引文献146

同被引文献24

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Transformer的证件图像无检测文字识别被引量：3