基于残差连接的场景文本识别端到端网络结构优化被引量：1

End-to-end Network Structure Optimization of Scene Text Recognition Based on Residual Connection

下载PDF

导出

摘要针对已有文本识别网络由于深度不够而识别准确率较低的问题,文中提出一种改进的端到端文本识别网络结构。首先,将文本作为序列,采用残差模块将文本按列切分成特征向量输入循环层。这种残差结构增加了卷积网络的深度,使网络保持对文本图像的最佳表征能力,实现对文本信息的捕捉。另一方面,残差模块采用堆叠层来学习残差映射,在层数加深的情况下提高了网络的收敛性。然后,采用循环层对这些文本特征序列进行上下文建模,并把建模结果输入Softmax层以获得序列对应标签的预测,实现了对任意长度文本的识别。循环层使用长短时记忆网络学习文本之间的依赖关系,解决长序列训练过程中的“梯度消失”问题。最后,通过最优路径方法进行文本标签转录。该方法找到一条路径使其概率最大,并输出这条路径对应的序列为最优序列。改进的文本识别网络结构增加了深度,提高了文本图像的特征描述能力和在噪声下的稳定性。在多个测试数据集(ICDAR2003,ICDAR2013,SVT和IIIT5K)上将所提算法与已有典型算法进行实验对比分析,结果表明该网络结构能够得到更高的场景文本识别准确率,验证了其有效性。 The existing text recognition methods will cause decreased recognition accuracy due to not enough network depth.The paper addresses this issue and proposes an improved end-to-end text recognition network structure.Firstly,the algorithm takes the text as a sequence,and uses the residual module to divide the text into columns for the recurrent layer.This residual structure increases network depth,to maintain the network’s best representation of the text image.It can capture the best feature representation of text images.Meanwhile,the residual module uses the stacked layer to learn the residual mapping to improve the convergence of the network though the number of layers is obviously increased.Secondly,we use the recurrent layer to model the context of these text features,and the modeling results will be taken into the softmax layer to predict corresponding labels,which achieve the recognition of arbitrary length of texts.The recurrent layer uses the Long Short-Term Memory to learn the dependencies between texts and solve the gradient vanishing problem in long sequence training.Finally,text label transcription and decoding are performed by the optimal path method.The method finds a path to maximize its probability,and outputs the sequence corresponding to the path as the optimal sequence.The improved text recognition network structure increases network depth,improves the feature description of text images and the stability under noises.In the experimental part,this paper compares with existing typical algorithms over the multiple test datasets(ICDAR2003,ICDAR2013,SVT and IIIT5K).The experiments show that the network structure can obtain better text recognition accuracy and verify the effectiveness of the proposed network structure.

作者黄金星潘翔郑河荣 HUANG Jin-xing;PAN Xiang;ZHENG He-rong(College of Computer Science and Technology,Zhejiang University of Technology,Hangzhou 310023,China)

机构地区浙江工业大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2020年第8期221-226,共6页 Computer Science

基金国家自然科学基金(61871350)

关键词残差连接场景文本识别堆叠层网络深度最优路径 Residual connection Scene text recognition Stacked layer Network depth Optimal path

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献7

1王阳,李振东,杨观赐.基于深度学习的OCR文字识别在银行业的应用研究[J].计算机应用研究,2020,37(S02):375-379. 被引量：22
2蒋宗礼,李苗苗,张津丽.基于融合元路径图卷积的异质网络表示学习[J].计算机科学,2020,47(7):231-235. 被引量：4
3王德青,吾守尔·斯拉木,许苗苗.场景文字识别技术研究综述[J].计算机工程与应用,2020,56(18):1-15. 被引量：19
4邹北骥,杨文君,刘姝,姜灵子.面向自然场景图像的三阶段文字识别框架[J].浙江大学学报（理学版）,2021,48(1):1-8. 被引量：5
5杨秀璋,武帅,夏换,于小民.基于自适应图像增强技术的水族文字提取与识别研究[J].计算机科学,2021,48(S01):74-79. 被引量：13
6苏向敬,山衍浩,周汶鑫,符杨.基于GRU和注意力机制的海上风机齿轮箱状态监测[J].电力系统保护与控制,2021,49(24):141-149. 被引量：29
7刘艳菊,伊鑫海,李炎阁,张惠玉,刘彦忠.深度学习在场景文字识别技术中的应用综述[J].计算机工程与应用,2022,58(4):52-63. 被引量：15

引证文献1

1任红梅.融合GCN和注意力机制的复杂场景文字识别研究[J].佳木斯大学学报（自然科学版）,2022,40(6):134-138.

1王欢,朱文球,吴岳忠,何频捷,万烂军.基于数控机床设备故障领域的命名实体识别[J].工程科学学报,2020,42(4):476-482. 被引量：12
2王静.小学高年级语文阅读能力培养路径探析[J].语文新读写,2020(4):173-173.
3次仁央宗,崔凯军.《2019 ESC室上性心动过速患者管理指南》解读[J].心血管病学进展,2020,41(5):531-536. 被引量：5
4钱菊英.解读欧洲心脏病学会最新指南,关注影像学技术在冠状动脉性心脏病诊治中的应用[J].上海医学,2019,42(12):705-706.
5王文璇,王建邱,郑众,侯剑辉.叠层结构的有机太阳能电池研究进展[J].化学学报,2020,78(5):382-396. 被引量：11
6郭闯,邱晓晖.基于BLSTM网络的改进EAST文本检测算法[J].计算机技术与发展,2020,30(7):21-24. 被引量：4
7赵平,孙连英,万莹,葛娜.基于BERT+BiLSTM+CRF的中文景点命名实体识别[J].计算机系统应用,2020,29(6):169-174. 被引量：17
8刘佳,王杰.无人水面艇避障路径规划算法综述[J].计算机应用与软件,2020,37(8):1-10. 被引量：14
9徐铖斌,徐平,葛茂军,刘晓庆.基于机器学习的结直肠手术部位感染预测模型建立[J].华西医学,2020,35(7):827-832. 被引量：3
10刘少稳.2019年欧洲心脏病学会室上性心动过速管理指南解读[J].上海医学,2019,42(12):734-737. 被引量：1

计算机科学

2020年第8期

浏览历史

内容加载中请稍等...

基于残差连接的场景文本识别端到端网络结构优化被引量：1

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于残差连接的场景文本识别端到端网络结构优化 被引量：1

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于残差连接的场景文本识别端到端网络结构优化被引量：1