基于错误纠正模块的场景文本识别算法

Scene Text Recognition Algorithm Based on the Error Correction Module

下载PDF

导出

摘要近年来,场景文本识别技术得到了飞速发展.然而,由于不规则场景文本图像中经常存在诸如杂物遮挡、分布扭曲、光照不足等视觉障碍,使得现有方法不能对单词中某些字符进行准确识别,进而产生较多的错误识别.为了解决这一问题,本文提出了一种基于错误纠正(error correction,EC)模块的场景文本识别算法.与现有算法中的纠错模块不同,所提出的EC模块是一个序列到序列的预测模型.在EC模块的编解码结构中增加了多单元注意力机制,能够更加关注特征图中的一些重要信息.EC模块可直接从纯文本中学习语义信息,用于纠正拼写错误的文本.此外,提出了一种基于场景文本识别的多特征(multi-feature,MF)提取器,该提取器由5个MF单元组成,可分别从Resnet-45后5个模块的输出中提取特征信息.与传统的方法相比,MF提取器可以从不同深度挖掘更加丰富的图像信息.在7个数据集上的对比实验结果表明,与当前先进方法相比,所提算法在性能上具有明显的优势. Recently,the scene text recognition technology has achieved rapid development.However,in irregular datasets,the existing methods may fail to recognize some part of a word due to some visual obstacles,such as oc-clusion,distortion,and poor illumination,resulting in false recognition.To solve this problem,we propose a scene text recognition algorithm based on an error correction(EC)module.Unlike the existing approaches,the pro-posed EC module is a sequence-to-sequence prediction model by adding a multi-unit attention mechanism to the en-coding-decoding structure to pay more attention to the important information in the feature map.Our EC module can gather the semantic information from the pure texts and then correct the predicted results on this basis.Besides,we propose a multi-feature(MF)extractor for scene text recognition,which can extract features from the last five blocks’output of Resnet-45.Compared with the traditional methods,the MF extractor can extract more image information at different depths.Extensive experimental comparative findings on seven datasets demonstrate that our algorithm can achieve the most advanced performance compared with the state-of-the-art ones.

作者于洁潇张大壮何凯 Yu Jiexiao;Zhang Dazhuang;He Kai(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)

机构地区天津大学电气自动化与信息工程学院

出处《天津大学学报（自然科学与工程技术版）》 EI CAS CSCD 北大核心 2023年第4期400-407,共8页 Journal of Tianjin University：Science and Technology

基金国家自然科学基金资助项目(62171314).

关键词场景文本识别语义信息纠错多特征提取深度学习 scene text recognition(STR) semantic error correction(SEC) multi-feature(MF)extraction deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1何凯,马红悦,冯旭,刘坤.基于改进VGG-16模型的英文笔迹鉴别方法[J].天津大学学报（自然科学与工程技术版）,2020,53(9):984-990. 被引量：7

二级参考文献3

1陈使明,王以松.一种鲁棒的离线笔迹鉴别方法[J].自动化学报,2020,46(1):108-116. 被引量：6
2张建明,王伟,陆朝铨,李旭东.基于压缩卷积神经网络的交通标志分类算法[J].华中科技大学学报（自然科学版）,2019,47(1):103-108. 被引量：12
3侯志强,韩崇昭,左东广,郑林.基于局部多结构元素数学形态学的灰度图像边缘检测算法[J].西安交通大学学报,2003,37(4):439-440. 被引量：36

共引文献6

1李思寒,仇怀利,吴佳,沈彦.基于卷积神经网络的漏液视觉检测[J].液晶与显示,2021,36(5):741-750. 被引量：3
2原忠虎,王维,苏宝玲.基于改进VGGNet模型的外来入侵植物叶片识别方法[J].计算机与现代化,2021(9):7-11. 被引量：7
3王子阳,王江涛,李飞杨.动态光照环境下基于轻量网络的磁瓦正反面识别[J].佳木斯大学学报（自然科学版）,2021,39(6):42-47. 被引量：1
4卓天天,桑庆兵.注意力机制与复合卷积在手写识别中的应用[J].计算机科学与探索,2022,16(4):888-897. 被引量：7
5毛颖裕,张怡龙,王海霞.基于多流卷积神经网络的中文笔迹鉴别研究[J].高技术通讯,2023,33(8):849-859.
6刘骁佳,曹立俊,刘欢,王飞,危荃.基于改进的VGG-16网络结构的焊缝缺陷识别技术研究[J].航天制造技术,2024(2):55-59.

1纪超,王亮,王孝敬,李小兵,曹雯.基于MSSA-SVM的电缆隧道故障预警系统设计[J].工程设计学报,2023,30(1):109-116. 被引量：2
2代云锋,刘丽娜.结合改进混合卷积模型的遥感影像变化检测[J].遥感信息,2022,37(6):53-59. 被引量：1
3周燕,韦勤彬,廖俊玮,曾凡智,冯文婕,刘翔宇,周月霞.自然场景文本检测与端到端识别:深度学习方法[J].计算机科学与探索,2023,17(3):577-594. 被引量：8
4周冲浩,顾勇翔,彭程.基于多尺度特征融合的自然场景文本检测[J].计算机应用,2022,42(S02):31-35. 被引量：2
5马艺舒,余艳梅,陶青川.基于自适应特征融合的场景文本检测[J].现代计算机,2023,29(1):34-38.
6严春满,王铖.基于特征增强的SAR图像舰船小目标检测算法[J].控制与决策,2023,38(1):239-247. 被引量：3
7丁聪,许冲.基于AKAZE算法及注意力机制的图像字幕生成方法[J].信息与电脑,2022,34(22):62-66.
8何滢婕,刘月峰,边浩东,郭威,张小燕.基于Informer的电池荷电状态估算及其稀疏优化方法[J].电子学报,2023,51(1):50-56. 被引量：2
9尚子超,牛映媛.信息化系统中计量符号、单位及不确定度存储与表达方式的研究[J].中文科技期刊数据库（全文版）工程技术,2022(7):175-178.
10刘桐彤,屈丹.基于预训练表示学习的端到端跨媒体检索方法[J].信息工程大学学报,2022,23(5):563-569.

天津大学学报（自然科学与工程技术版）

2023年第4期

浏览历史

内容加载中请稍等...

基于错误纠正模块的场景文本识别算法

参考文献1

二级参考文献3

共引文献6

相关作者

相关机构

相关主题

浏览历史