视觉注意与语义感知联合推理实现场景文本识别

Joint Inference of Visual Attention and Semantic Perception for Scene Text Recognition

下载PDF

导出

摘要场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。 Irregular text recognition in scenes is still a challenging problem.For arbitrary shapes and low‑quality text in scenes,this paper proposes a multimodal network that combines a visual attention module and a semantic perception module.The visual attention module uses a parallel attention-based approach to extract visual features of images combined with positional encoding.The semantic perception module based on weak supervised learning is used to learn linguistic information to compensate for the deficiencies of visual features.The module uses a Transformer-based variant that improves the model’s contextual semantic inference by randomly masking a character in a word for training.The visual semantic fusion module interacts information from different modalities through a gating mechanism to generate robust features for character prediction.The proposed approach is demonstrated through extensive experiments to be effective in recognizing arbitrarily shaped and low-quality scene text,and competitive results are obtained on several benchmark datasets.In particular,accuracy rates of 93.6%and 86.2%are achieved for the datasets SVT and SVTP,which contain low-quality text,respectively.Compared with the method containing only the visual module,the accuracy is improved by 3.5%and 3.9%,respectively,which fully demonstrates the importance of semantic information for text recognition.

作者佟国香董田荣胡珩彰 TONG Guoxiang;DONG Tianrong;HU Hengzhang(College of Optical‑Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

机构地区上海理工大学光电信息与计算机工程学院

出处《数据采集与处理》 CSCD 北大核心 2023年第3期665-675,共11页 Journal of Data Acquisition and Processing

基金国家重点研发计划(2018YFB1700902)。

关键词场景文本识别不规则文本视觉注意模块语义感知模块多模态 scene text recognition irregular text visual attention module semantic perception module multimodal

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1谢润忠,李烨.基于BERT和双通道注意力的文本情感分类模型[J].数据采集与处理,2020,35(4):642-652. 被引量：27

二级参考文献3

1赵妍妍,秦兵,石秋慧,刘挺.大规模情感词典的构建及其在情感分类中的应用[J].中文信息学报,2017,31(2):187-193. 被引量：53
2王煜涵,张春云,赵宝林,袭肖明,耿蕾蕾,崔超然.卷积神经网络下的Twitter文本情感分析[J].数据采集与处理,2018,33(5):921-927. 被引量：21
3蒋翠清,郭轶博,刘尧.基于中文社交媒体文本的领域情感词典构建方法研究[J].数据分析与知识发现,2019,3(2):98-107. 被引量：20

共引文献26

1张苑,祝小兰,杨东晓.基于深度学习的疫情情感分析[J].智能计算机与应用,2022,12(3):40-45. 被引量：1
2温志强,刘楠.从单向线性到迭代闭环:重大公共决策网络舆情风险研判体系构建[J].上海行政学院学报,2021,22(4):30-42. 被引量：9
3胡蕾.狄奥尼索斯的报复——《蝇王》之神话原型分析与重释[J].山东外语教学,2000,21(2):49-53. 被引量：13
4张国方,寇姣姣,陈令华.网络评论文本驱动的汽车设计规划方法[J].机械设计,2021,38(2):139-144. 被引量：11
5蔡汶兴,李兴东.基于BERT模型的景区评论情感分析[J].贵州大学学报（自然科学版）,2021,38(2):57-60. 被引量：2
6金华涛.基于BERT模型和双通道注意力的短文本情感分析方法[J].信息与电脑,2021,33(5):41-43.
7胡任远,刘建华,卜冠南,张冬阳,罗逸轩.融合BERT的多层次语义协同模型情感分析研究[J].计算机工程与应用,2021,57(13):176-184. 被引量：14
8陈旭,潘峰,韩益亮,王宁.基于BiGRU-Attention模型的新冠疫苗接种情感倾向性分析[J].信息技术与网络安全,2021,40(10):22-28. 被引量：1
9谢星雨,余本功.基于MFFMB的电商评论文本分类研究[J].数据分析与知识发现,2022,6(1):101-112. 被引量：6
10潘梦强,董微,张青川.基于并行混合网络的生鲜水果短文本情感分类[J].科学技术与工程,2022,22(10):4055-4062.

1赵光辉,杨晓敏.单图像超分辨率多尺度特征融合网络[J].现代计算机,2023,29(8):67-74. 被引量：1
2谭开成,罗继亮,林鑫杰,章宏彬.基于知识Petri网的确定性和不确定性联合推理[J].控制理论与应用,2023,40(3):531-539.
3张军,田新梅.基于去相机偏差和动态更新记忆模型的无监督行人重识别研究[J].中国科学技术大学学报,2022,52(12):58-67.
4黄萍萍,李杰.维拉帕米联合曲美他嗪治疗冠心病不稳定型心绞痛的临床分析[J].航空航天医学杂志,2023,34(1):54-56. 被引量：1
5柳春鹏.篮球教学中投篮技巧分析[J].中文科技期刊数据库（文摘版）教育,2023(5):159-162.
6李岩,张敏艺,宿汉辰,李芳芳,李斌阳.基于跨模态相似度学习的端到端不规则文本检索方法[J].无线电工程,2023,53(3):501-507.
7杨露露,蓝龙,孙冬婷,滕霄,贲晛烨,沈肖波.低分辨率行人重识别数据集及其基准方法[J].中国图象图形学报,2023,28(5):1346-1359.
8赵海荣,郭云鹏,李洋,李东鸽.个性化角度颈椎牵引治疗神经根型颈椎病疗效观察[J].颈腰痛杂志,2023,44(1):139-140. 被引量：9
9郭颖.系统性嗓音训练联合海恩法则指导的用药安全对甲状腺结节患者述情障碍及吞咽功能的影响[J].首都食品与医药,2023,30(8):128-131.
10李方博,卢萍,卢亮球,许嘉恒,叶嘉敏.Meta分析正念训练对运动员运动表现、正念水平及心理效益的影响[J].湖北体育科技,2023,42(4):370-376. 被引量：1

数据采集与处理

2023年第3期

浏览历史

内容加载中请稍等...

视觉注意与语义感知联合推理实现场景文本识别

参考文献1

二级参考文献3

共引文献26

相关作者

相关机构

相关主题

浏览历史