结合特征融合和金字塔注意力的场景文本检测被引量：6

Natural scene text detection based on pyramid attention network and feature fusion

下载PDF

导出

摘要基于深度学习的场景文本检测普遍缺少特征级的精细化,导致原本设计良好的模型不能被充分利用,提出将特征融合和特征金字塔注意力模块应用到场景文本检测。将基本特征提取网络(PixelLink算法)得到的4个特征映射层以采样后加权叠加的方式进行特征融合,并将结果送给特征金字塔注意力模块。特征融合使各层级的特征信息相结合,从而增加了特征映射层的信息量。采用注意力网络可以在增大感受野的同时不提高计算力,而空间金字塔结构可利用不同的网格尺度或不同的扩张率融合多尺度的特征信息。特征金字塔注意力模块包含精细化金字塔网络分支、非线性变换分支以及全局平均池化分支。实验结果表明,相较于PixelLink算法,该算法在ICDAR2015和ICDAR2013数据集上综合指标(F-measure,F)分别提升了2.91%和4.04%。 At present,text detection in natural scenes based on deep learning generally lacks the refinement of feature level,which results in the fact that the well-designed models cannot be fully utilized.In order to solve the above problem,the combination of feature fusion and feature pyramid attention module are proposed to implement the natural scene text detection.The four feature mapping layers obtained from the basic feature extraction network(PixelLink algorithm)are fused by means of using weighted-overlap after sampling,and sent to the feature pyramid attention module.The feature fusion module combines feature information of each level to increase the amount of information in the feature map layer.The attention network can expand the receptive field without more computing power,and the spatial pyramid structure employs different grid scales or expansion rates to fuse the multi-scale feature information.The feature pyramid attention module includes three branches:the refined pyramid network,the nonlinear transformation and the global average pooling.Compared with the PixelLink algorithm,our algorithm achieves F-measure improvement of 2.91%and 4.04%on ICDAR2015 and ICDAR2013,respectively.

作者冯宇静贾世杰 FENG Yujing;JIA Shijie(College of Electrical Information Engineering,Dalian Jiaotong University,Dalian 116028,P.R.China)

机构地区大连交通大学电气信息工程学院

出处《重庆邮电大学学报（自然科学版）》 CSCD 北大核心 2022年第1期110-116,共7页 Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition)

基金辽宁省教育厅科学研究项目(JDL2019006)。

关键词特征融合特征金字塔注意力模块自然场景文本检测 PixelLink ICDAR2015 ICDAR2013 feature fusion feature pyramid attention module natural scene text detection PixelLink ICDAR2015 ICDAR2013

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1李英杰,全太锋,刘武启.基于MSER的自适应学习自然场景文本检测[J].小型微型计算机系统,2020,41(9):1966-1971. 被引量：10

二级参考文献1

1王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽.自然场景图像中的文本检测综述[J].自动化学报,2018,44(12):2113-2141. 被引量：51

共引文献9

1宋彭彭,曾祥进,郑安义,米勇.基于注意力机制的自然场景文本检测[J].电子测量技术,2021,44(14):122-127. 被引量：5
2陈琳.基于机器视觉的英语翻译机器人错误文本检测系统[J].自动化与仪器仪表,2022(3):168-171. 被引量：9
3张敏丽,张誉心.基于深度学习的电子交互绘本阅读信息自动化采集系统设计[J].自动化与仪器仪表,2022(2):86-89.
4陈琳.基于机器视觉的英语翻译机器人错误文本检测系统[J].自动化与仪器仪表,2022(4):227-231. 被引量：2
5左佳.英语机器翻译机器人文本信息自动上传系统设计[J].自动化与仪器仪表,2022(4):255-259. 被引量：1
6孟亚.基于个性化自适应学习的海量资源安全威胁信息定向识别模型[J].微型电脑应用,2022,38(8):125-128.
7孙耀平,赵洁,李润伟,马强,周琰.融合ChineseBERT的电力安全隐患分类研究[J].电子设计工程,2023,31(11):16-20.
8封磊,李晓明.结合空洞卷积和先验阈值的数显仪表识别[J].计算机与数字工程,2023,51(4):855-859.
9李慧淼,方振国.雾霾天气下交通信号灯的识别[J].科技创新与应用,2024,14(19):35-38.

同被引文献38

1孟庆鑫,孟庆磊,闫帅.基于时空信息的运动目标识别算法[J].电子测量与仪器学报,2019,31(2):154-160. 被引量：5
2李祥鹏,闵卫东,韩清,刘瑞康.基于深度学习的车牌定位和识别方法[J].计算机辅助设计与图形学学报,2019,31(6):979-987. 被引量：41
3牛作东,覃涛,李捍东,陈进军.改进RetinaFace的自然场景口罩佩戴检测算法[J].计算机工程与应用,2020,56(12):1-7. 被引量：65
4Na Lei,Dongsheng An,Yang Guo,Kehua Su,Shixia Liu,Zhongxuan Luo,Shing-Tung Yau,Xianfeng Gu.A Geometric Understanding of Deep Learning[J].Engineering,2020,6(3):361-374. 被引量：13
5汤战勇,田超雄,叶贵鑫,李婧,王薇,龚晓庆,陈晓江,房鼎益.一种基于条件生成式对抗网络的文本类验证码识别方法[J].计算机学报,2020,43(8):1572-1588. 被引量：8
6肖俊杰.基于YOLOv3和YCrCb的人脸口罩检测与规范佩戴识别[J].软件,2020,41(7):164-169. 被引量：23
7田萱,王子亚,王建新.基于语义分割的食品标签文本检测[J].农业机械学报,2020,51(8):336-343. 被引量：11
8王德青,吾守尔·斯拉木,许苗苗.场景文字识别技术研究综述[J].计算机工程与应用,2020,56(18):1-15. 被引量：19
9杨泽青,王春方,彭凯,刘丽冰,张亚彬.基于深度支持向量机的曲轴智能识别方法[J].计算机集成制造系统,2021,27(6):1629-1640. 被引量：7
10陈鸿坤,罗会兰.多尺度语义信息融合的目标检测[J].电子与信息学报,2021,43(7):2087-2095. 被引量：11

引证文献6

1侯俏孜.基于多尺度注意力金字塔的细粒度图像识别算法[J].信息与电脑,2022,34(16):73-76.
2向富贵,冯绍玮,王添,吕明鸿,姜小明.无监督数据集子类划分的人脸口罩佩戴识别算法[J].重庆邮电大学学报（自然科学版）,2023,35(2):235-244.
3甘浪雄,吴金茹,徐海祥,冯辉,张磊,束亚清,张东方.基于注意力机制与特征增强的船名检测方法[J].武汉理工大学学报（交通科学与工程版）,2023,47(5):850-855. 被引量：2
4郭豆豆,李国权,黄正文,吴建,庞宇.基于注意力机制的X光安检图像危险物品检测[J].重庆邮电大学学报（自然科学版）,2023,35(6):1117-1126. 被引量：1
5张蝶依.基于深度学习的自然场景文本检测与识别研究[J].移动信息,2024,46(6):245-247.
6张清蓉,陈龙灿,刘庆.视频前景区域运动目标姿态识别仿真[J].计算机仿真,2024,41(7):258-262.

二级引证文献3

1周小娟,商娟叶.基于深度学习的工业纸张图像批量化检测处理技术研究[J].造纸科学与技术,2024,43(3):83-85.
2刘鹏,周鑫,孙博,陈维康,王志军.基于改进YOLOv7的肥城桃病虫害识别方法[J].山东农业科学,2024,56(8):150-157.
3陈博伟,易尧华,汤梓伟,彭继兵,尹爱国.融合场景先验的船名文本检测方法[J].中国图象图形学报,2024,29(10):3104-3115.

1朱莉,陈宏,景小荣.任意方向自然场景文本识别[J].重庆邮电大学学报（自然科学版）,2022,34(1):125-133. 被引量：2
2孙申奥,万烂军,蒋晓炜.自然场景下中文识别的研究与实现[J].福建电脑,2022,38(3):16-18.
3黄子涵,黄豪,林丹盈,曹洋瑞,张泽填,肖振球.基于CRNN的自然场景多语言文本检测方法[J].电脑知识与技术,2022,18(1):98-100. 被引量：3
4林金朝,文盼,庞宇.基于特征金字塔网络的自然场景图像文本检测[J].重庆邮电大学学报（自然科学版）,2022,34(1):155-163. 被引量：3
5林耀海,吕钟亮,杨长才,林培杰,陈芳育,洪嘉伟.自然场景图像中的重叠蜜柚识别及试验[J].农业工程学报,2021,37(24):158-167. 被引量：2
6朱敏.基于人工智能技术的物联网大数据挖掘算法[J].黑龙江工业学院学报（综合版）,2021,21(12):54-59. 被引量：8
7孙宏祥.浅谈小学数学探究式课堂中的合作与交流[J].科学咨询,2022(2):148-150.
8敖明舒,储小院,陈勰,雷艳娇,崔亚飞.太平湖山地石漠化公园科普宣教系统设计研究[J].林业调查规划,2022,47(1):153-160.
9王家亮,刘晓强,李柏岩,冯珍妮.一种基于CGAN的可见水印去除方案[J].计算机技术与发展,2022,32(2):119-124. 被引量：1
10孟庆岩,阴旭强,宋怀波.融合高级与低级视觉特征的农业图像显著性区域预测方法研究[J].西北农林科技大学学报（自然科学版）,2022,50(1):146-154.

重庆邮电大学学报（自然科学版）

2022年第1期

浏览历史

内容加载中请稍等...

结合特征融合和金字塔注意力的场景文本检测被引量：6

参考文献1

二级参考文献1

共引文献9

同被引文献38

引证文献6

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

结合特征融合和金字塔注意力的场景文本检测 被引量：6

参考文献1

二级参考文献1

共引文献9

同被引文献38

引证文献6

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

结合特征融合和金字塔注意力的场景文本检测被引量：6