多层次特征融合与注意力机制的文本检测被引量：5

Text Detection Based on Multi-level Feature Fusion and Attention Mechanism

下载PDF

导出

摘要卷积神经网络在自然场景文本检测中的应用,大大提高了文本检测的准确性.但由相机视角和文本本身引起的尺度多变性以及文本分布的多样性仍然给文本检测带来了挑战.从解决文本尺度多变性的角度出发,本文提出了一个新的多层次特征融合模块,在特征金字塔融合不同层级特征的同时,额外添加了一个空洞卷积池化模块分支,在不降低特征尺度的同时拥有不同的感受野,获取了更丰富的特征,有利于缓解文本尺度多变性的问题.本文通过特征注意力机制进一步提取更加适合于文本的特征,有效地实现了不同通道间信息的交互,缓解了因文本分布多样性而带来的检测难题.本文进一步提升了文本检测器的准确率,在ICDAR2015,CTW1500,Total-Text,MSRA-TD500这四个数据集上的实验结果证明了本文所提方法的有效性. The application of convolutional neural networks in natural scene text detection greatly improves the accuracy of text detection.However,the scale variability caused by camera′s perspective and text sizes,and the diversity of text distribution also bring challenges to text detection.In order to alleviate the problem of text scale variability,we propose a new multi-level feature fusion module.Besides using feature pyramid to fuse features of different levels,we add an additional dilated convolutional and pooling module.It keeps different receptive fields without reducing feature scales,and obtains richer features,which helps to alleviate the problem of text scale variability.We propose an attention mechanism to further extract features which are more suitable for text through the channel attention mechanism,thus cross-channel interaction information is effectively extracted,alleviate the detection problems caused by the diversity of text distribution.We further improve the accuracy of the text detector.The experimental results on four public data sets(ICDAR2015,CTW1500,Total-Text,MSRA-TD500)prove the effectiveness of the method proposed in this paper.

作者骆文莉吴秦 LUO Wen-li;WU Qin(School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi 214122,China;Jiangsu Provincial Engineering Laboratory for Pattern Recognition and Computational Intelligence,Jiangnan University,Wuxi 214122,China)

机构地区江南大学人工智能与计算机学院江南大学江苏省模式识别与计算智能工程实验室

出处《小型微型计算机系统》 CSCD 北大核心 2022年第4期815-821,共7页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61972180)资助。

关键词自然图像中的文本检测尺度多变性注意力机制特征融合空洞卷积 scene text detection scale variability attention mechanism feature fusion dilated convolution

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1王梦迪,张友梅,常发亮.基于边缘检测和特征融合的自然场景文本定位[J].计算机科学,2017,44(9):300-303. 被引量：5
2田清越,高志荣,熊承义,陈少波.联合边缘增强的MSER自然场景文本检测[J].小型微型计算机系统,2017,38(11):2604-2609. 被引量：3

二级参考文献5

1宋砚,刘安安,张勇东,林守勋.基于聚类的视频字幕提取方法[J].通信学报,2009,30(2):136-140. 被引量：10
2师文,朱学芳.基于轮廓重构和特征点弦长的图像检索[J].软件学报,2014,25(7):1557-1569. 被引量：13
3黄晓明,高陈强,田阳阳.自然场景文本区域定位[J].重庆邮电大学学报（自然科学版）,2015,27(5):700-705. 被引量：7
4刘亚亚,于凤芹,陈莹.基于笔画宽度变换的场景文本定位[J].小型微型计算机系统,2016,37(2):350-353. 被引量：7
5刘亚亚,于凤芹,陈莹.基于连通区域和统计特征的图像文本定位[J].计算机工程与应用,2016,52(5):165-168. 被引量：5

共引文献5

1朱桂斌,钟刘翔.基于视频文字识别的跑步成绩自动测量系统研究[J].科技与创新,2018(22):45-47.
2王大千,崔荣一,金璟璇.基于视觉关注模型与多尺度MSER的自然场景文本检测[J].应用科学学报,2020,38(3):496-506. 被引量：3
3池凯,赵逢禹.改进EAST算法的游戏场景文本检测[J].小型微型计算机系统,2020,41(10):2189-2193. 被引量：7
4邵慧敏,张太红.基于CTPN神经网络对营业执照文字检测模型[J].计算机技术与发展,2021,31(1):94-97. 被引量：1
5顾恭.一种基于MSER及CNN的车牌文字定位新方法[J].计算机应用与软件,2021,38(8):206-213. 被引量：3

同被引文献17

1陈广华,苗鹏,张宗健,陈梅倩,肖燕彩.字轮电能表读数系统的数字识别算法[J].北京交通大学学报,2012,36(3):87-91. 被引量：3
2林刚,王波,彭辉,王晓阳,陈思远,张黎明.基于改进Faster-RCNN的输电线巡检图像多目标检测及定位[J].电力自动化设备,2019,39(5):213-218. 被引量：66
3刘召,张黎明,耿美晓,么军,张金禄,胡益菲.基于改进的Faster R-CNN高压线缆目标检测方法[J].智能系统学报,2019,14(4):627-634. 被引量：21
4陈英,蒋文峰,杨丰玉.智能电能表数字识别算法研究[J].信息通信,2020,0(1):17-21. 被引量：4
5赵文清,程幸福,赵振兵,翟永杰.注意力机制和Faster RCNN相结合的绝缘子识别[J].智能系统学报,2020,15(1):92-98. 被引量：35
6田萱,王子亚,王建新.基于语义分割的食品标签文本检测[J].农业机械学报,2020,51(8):336-343. 被引量：10
7彭昆福,王子磊,王磊,顾杨.基于深度回归的指针仪表读数识别方法[J].信息技术与网络安全,2020,39(12):37-43. 被引量：6
8王昕岩,宋玉蓉,宋波.一种加权图卷积神经网络的新浪微博谣言检测方法[J].小型微型计算机系统,2021,42(8):1780-1786. 被引量：6
9杨锶齐,易尧华,汤梓伟,王新宇.嵌入注意力机制的自然场景文本检测方法[J].计算机工程与应用,2021,57(24):185-191. 被引量：7
10薛海涛,王莉,杨延杰,廉飚.基于用户传播网络与消息内容融合的谣言检测模型[J].计算机应用,2021,41(12):3540-3545. 被引量：7

引证文献5

1倪铭远,邓宏涛,高望.基于图卷积神经网络的虚假新闻检测[J].计算机应用,2023,43(S01):49-55. 被引量：1
2李伟,王飒,丁健刚,陈昊,肖力炀.一种用于石油化工厂环境下的仪表自动检测方法[J].西安石油大学学报（自然科学版）,2022,37(2):102-109. 被引量：3
3倪健,池祥.基于改进DBNet的招牌文本检测研究[J].电脑知识与技术,2023,19(25):1-3.
4甘浪雄,吴金茹,徐海祥,冯辉,张磊,束亚清,张东方.基于注意力机制与特征增强的船名检测方法[J].武汉理工大学学报（交通科学与工程版）,2023,47(5):850-855.
5周燕,廖俊玮,刘翔宇,周月霞,曾凡智.改进FCENet的自然场景文本检测算法[J].计算机工程与应用,2024,60(3):228-236.

二级引证文献4

1周彦波.基于模糊诊断技术的海洋石油平台仪表系统故障诊断方法分析[J].工程技术研究,2023,8(1):96-98.
2王松,骆莹,刘新民.基于双粒度语义特征与异质性网络的知识共创价值识别[J].情报杂志,2024,43(5):123-131.
3石立斌.火电机组热工仪表运行状态实时控制系统设计[J].自动化与仪表,2024,39(5):126-129.
4钱玉宝,王紫涵,邱腾煌.指针式仪表读数识别的研究现状与发展[J].电子测量技术,2024,47(8):110-119.

1陈仁祥,詹赞,胡小林,徐向阳,蔡东吟.基于多注意力Faster RCNN的噪声干扰下印刷电路板缺陷检测[J].仪器仪表学报,2021,42(12):167-174. 被引量：34
2邵海琳,季怡,刘纯平,徐云龙.基于增强特征金字塔网络的场景文本检测算法[J].计算机科学,2022,49(2):248-255. 被引量：9
3冷莉,邹威.面向自然场景的多语言文本特征自动检测研究[J].自动化与仪器仪表,2021(12):24-27. 被引量：1
4贾颖,程艳云.面向自然场景的中文文本检测[J].微电子学与计算机,2022,39(3):25-33. 被引量：1
5陈宗阳,赵辉,吕永胜,沙建军,沙香港.基于改进MobileNetV2网络的涂层表面缺陷识别方法[J].哈尔滨工程大学学报,2022,43(4):572-579. 被引量：11
6杨姣姣,胡明,李岩,夏德林.不同孔径梯度纳米羟基磷灰石三维支架制备及对MC3T3-E1生物学性能的影响[J].中国组织工程研究,2022,26(21):3338-3344. 被引量：2
7马梁,苟于涛,雷涛,靳雷,宋怡萱.基于多尺度特征融合的遥感图像小目标检测[J].光电工程,2022,49(4):47-63. 被引量：18
8张富财,许建龙,包晓安.基于稠密扩张卷积的图像语义分割模型[J].计算机系统应用,2022,31(3):19-29. 被引量：2
9张燕,高鑫,刘以,张小峰,张彩明.基于改进像素相关性模型的图像分割算法[J].图学学报,2022,43(2):205-213. 被引量：6
10蔡非凡,万旺根.基于可变形非局部三维卷积网络的视频超分辨率重建算法[J].工业控制计算机,2022,35(3):54-56. 被引量：1

小型微型计算机系统

2022年第4期

浏览历史

内容加载中请稍等...

多层次特征融合与注意力机制的文本检测被引量：5

参考文献2

二级参考文献5

共引文献5

同被引文献17

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

多层次特征融合与注意力机制的文本检测 被引量：5

参考文献2

二级参考文献5

共引文献5

同被引文献17

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

多层次特征融合与注意力机制的文本检测被引量：5