位置敏感Transformer航拍图像目标检测模型

Position-sensitive Transformer aerial image object detection model

下载PDF

导出

摘要针对无人机视角下航拍图像小目标多且检测困难的问题,提出了一个位置敏感Transformer目标检测(PS-TOD)模型。设计了一个基于位置通道嵌入三维注意力(PCE3DA)的多尺度特征融合(MSFF)模块,即PCE3DA利用空间与通道信息的相互依赖关系生成三维注意力,用于加强模型对兴趣区域的特征表达能力,且基于它构造了一个自底向上的跨层MSFF方案,使得融合后的特征语义信息更加丰富;然后,设计了一种新的位置敏感自注意力(PSSA)机制,且以此构造位置敏感Transformer编-解码器,使模型在捕获图像全局上下文信息的长期依赖关系时,也可提高模型对目标的位置敏感能力。基于无人机航拍数据集VisDrone的对比实验结果表明,提出模型的AP达到28.8%,与基线模型(DETR)相比提高了4.1%。该模型在复杂背景下能对无人机航拍图像进行精确的目标检测,且改善小目标的检测效果。 Addressing the challenge of detecting numerous small objects in UAV‑captured aerial images,this paper introduces the Position‑Sensitive Transformer Target Detection(PS‑TOD)model.Initially,it presents a multi‑scale feature fusion(MSFF)module incorporating a Positional Channel Embedded 3D Attention(PCE3DA)mechanism.PCE3DA leverages the interplay between spatial and channel data to generate 3D attention,enhancing feature representation in areas of interest.This foundation supports a bottom‑up,cross‑layer MSFF approach,augmenting the semantic richness of combined features.Subsequently,it proposes a novel Position‑Sensitive Self‑Attention(PSSA)mechanism,leading to the development of a position‑sensitive Transformer encoder‑decoder.This innovation heightens the model's sensitivity to target positioning,facilitating the capture of long‑term dependencies within the image's global context.Comparative tests using the VisDrone dataset reveal that the PS‑TOD model attains an Average Precision(AP)of 28.8%,marking a 4.1%enhancement over the baseline model(DETR).Furthermore,it demonstrates precise object detection in UAV aerial imagery against complex backdrops,significantly boosting the detection accuracy of small targets.

作者李大湘辛嘉妮刘颖 LI Daxiang;XIN Jiani;LIU Ying(College of communication and information engineering,Xi′an University of Posts and Telecommunication,Xi′an 710121,China)

机构地区西安邮电大学通信与信息工程学院

出处《光学精密工程》 EI CAS CSCD 北大核心 2024年第5期727-739,共13页 Optics and Precision Engineering

基金国家自然科学基金资助项目(No.62071379) 陕西省自然科学基金资助项目(No.2019JM-604) 西安邮电大学研究生创新基金资助项目(No.CXJJZL2022003)。

关键词目标检测无人机图像位置敏感Transformer 多尺度特征融合注意力机制 object detection unmanned aerial vehicle image position sensitive Transformer multi-scale feature fusion attention mechanism

分类号 V279 [航空宇航科学与技术—飞行器设计] TP394.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1朱威,王立凯,靳作宝,何德峰.引入注意力机制的轻量级小目标检测网络[J].光学精密工程,2022,30(8):998-1010. 被引量：11
2范丽丽,赵宏伟,赵浩宇,胡黄水,王振.基于深度卷积神经网络的目标检测研究综述[J].光学精密工程,2020,28(5):1152-1164. 被引量：100
3Wenhai Wang,Enze Xie,Xiang Li,Deng-Ping Fan,Kaitao Song,Ding Liang,Tong Lu,Ping Luo,Ling Shao.PVT v2:Improved baselines with Pyramid Vision Transformer[J].Computational Visual Media,2022,8(3):415-424. 被引量：49

二级参考文献9

1刘媛媛,张硕,于海业,王跃勇,王佳木.基于语义分割的复杂场景下的秸秆检测[J].光学精密工程,2020,28(1):200-211. 被引量：17
2王耀东,朱力强,余祖俊,郭保青.用于机械系统瞬时目标的双视角高速视觉检测系统[J].光学精密工程,2017,25(10):2725-2735. 被引量：8
3李正周,曹雷,邵万兴,陈文豪,刘冰.基于空时混沌分析的海面小弱目标检测[J].光学精密工程,2018,26(1):193-199. 被引量：13
4梁浩,刘克俭,刘康,刘岩俊,陈小林.引入再检测机制的孪生神经网络目标跟踪[J].光学精密工程,2019,27(7):1621-1631. 被引量：5
5刘晓,崔光照,李正周,熊伟奇.基于视觉系统分层的小目标运动检测[J].光学精密工程,2019,27(10):2251-2262. 被引量：9
6赵尚男,王灵杰,张新,吴洪波.采用视觉特征整合的红外弱小目标检测[J].光学精密工程,2020,28(2):497-506. 被引量：10
7范丽丽,赵宏伟,赵浩宇,胡黄水,王振.基于深度卷积神经网络的目标检测研究综述[J].光学精密工程,2020,28(5):1152-1164. 被引量：100
8谷雨,刘俊,沈宏海,彭冬亮,徐英.基于改进多尺度分形特征的红外图像弱小目标检测[J].光学精密工程,2020,28(6):1375-1386. 被引量：25
9张小荣,胡炳樑,潘志斌,郑茜.基于张量表示的高光谱图像目标检测[J].光学精密工程,2019,27(2):488-498. 被引量：18

共引文献157

1李敏,乔志远,杨易鑫.基于光学遥感影像的舰船检测研究综述[J].网络安全与数据治理,2023,42(S01):106-114.
2吕春.统计规律性的计算机模拟演示[J].工科物理,2000,10(4):46-51.
3李亚文,何建强.基于BP神经网络学习算法的图像压缩技术研究[J].商洛学院学报,2020,34(4):1-9. 被引量：2
4雷俊锋,贺睿,肖进胜.融合空间注意力机制的行车障碍预测网络[J].光学精密工程,2020,28(8):1850-1860. 被引量：3
5明悦,王绍颖,范春晓,周江婉.对齐特征表示的跨模态人脸识别[J].光学精密工程,2020,28(10):2311-2322. 被引量：4
6方舟,徐项项,李鑫,刘金龙,杨慧珍,龚成龙.自适应增益的SPGD算法[J].红外与激光工程,2020,49(10):19-25. 被引量：10
7殷健凯,虞冬蕾,李梓仪,郭薇,朱浩.基于TensorFlow平台的深度学习月季花病害检测研究[J].科技资讯,2020,18(32):27-32. 被引量：2
8邓昊,郑伟,李明涛,孙海彬,王建峰,周炳红.基于涨落分析的暗弱运动目标关联检测[J].光学精密工程,2020,28(11):2517-2526. 被引量：7
9陈莹,朱宇.模态自适应权值学习机制下的多光谱行人检测网络[J].光学精密工程,2020,28(12):2700-2709. 被引量：4
10李大华,包学娟,于晓,高强.基于YOLOv3网络的自然环境下青苹果检测与识别[J].激光杂志,2021,42(1):71-77. 被引量：10

1赵鑫,陈里里,杨维川,张程旺.DY-YOLOv5:基于多重注意力机制的航拍图像目标检测[J].计算机工程与应用,2024,60(7):183-191.
2Chengjun Wang,Fan Ding,Yiwen Wang,Renyuan Wu,Xingyu Yao,Chengjie Jiang,Liuyi Ling.Real-Time Detection and Instance Segmentation of Strawberry in Unstructured Environment[J].Computers, Materials & Continua,2024,78(1):1481-1501.
3王向前,成高立,胡鹏,夏晓华.基于改进YOLOv5的路面裂缝检测方法[J].电子技术应用,2024,50(3):80-85.

光学精密工程

2024年第5期

浏览历史

内容加载中请稍等...

位置敏感Transformer航拍图像目标检测模型

参考文献3

二级参考文献9

共引文献157

相关作者

相关机构

相关主题

浏览历史