期刊文献+

位置敏感Transformer航拍图像目标检测模型

Position-sensitive Transformer aerial image object detection model
下载PDF
导出
摘要 针对无人机视角下航拍图像小目标多且检测困难的问题,提出了一个位置敏感Transformer目标检测(PS-TOD)模型。设计了一个基于位置通道嵌入三维注意力(PCE3DA)的多尺度特征融合(MSFF)模块,即PCE3DA利用空间与通道信息的相互依赖关系生成三维注意力,用于加强模型对兴趣区域的特征表达能力,且基于它构造了一个自底向上的跨层MSFF方案,使得融合后的特征语义信息更加丰富;然后,设计了一种新的位置敏感自注意力(PSSA)机制,且以此构造位置敏感Transformer编-解码器,使模型在捕获图像全局上下文信息的长期依赖关系时,也可提高模型对目标的位置敏感能力。基于无人机航拍数据集VisDrone的对比实验结果表明,提出模型的AP达到28.8%,与基线模型(DETR)相比提高了4.1%。该模型在复杂背景下能对无人机航拍图像进行精确的目标检测,且改善小目标的检测效果。 Addressing the challenge of detecting numerous small objects in UAV‑captured aerial images,this paper introduces the Position‑Sensitive Transformer Target Detection(PS‑TOD)model.Initially,it presents a multi‑scale feature fusion(MSFF)module incorporating a Positional Channel Embedded 3D Attention(PCE3DA)mechanism.PCE3DA leverages the interplay between spatial and channel data to generate 3D attention,enhancing feature representation in areas of interest.This foundation supports a bottom‑up,cross‑layer MSFF approach,augmenting the semantic richness of combined features.Subsequently,it proposes a novel Position‑Sensitive Self‑Attention(PSSA)mechanism,leading to the development of a position‑sensitive Transformer encoder‑decoder.This innovation heightens the model's sensitivity to target positioning,facilitating the capture of long‑term dependencies within the image's global context.Comparative tests using the VisDrone dataset reveal that the PS‑TOD model attains an Average Precision(AP)of 28.8%,marking a 4.1%enhancement over the baseline model(DETR).Furthermore,it demonstrates precise object detection in UAV aerial imagery against complex backdrops,significantly boosting the detection accuracy of small targets.
作者 李大湘 辛嘉妮 刘颖 LI Daxiang;XIN Jiani;LIU Ying(College of communication and information engineering,Xi′an University of Posts and Telecommunication,Xi′an 710121,China)
出处 《光学精密工程》 EI CAS CSCD 北大核心 2024年第5期727-739,共13页 Optics and Precision Engineering
基金 国家自然科学基金资助项目(No.62071379) 陕西省自然科学基金资助项目(No.2019JM-604) 西安邮电大学研究生创新基金资助项目(No.CXJJZL2022003)。
关键词 目标检测 无人机图像 位置敏感Transformer 多尺度特征融合 注意力机制 object detection unmanned aerial vehicle image position sensitive Transformer multi-scale feature fusion attention mechanism
  • 相关文献

参考文献3

二级参考文献9

共引文献157

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部