基于移位窗口金字塔Transformer的遥感图像目标检测被引量：5

SPT:Swin Pyramid Transformer for Object Detection of Remote Sensing

下载PDF

导出

摘要目标检测任务是计算机视觉领域中基础且备受关注的工作,遥感图像目标检测任务因在交通、军事、农业等方面具有重要应用价值,也成为研究的一大热点。相比自然图像,遥感图像由于受到复杂背景的干扰,以及天气、小型和不规则物体等诸多因素的影响,遥感图像目标检测任务要实现较高的精度是极具挑战性的。文中提出了一种新颖的基于移位窗口Transformer的目标检测网络。模型应用了移位窗口式Transformer模块作为特征提取的骨干,其中,Transformer的自注意力机制对于检测混乱背景下的目标十分有效,移位窗口式的模式则有效避免了大量的平方级复杂度计算。在获得骨干网络提取的特征图之后,模型使用了金字塔架构以融合不同尺度、不同语义的局部和全局特征,有效地减少了特征层之间的信息丢失,并捕捉到固有的多尺度层级关系。此外,文中还提出了自混合视觉转换器模块和跨层视觉转换器模块。自混合视觉转换器模块重新渲染了深层特征图以增强目标特征识别和表达,跨层视觉转换器模块则依据特征上下文交互等级重新排列各特征层像素的信息表达。模块融入到自下而上和自上而下双向特征路径之中,以充分利用包含不同语义的全局和局部信息。所提网络模型在UCAS-AOD数据集和RSOD数据集上进行训练并测试,实验结果表明,模型在遥感图像目标检测任务上效果显著,尤其适用于不规则的目标和小目标类别,如立交桥和汽车。 The task of object detection is a basic and highly concerned work in the field of computer vision.Because object detection in remote sensing has important application value in transportation,military,agriculture,etc.,it has also become a major research hotspot.Compared with natural images,remote sensing images are affected by many factors such as complex background interference,weather,irregularities,and small objects.It is extremely challenging to achieve higher accuracy in remote sensing image object detection tasks.This paper proposes a novel object detection network based on Transformer,swin pyramid Transformer(SPT).SPT uses a sliding window Transformer module as the backbone of feature extraction.Among it,the self-attention mechanism of Transformer is very effective for detecting objects in a chaotic background,and the sliding window mode efficiently avoids a large number of square-level complexity calculations.After obtaining the feature map extracted by the backbone network,SPT uses a pyramid architecture to fuse different scale and semantic features,pithily reducing the loss of information between feature layers,and capturing the inherent multi-scale hierarchical relationship.In addition,this paper proposes self-mixed Transformer(SMT)module and cross-layer Transformer(CLT)module.SMT re-renders the highest-level feature map to enhance object feature recognition and expression.According to the feature context interaction,the feature expressions of the pixels of each feature layer are rearranged by CLT,and the CLT module is integrated into the bottom-up and top-down dual paths of the pyramid to make full use of global and local information containing different semantics.Our SPT network model is trained and tested on the UCAS-AOD and RSOD datasets.Experimental results show that SPT is high-performing in remote sensing image object detection tasks,especially suitable for irregular and small target categories,such as overpass and car.

作者蔡肖陈志华盛斌 CAI Xiao;CEHN Zhihua;SHENG Bin(School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China;School of Electronic Information and Electrical Engineering,Shanghai Jiao Tong University,Shanghai 200240,China)

机构地区华东理工大学信息科学与工程学院上海交通大学电子信息与电气工程学院

出处《计算机科学》 CSCD 北大核心 2023年第1期105-113,共9页 Computer Science

基金国家自然科学基金(61672228) 装备预研教育部联合基金(6141A02022373)。

关键词深度学习目标检测遥感图像注意力机制 TRANSFORMER Deep learning Object detection Remote sensing Attention mechanism Transformer

分类号 TP751 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

同被引文献46

1张浩,左杭,刘宝华.视觉与二维激光雷达的目标检测方法[J].电子测量与仪器学报,2022,36(3):79-86. 被引量：12
2孙瑞安,张云华.结合AdaBERT的TextCNN垃圾弹幕识别和过滤算法[J].智能计算机与应用,2021,11(4):9-13. 被引量：4
3刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：928
4张日明.基于物联网技术的安全生产监管大数据平台[J].物联网技术,2019,9(5):67-69. 被引量：6
5王博,董登峰,周维虎,高豆豆.面向激光跟踪仪跟踪恢复的合作目标视觉检测[J].光学精密工程,2020,28(2):271-282. 被引量：18
6张袅娜,鲍旋旋,李昊林.基于激光雷达和摄像机融合的智能车障碍物识别方法[J].科学技术与工程,2020,20(4):1461-1466. 被引量：11
7宫铭钱,冀杰,种一帆,陈琼红.基于激光雷达和视觉信息融合的车辆识别与跟踪[J].汽车技术,2020(11):8-15. 被引量：24
8段辉军,王志刚,王彦.基于改进YOLO网络的双通道显著性目标识别算法[J].激光与红外,2020,50(11):1370-1378. 被引量：11
9明建华,胡创,周建政,姚金良.针对直播弹幕的TextCNN过滤模型[J].计算机工程与应用,2021,57(3):162-167. 被引量：7
10袁红斌,曹会群,欧群雍.基于激光测距雷达和机器视觉的障碍物检测[J].现代雷达,2021,43(5):57-62. 被引量：18

引证文献5

1刘洋,李相国,连良秀.基于AIOT的安全生产监管平台关键技术研究[J].网络安全技术与应用,2022(12):7-9.
2杨三萍,刘鹏珍.低分辨率激光光谱遥感图像弱小目标识别方法设计[J].激光杂志,2023,44(12):75-80.
3许德刚,王再庆,邢奎杰,郭奕欣.改进YOLOv6的遥感图像目标检测算法[J].计算机工程与应用,2024,60(3):119-128.
4张润梅,贾振楠,李佳祥,吴路路,徐信芯,袁彬.基于多感受野特征增强的改进EfficientDet遥感目标检测算法[J].电光与控制,2024,31(7):53-60.
5张荣泽,王修晖.改进CRNN网络的直播弹幕文本识别[J].计算机工程与应用,2024,60(15):143-149.

1岳冰莹,陈亮,师皓,盛青青.基于改进RetinaNet的SAR图像目标检测方法[J].信号处理,2022,38(1):128-136. 被引量：8
2周瑞芳.数字经济与商贸流通业融合发展水平测度及影响因素分析[J].商业经济研究,2023(1):35-38. 被引量：4
3叶耀光,陈宗楠,陈丽群,潘永琪,潘家辉.基于通道注意的可变形金字塔表情识别网络[J].计算机技术与发展,2022,32(11):64-71. 被引量：1
4李勍,朱政,张林,王萌萌.一种新的智能自动化框架[J].机电产品开发与创新,2022,35(6):42-46.
5张天骏,刘玉怀,李苏晨.基于改进YOLOv4的遥感影像飞机目标检测[J].电光与控制,2022,29(12):101-105. 被引量：2
6张珍.大学生社会主义核心价值观教育的“四个讲清楚”[J].广西教育,2022(33):43-46. 被引量：1
7郑诚,梅亮,赵伊研,张苏航.基于双向注意力机制和门控图卷积网络的文本分类方法[J].计算机科学,2023,50(1):221-228. 被引量：3
8杜柳青,余永维.深度学习框架下融合注意机制的机床运动精度劣化预示[J].农业机械学报,2022,53(9):443-450. 被引量：2
9童宁,徐珊,汤颖,秦绪佳.结合短文本语义的图查询可视分析系统[J].小型微型计算机系统,2023,44(1):146-154.
10王延飞,杜元清.情报刻画的研究解析[J].情报学报,2022,41(12):1255-1265. 被引量：12

计算机科学

2023年第1期

浏览历史

内容加载中请稍等...

基于移位窗口金字塔Transformer的遥感图像目标检测被引量：5

同被引文献46

引证文献5

相关作者

相关机构

相关主题

浏览历史

基于移位窗口金字塔Transformer的遥感图像目标检测 被引量：5

同被引文献46

引证文献5

相关作者

相关机构

相关主题

浏览历史

基于移位窗口金字塔Transformer的遥感图像目标检测被引量：5