面向道路场景语义分割的移动窗口变换神经网络设计

Design of Swin Transformer for semantic segmentation of road scenes

下载PDF

导出

摘要道路场景语义分割是自动驾驶环境感知的一项重要任务。近年来,变换神经网络(Transformer)在计算机视觉领域开始应用并取得了很好的效果。针对复杂场景图像语义分割精度低、细小目标识别能力不足等问题,本文提出了一种基于移动窗口Transformer的多尺度特征融合的道路场景语义分割算法。该网络采用编码-解码结构,编码器使用改进后的移动窗口Transformer特征提取器对道路场景图像进行特征提取,解码器由注意力融合模块和特征金字塔网络构成,充分融合多尺度的语义特征。在Cityscapes城市道路场景数据集上进行验证测试,实验结果表明,与多种现有的语义分割算法进行对比,本文方法在分割精度方面有较大的提升。 Road scene semantic segmentation is a crucial task in autonomous driving environment perception.In recent years,Transformer neural networks have been applied in the field of computer vision and have shown excellent performance.Addressing issues such as low semantic segmentation accuracy in complex scene images and insufficient recognition capabilities for small objects,this paper proposes a road scene semantic segmentation algorithm based on Swin Transformer with multiscale feature fusion.The network adopts an encoder-decoder structure,where the encoder utilizes an improved Swin Transformer feature extractor for road scene image feature extraction.The decoder consists of an attention fusion module and a feature pyramid network,effectively integrating semantic features at multiple scales.Validation tests on the Cityscapes urban road scene dataset show that,compared to various existing semantic segmentation algorithms,our approach demonstrates significant improvement in segmentation accuracy.

作者杭昊黄影平张栩瑞罗鑫 Hang Hao;Huang Yingping;Zhang Xurui;Luo Xin(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

机构地区上海理工大学光电信息与计算机工程学院

出处《光电工程》 CAS CSCD 北大核心 2024年第1期100-112,共13页 Opto-Electronic Engineering

基金国家自然科学基金资助项目(62276167)。

关键词语义分割移动窗口变换神经网络注意力机制自动驾驶深度学习 semantic segmentation Swin Transformer attention mechanism autonomous driving deep learning

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1张莹,黄影平,郭志阳,张冲.基于点云与图像交叉融合的道路分割方法[J].光电工程,2021,48(12):30-41. 被引量：6
2马梁,苟于涛,雷涛,靳雷,宋怡萱.基于多尺度特征融合的遥感图像小目标检测[J].光电工程,2022,49(4):47-63. 被引量：16

二级参考文献5

1Zhe Chen,Jing Zhang,Dacheng Tao.Progressive LiDAR Adaptation for Road Detection[J].IEEE/CAA Journal of Automatica Sinica,2019,6(3):693-702. 被引量：9
2赵春梅,陈忠碧,张建林.基于深度学习的飞机目标跟踪应用研究[J].光电工程,2019,46(9):1-10. 被引量：15
3金瑶,张锐,尹东.城市道路视频中小像素目标检测[J].光电工程,2019,46(9):74-81. 被引量：14
4赵春梅,陈忠碧,张建林.基于卷积网络的目标跟踪应用研究[J].光电工程,2020,47(1):1-9. 被引量：8
5徐安林,杜丹,王海红,张强,李雅哲.结合层次化搜索与视觉残差网络的光学舰船目标检测方法[J].光电工程,2021,48(4):36-43. 被引量：3

共引文献20

1刘平,刘国清,郑伟.基于Dense ASPP的道路图像语义分割方法[J].自动化应用,2022(10):91-94.
2刘洪宁.基于GhostNet的轻量化遥感图像目标检测方法[J].通信与信息技术,2023(1):77-81.
3赵文慈,闫岩,汪红兵,韩荃,周佳妮,高国航.基于点云处理的产品表面质量缺陷识别研究综述[J].冶金自动化,2022,46(5):20-35. 被引量：2
4彭昊,王婉祺,陈龙,彭先蓉,张建林,徐智勇,魏宇星,李美惠.在线推断校准的小样本目标检测[J].光电工程,2023,50(1):83-96.
5胡青松,孟春蕾,李世银,孙彦景.矿井无人驾驶环境感知技术研究现状及展望[J].工矿自动化,2023,49(6):128-140. 被引量：7
6秦昊林,许廷发,李佳男.基于超像素注意力和孪生结构的半监督高光谱显著性目标检测[J].兵工学报,2023,44(9):2639-2649.
7张颖,梁承权,覃振鹏.基于多级特征融合的红外图像多目标分割研究[J].激光杂志,2023,44(8):83-87.
8陈智,李明.基于多尺度特征提取的红外图像多目标分割研究[J].激光杂志,2023,44(9):130-134.
9赵永辉,吕勇,刘雪妍,万晓玉,郭淳宇,刘淑玉.基于FPGA的遥感图像实时检测硬件加速[J].电光与控制,2023,30(12):115-120.
10郑帅锋,王山东,张陈意,王伦炜.基于点云特征的城市道路标识线提取与分类[J].激光技术,2024,48(1):27-33.

1杨洋,黎曙,曾兰玲,王新宇,赵岩,刘力玮.基于轻量编码解码结构的人像分割网络[J].计算机与数字工程,2023,51(12):2991-2996.
2章一鸣,姚文广,陈海进.动态环境下自主机器人的双机制切向避障[J].浙江大学学报（工学版）,2024,58(4):779-789.
3郭新,韩旭睿,詹曜珲,栗国法,代文博,朱松林.深基坑局部下沉部位开挖突涌稳定性评价方法研究[J].四川水泥,2024(3):113-114.
4陈祝云,焦健,纪传鹏,许维冬,贺毅,万海洋.基于卷积对抗自编码网络的轴承早期故障检测方法[J].机电工程技术,2024,53(2):1-7.
5冯妍舟,刘建霞,王海翼,冯国昊,白宇.基于多级残差信息蒸馏的真实图像去噪方法[J].计算机工程,2024,50(3):216-223.

光电工程

2024年第1期

浏览历史

内容加载中请稍等...

面向道路场景语义分割的移动窗口变换神经网络设计

参考文献2

二级参考文献5

共引文献20

相关作者

相关机构

相关主题

浏览历史