注意力引导多模态融合的RGB-D图像分割被引量：4

Attention-guided multi-modal fusion RGB-D image segmentation

下载PDF

导出

摘要为提高图像分割效率,提出注意力引导多模态交叉融合分割网络(ACFNet)。采用编码器-解码器结构,设计非对称双流特征提取网络,RGB和深度编码器分别以ResNet-101和ResNet-50为主干网络,并在RGB编码器中添加全局-局部特征提取模块(GL)。为有效融合RGB和深度特征,提出注意力引导多模态交叉融合模块(ACFM),在多阶段利用融合的增强特征表示。实验结果表明,ACFNet在室内场景分割数据集NYUD V2上的平均交并比(mIou)达到了51.5%,与先进的语义分割算法相比,显著提高了分割性能。 To improve the efficiency of image segmentation,an attention-guided multi-modal cross fusion segmentation network(ACFNet)was proposed.An encoder-decoder structure was used.An asymmetric dual-stream feature extraction network was designed with RGB and depth encoders using ResNet-101 and ResNet-50 respectively as the backbone network,and a global-local feature extraction module(GL)was added to the RGB encoder.To effectively fuse RGB and depth features,an attention-guided multi-modal cross fusion module(ACFM)was proposed to better utilize the fused enhanced feature representation in multiple stages.Experimental results show that the mean intersection-over-union(mIou)of ACFNet on the indoor scene segmentation dataset NYUD V2 reaches 51.5%,which significantly improves the segmentation effect compared with advanced semantic segmentation algorithms.

作者靳瑜昕杨晓文张元焦世超文阳晖王爱兵 JIN Yu-xin;YANG Xiao-wen;ZHANG Yuan;JIAO Shi-chao;WEN Yang-hui;WANG Ai-bing(School of Data Science and Technology,North University of China,Taiyuan 030051,China)

机构地区中北大学大数据学院

出处《计算机工程与设计》北大核心 2022年第12期3453-3460,共8页 Computer Engineering and Design

基金山西省回国留学人员科研基金项目(2020-113)。

关键词 RGB-D图像语义分割注意力机制多模态融合深度学习特征提取编码器-解码器 RGB-D image semantic segmentation attention mechanism multi-modal fusion deep learning feature extraction encoder-decoder

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1王原,马瑜,江妍,梁远哲,马鼎,李霞.U-net改进的视网膜血管图像分割算法[J].计算机工程与设计,2021,42(10):2884-2893. 被引量：9

二级参考文献1

1耿磊,邱玲,吴骏,肖志涛,张芳.结合深度可分离卷积与通道加权的全卷积神经网络视网膜图像血管分割[J].生物医学工程学杂志,2019,36(1):107-115. 被引量：12

共引文献8

1梁路瑶,赵晓云,赵金泉.一种基于U-NET多景深图片目标物定位自动聚焦算法[J].强激光与粒子束,2022,34(12):157-166. 被引量：4
2秦俊豪,李志忠,冯家乐.基于Shuffle-Unet的视网膜血管分割研究[J].电子测量技术,2022,45(20):117-124. 被引量：6
3林宁宁,高心丹.DeepLab V3+改进的树木图像分割[J].计算机工程与设计,2023,44(1):232-239. 被引量：3
4李碧草,王晶,郭旭伟,黄杰,魏苗苗,李盼盼.基于多尺度特征融合与反向注意力的COVID-19病灶分割[J].中国医学物理学杂志,2023,40(4):403-409.
5宋杰,刘彩霞,李慧婷.基于U-Net网络的医学图像分割研究综述[J].计算机技术与发展,2024,34(1):9-16.
6徐武,沈智方,范鑫豪,刘洋,徐天奇.改进D-Linknet的眼底视网膜血管分割[J].应用科技,2024,51(2):99-104.
7王晶,杜艺璠.结合Transformer与CNN的双向级联皮肤病图像分割网络[J].微型计算机,2024(11):25-27.
8李雪,马瑜,郭姝琪,王鹏志.视网膜血管提取算法[J].计算机工程与设计,2024,45(12):3786-3793.

同被引文献29

1张瑞华.英文语音纠错自动识别系统设计与实现[J].自动化技术与应用,2019,38(10):170-172. 被引量：2
2梁玮.语音识别技术架构下的英语音标辅助学习平台开发及应用研究[J].计算技术与自动化,2020,39(2):155-159. 被引量：6
3牛腊婷.流媒体环境下英语口语发音自动校对方法研究[J].自动化与仪器仪表,2020(7):155-158. 被引量：5
4邓丽君,王涛.基于阈值的英语语音自动识别系统研究[J].微型电脑应用,2020,36(8):48-50. 被引量：4
5段立娟,孙启超,乔元华,陈军成,崔国勤.基于注意力感知和语义感知的RGB-D室内图像语义分割算法[J].计算机学报,2021,44(2):275-291. 被引量：17
6王丽红.内地西藏中职班普通话语音教学纠错探析[J].中国民族教育,2021(5):54-56. 被引量：2
7臧瑞婷.英语朗读发音质量自适应评测模型设计研究[J].自动化技术与应用,2021,40(10):117-120. 被引量：3
8余娜,刘彦,魏雄炬,万源.基于注意力机制和金字塔融合的RGB-D室内场景语义分割[J].计算机应用,2022,42(3):844-853. 被引量：7
9颜增显,孔超,欧卫华.基于多模态融合的人脸反欺骗算法研究[J].计算机技术与发展,2022,32(4):63-68. 被引量：3
10庾骏,黄伟,张晓波,尹贺峰.基于松弛Hadamard矩阵的多模态融合哈希方法[J].电子学报,2022,50(4):909-920. 被引量：2

引证文献4

1彭晓风,徐宏亮.基于音视频特征的多模态英语发音纠错模型研究[J].皖西学院学报,2023,39(3):123-129. 被引量：1
2杨晓文,靳瑜昕,韩慧妍,况立群,无.融合编码器多尺度特征的RGB-D图像语义分割[J].计算机仿真,2024,41(9):205-212.
3年立辉.基于多模态融合构建的建设工程工人不安全行为识别模型[J].佳木斯大学学报（自然科学版）,2024,42(9):118-120.
4冉照彬,王超.基于残差U块和上下文变换器的三分支实时语义分割[J].计算机科学与应用,2024,14(4):141-150.

二级引证文献1

1李可.基于Bi-LSTM和Softmax的辅助发声训练系统设计研究[J].自动化与仪器仪表,2024(4):197-200.

1冯一璟,张来斌,郑文培,刘海涛.新型交流电磁场检测探头仿真和测试研究[J].中国测试,2022,48(11):113-119. 被引量：4
2刘绍华,孙靖凯,王奕苏,刘海波,毛天露.一种多精度交互的行人轨迹预测[J].北京邮电大学学报,2022,45(5):1-6. 被引量：2

计算机工程与设计

2022年第12期

浏览历史

内容加载中请稍等...

注意力引导多模态融合的RGB-D图像分割被引量：4

参考文献1

二级参考文献1

共引文献8

同被引文献29

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

注意力引导多模态融合的RGB-D图像分割 被引量：4

参考文献1

二级参考文献1

共引文献8

同被引文献29

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

注意力引导多模态融合的RGB-D图像分割被引量：4