-
题名RGB-D语义分割:深度信息的选择使用
被引量:2
- 1
-
-
作者
赵经阳
余昌黔
桑农
-
机构
华中科技大学人工智能与自动化学院图像信息处理与智能控制教育部重点实验室
-
出处
《中国图象图形学报》
CSCD
北大核心
2022年第8期2473-2486,共14页
-
基金
国家自然科学基金项目(61433007)。
-
文摘
目的 在室内场景语义分割任务中,深度信息会在一定程度上提高分割精度。但是如何更有效地利用深度信息仍是一个开放性问题。当前方法大都引入全部深度信息,然而将全部深度信息和视觉特征组合在一起可能对模型产生干扰,原因是仅依靠视觉特征网络模型就能区分的不同物体,在引入深度信息后可能产生错误判断。此外,卷积核固有的几何结构限制了卷积神经网络的建模能力,可变形卷积(deformable convolution, DC)在一定程度上缓解了这个问题。但是可变形卷积中产生位置偏移的视觉特征空间深度信息相对不足,限制了进一步发展。基于上述问题,本文提出一种深度信息引导的特征提取(depth guided feature extraction, DFE)模块。方法 深度信息引导的特征提取模块包括深度信息引导的特征选择模块(depth guided feature selection, DFS)和深度信息嵌入的可变形卷积模块(depth embedded deformable convolution, DDC)。DFS可以筛选出关键的深度信息,自适应地调整深度信息引入视觉特征的比例,在网络模型需要时将深度信息嵌入视觉特征。DDC在额外深度信息的引入下,增强了可变形卷积的特征提取能力,可以根据物体形状提取更相关的特征。结果 为了验证方法的有效性,在NYUv2(New York University Depth Dataset V2)数据集上进行一系列消融实验并与当前最好的方法进行比较,使用平均交并比(mean intersection over union, mIoU)和平均像素准确率(pixel accuracy, PA)作为度量标准。结果显示,在NYUv2数据集上,本文方法的mIoU和PA分别为51.9%和77.6%,实现了较好的分割效果。结论 本文提出的深度信息引导的特征提取模块,可以自适应地调整深度信息嵌入视觉特征的程度,更加合理地利用深度信息,且在深度信息的作用下提高可变形卷积的特征提取能力。此外,本文提出的深度信息引导的特征提取模块可以比较方便地嵌入当下流行的特征提取网络中,提高网络的建模能力。
-
关键词
语义分割
RGB-D
深度信息引导的特征选择(DFS)
深度信息嵌入的可变形卷积(DDC)
深度信息引导的特征提取(DFE)
-
Keywords
semantic segmentation
RGB-D
depth guided feature selection(DFS)
depth embedded deformable convolution(DDC)
depth guided feature extraction(DFE)
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名深度学习多模态图像语义分割前沿进展
被引量:2
- 2
-
-
作者
赵什陆
张强
-
机构
西安电子科技大学机电工程学院
-
出处
《中国图象图形学报》
CSCD
北大核心
2023年第11期3320-3341,共22页
-
基金
国家自然科学基金项目(61773301)
陕西省重点科技创新团队项目(2018TD-012)
+1 种基金
河北工业大学电工装备可靠性与智能化国家重点实验室项目(EERIKF2022005)
卫星信息智能处理与应用技术实验室基金项目(2022-ZZKY-JJ-09-01)。
-
文摘
图像语义分割旨在将视觉场景分解为不同的语义类别实体,实现对图像中每一个像素的类别预测。多模态图像语义分割通过联合利用不同模态图像(即通过基于不同成像机理的传感器获取的图像)间的互补特性,能够全面且准确地实现复杂场景信息的学习与推理。目前基于深度学习的多模态图像语义分割前沿成果较多,但缺少系统且全面的调研与分析。本文首先总结并分析了目前主流的基于深度学习的可见光—热红外(red-green-bluethermal,RGB-T)图像语义分割算法和可见光—深度(red-green-blue-depth,RGB-D)图像语义分割算法。依据算法侧重点不同,将基于深度学习的RGB-T图像语义分割算法划分为基于图像特征增强的方法、基于多模态图像特征融合的方法和基于多层级图像特征交互的方法;依据算法对深度信息的利用方式,将基于深度学习的RGB-D图像语义分割算法划分为基于深度信息提取的方法和基于深度信息引导的方法。然后,介绍了多模态图像语义分割算法常用的客观评测指标以及数据集,并在常用数据集上对上述算法进行对比。对于RGB-T图像语义分割,在MFNet(multi-spectral fusion network)数据集上,GMNet(graded-feature multilabel-learning network)和MFFENet(multiscale fea⁃ture fusion and enhancement network)分别取得了最优的类平均交并比(mean intersection-over-union per class,mIoU)(57.3%)和类平均精度(mean accuracy per class,mAcc)(74.3%)值。在PST900(PENN subterranean thermal 900)数据集上,GMNet仍然取得了最优的mIoU(84.12%)值,而EGFNet取得了最优的mAcc(94.02%)值。对于RGB-D图像语义分割,在NYUD v2(New York University depth dataset v2)数据集上,GLPNet(global-local propagation network)的mIoU和mAcc分别达到了54.6%和66.6%,取得最优性能。而在SUN-RGBD(scene understanding-RGB-D)数据集上,Zig-Zag的mIoU为51.8%,GLPNet的mAcc为63.3%,均为最优性能。最后,本文还指出了多模态图像语义分割领域未来可能的发展方向。
-
关键词
多模态图像
语义分割
特征增强
特征融合
特征交互
深度信息提取
深度信息引导
-
Keywords
multi-modal image
semantic segmentation
feature enhancement
feature fusion
feature interaction
depth information extraction
depth information guidance
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-