-
题名RGB-D双模态特征融合语义分割
被引量:2
- 1
-
-
作者
罗盆琳
方艳红
李鑫
李雪
-
机构
西南科技大学信息工程学院
西南科技大学特殊环境机器人技术四川省重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第7期222-231,共10页
-
基金
国家重点实验室开放基金(SKLA20200203)。
-
文摘
针对复杂室内场景中,现有RGB图像语义分割网络易受颜色、光照等因素影响以及RGB-D图像语义分割网络难以有效融合双模态特征等问题,提出一种基于注意力机制的RGB-D双模态特征融合语义分割网络AMBFNet(attention mechanism bimodal fusion network)。该网络采用编-解码器结构,首先搭建双模态特征融合结构(AMBF)来合理分配编码支路各阶段特征的位置与通道信息,然后设计双注意感知的上下文(DA-context)模块以合并上下文信息,最后通过解码器将多尺度特征图进行跨层融合,以减少预测结果中类间误识别和小尺度目标丢失问题。在SUN RGB-DNYU和NYU Depth v2(NYUDV2)两个公开数据集上的测试结果表明,相较于残差编解码(RedNet)、注意力互补网络(ACNet)、高效场景分析网络(ESANet)等目前较先进的RGB-D语义分割网络,在同等硬件条件下,该网络具有更好的分割性能,平均交并比(MIoU)分别达到了47.9%和50.0%。
-
关键词
注意力机制
双模态特征融合
双重注意感知上下文
RGB-D语义分割
-
Keywords
attention mechanism
dual modal feature fusion
dual attention perception context
RGB-D semantic segmentation
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于双模态特征融合的多媒体场景识别
被引量:1
- 2
-
-
作者
潘红
吴飞
-
机构
杭州师范学院计算机系
浙江大学人工智能研究所
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2002年第4期424-428,共5页
-
基金
国家自然科学基金(60272031)
教育部博士点基金
+1 种基金
教育部优秀年轻教师基金
浙江省自然科学基金(2D0212)
-
文摘
多媒体场景本质是视频音频等多模态信息交互融合的结果,尽管每个模表达了一定的语义,但是多媒体场景完整表达要通过多模态信息去共同体现,本文提出使用视频音频双模态特征融合技术形成的超级隐马尔可夫链进行多媒体场景识别,实验数据表明,与只使用单模态信息识别多媒体场景的方法相比,超级隐马可夫链取得了更好的识别正确率.
-
关键词
双模态特征融合
多媒体场景识别
超级隐马尔可夫链
音频信号处理
背音识别
-
Keywords
Supper Hidden Markovia Model, Feature Fusion, Multi-Modal
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-