期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
RGB-D双模态特征融合语义分割 被引量:2
1
作者 罗盆琳 方艳红 +1 位作者 李鑫 李雪 《计算机工程与应用》 CSCD 北大核心 2023年第7期222-231,共10页
针对复杂室内场景中,现有RGB图像语义分割网络易受颜色、光照等因素影响以及RGB-D图像语义分割网络难以有效融合双模态特征等问题,提出一种基于注意力机制的RGB-D双模态特征融合语义分割网络AMBFNet(attention mechanism bimodal fusion... 针对复杂室内场景中,现有RGB图像语义分割网络易受颜色、光照等因素影响以及RGB-D图像语义分割网络难以有效融合双模态特征等问题,提出一种基于注意力机制的RGB-D双模态特征融合语义分割网络AMBFNet(attention mechanism bimodal fusion network)。该网络采用编-解码器结构,首先搭建双模态特征融合结构(AMBF)来合理分配编码支路各阶段特征的位置与通道信息,然后设计双注意感知的上下文(DA-context)模块以合并上下文信息,最后通过解码器将多尺度特征图进行跨层融合,以减少预测结果中类间误识别和小尺度目标丢失问题。在SUN RGB-DNYU和NYU Depth v2(NYUDV2)两个公开数据集上的测试结果表明,相较于残差编解码(RedNet)、注意力互补网络(ACNet)、高效场景分析网络(ESANet)等目前较先进的RGB-D语义分割网络,在同等硬件条件下,该网络具有更好的分割性能,平均交并比(MIoU)分别达到了47.9%和50.0%。 展开更多
关键词 注意力机制 双模态特征融合 重注意感知上下文 RGB-D语义分割
下载PDF
基于双模态特征融合的多媒体场景识别 被引量:1
2
作者 潘红 吴飞 《模式识别与人工智能》 EI CSCD 北大核心 2002年第4期424-428,共5页
多媒体场景本质是视频音频等多模态信息交互融合的结果,尽管每个模表达了一定的语义,但是多媒体场景完整表达要通过多模态信息去共同体现,本文提出使用视频音频双模态特征融合技术形成的超级隐马尔可夫链进行多媒体场景识别,实验数据表... 多媒体场景本质是视频音频等多模态信息交互融合的结果,尽管每个模表达了一定的语义,但是多媒体场景完整表达要通过多模态信息去共同体现,本文提出使用视频音频双模态特征融合技术形成的超级隐马尔可夫链进行多媒体场景识别,实验数据表明,与只使用单模态信息识别多媒体场景的方法相比,超级隐马可夫链取得了更好的识别正确率. 展开更多
关键词 双模态特征融合 多媒体场景识别 超级隐马尔可夫链 音频信号处理 背音识别
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部