期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
14
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于跨模态注意力融合的煤炭异物检测方法
被引量:
1
1
作者
曹现刚
李虎
+3 位作者
王鹏
吴旭东
向敬芳
丁文韬
《工矿自动化》
CSCD
北大核心
2024年第1期57-65,共9页
为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采...
为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采用浅层的特征提取策略提取Depth图像的低级特征,用深度边缘与深度纹理等基础特征辅助RGB图像深层特征,以有效获得2种特征的互补信息,从而丰富异物特征的空间与边缘信息,提高检测精度;构建了基于坐标注意力与改进空间注意力的跨模态注意力融合模块(CAFM),以协同优化并融合RGB特征与Depth特征,增强网络对特征图中被遮挡异物可见部分的关注度,提高被遮挡异物检测精度;使用区域卷积神经网络(R-CNN)输出煤炭异物的分类、回归与分割结果。实验结果表明:在检测精度方面,该方法的AP相较两阶段模型中较优的Mask transfiner高3.9%;在检测效率方面,该方法的单帧检测时间为110.5 ms,能够满足异物检测实时性需求。基于跨模态注意力融合的煤炭异物检测方法能够以空间特征辅助色彩、形状与纹理等特征,准确识别煤炭异物之间及煤炭异物与输送带之间的差异,从而有效提高对复杂特征异物的检测精度,减少误检、漏检现象,实现复杂特征下煤炭异物的精确检测与像素级分割。
展开更多
关键词
煤炭异物检测
实例分割
双特征金字塔网络
跨模态注意力融合
Depth图像
坐标注意力
改进空间注意力
下载PDF
职称材料
基于跨模态特征融合的RGB-D显著性目标检测
2
作者
李可新
何丽
+1 位作者
刘哲凝
钟润豪
《国外电子测量技术》
2024年第6期59-67,共9页
RGB-D显著性目标检测因其有效性和易于捕捉深度线索而受到越来越多的关注。现有的工作通常侧重于通过各种融合策略学习共享表示,少有方法明确考虑如何维持RGB和深度的模态特征。提出了一种跨模态特征融合网络,该网络维持RGB-D显著目标...
RGB-D显著性目标检测因其有效性和易于捕捉深度线索而受到越来越多的关注。现有的工作通常侧重于通过各种融合策略学习共享表示,少有方法明确考虑如何维持RGB和深度的模态特征。提出了一种跨模态特征融合网络,该网络维持RGB-D显著目标检测的RGB和深度的模态,通过探索共享信息以及RGB和深度模态的特性来提高显著检测性能。具体来说,采用RGB模态、深度模态网络和一个共享学习网络来生成RGB和深度模态显著性预测图以及共享显著性预测图。提出了一种跨模态特征融合模块,用于融合共享学习网络中的跨模态特征,然后将这些特征传播到下一层以整合跨层次信息。此外,提出了一种多模态特征聚合模块,将每个单独解码器的模态特定特征整合到共享解码器中,这可以提供丰富的互补多模态信息来提高显著性检测性能。最后,使用跳转连接来组合编码器和解码器层之间的分层特征。通过在4个基准数据集上与7种先进方法进行的实验表明,方法优于其他最先进的方法。
展开更多
关键词
RGB-D显著性目标检测
跨模态融合网络
跨模态特征融合
多模态聚合
下载PDF
职称材料
基于多级语义对齐的图像-文本匹配算法
3
作者
李艺茹
姚涛
+2 位作者
张林梁
孙玉娟
付海燕
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2024年第2期551-558,共8页
图像中的区域特征更关注于图像中的前景信息,背景信息往往被忽略,如何有效的联合局部特征和全局特征还没有得到充分地研究。为解决上述问题,加强全局概念和局部概念之间的关联得到更准确的视觉特征,提出一种基于多级语义对齐的图像-文...
图像中的区域特征更关注于图像中的前景信息,背景信息往往被忽略,如何有效的联合局部特征和全局特征还没有得到充分地研究。为解决上述问题,加强全局概念和局部概念之间的关联得到更准确的视觉特征,提出一种基于多级语义对齐的图像-文本匹配算法。提取局部图像特征,得到图像中的细粒度信息;提取全局图像特征,将环境信息引入到网络的学习中,从而得到不同的视觉关系层次,为联合的视觉特征提供更多的信息;将全局-局部图像特征进行联合,将联合后的视觉特征和文本特征进行全局-局部对齐得到更加精准的相似度表示。通过大量的实验和分析表明:所提算法在2个公共数据集上具有有效性。
展开更多
关键词
图像-文本匹配
跨模态信息处理
特征提取
神经网络
特征融合
下载PDF
职称材料
基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离
4
作者
兰朝凤
蒋朋威
+4 位作者
陈欢
赵世龙
郭小霞
韩玉兰
韩闯
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024年第3期1005-1012,共8页
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型...
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。
展开更多
关键词
语音分离
视听融合
跨模态注意力
双路径递归网络
Conv-TasNet
下载PDF
职称材料
结合深度神经网络的网络监控系统微表情识别
5
作者
罗予东
李振坤
《计算机应用与软件》
北大核心
2023年第7期172-179,191,共9页
为了提高网络监控系统微表情识别的效果,结合深度神经网络技术提出新的智能监控系统微表情识别算法。将判别能力强的卷积神经网络特征与鲁棒的直方图特征结合,利用卷积神经网络提取目标的空间特征,再将卷积特征表示为直方图,结合直方图...
为了提高网络监控系统微表情识别的效果,结合深度神经网络技术提出新的智能监控系统微表情识别算法。将判别能力强的卷积神经网络特征与鲁棒的直方图特征结合,利用卷积神经网络提取目标的空间特征,再将卷积特征表示为直方图,结合直方图和卷积神经网络两者的优势设计新的人体追踪算法;设计跨模态监督的深度神经网络训练方法,将可见光视频数据送入深度神经网络进行训练,利用近红外光视频对训练程序进行监督。基于公开的多模态微表情识别数据集完成了验证实验,结果显示该算法有效地提高了微表情识别的性能。
展开更多
关键词
卷积神经网络
智能监控系统
微表情识别
深度神经网络
跨模态融合
近红外光成像
下载PDF
职称材料
基于深度跨模态信息融合网络的股票走势预测
被引量:
1
6
作者
程海阳
张建新
+2 位作者
孙启森
张强
魏小鹏
《计算机科学》
CSCD
北大核心
2023年第5期128-136,共9页
股票走势预测是经典且具有挑战性的任务,可帮助交易者做出获得更大收益的交易决策。近年来,基于深度学习的股票走势预测方法的性能得到明显提升,但现有方法大多仅依托于股票价格的历史数据来完成走势预测,无法捕捉价格指标之外的市场动...
股票走势预测是经典且具有挑战性的任务,可帮助交易者做出获得更大收益的交易决策。近年来,基于深度学习的股票走势预测方法的性能得到明显提升,但现有方法大多仅依托于股票价格的历史数据来完成走势预测,无法捕捉价格指标之外的市场动态规律,在一定程度上限制了方法的性能。为此,将社交媒体文本与股票历史价格信息相结合,提出了一种基于深度跨模态信息融合网络(DCIFNet)的股票走势预测新方法。DCIFNet首先采用时间卷积操作对股票价格和推特文本进行编码,使得每个元素对其邻域元素都有足够的了解;然后,将结果输入到基于transformer的跨模态融合结构中,以更有效地融合股票价格和推特文本中的重要信息;最后,引入多图卷积注意力网络从不同角度描述不同股票之间的相互关系,能够更有效地捕获关联股票间的行业、维基和相关关系,从而提升股票走势预测的精度。在9个不同行业的高频交易数据集上实施走势预测和模拟交易实验。消融实验及所提方法与用于股票预测的多管齐下的注意力网络(MAN-SF)方法的比较结果验证了DCIFNet方法的有效性,准确率达到了0.6309,明显优于领域内代表性方法。
展开更多
关键词
股票走势预测
社交媒体文本
跨模态信息融合
图卷积网络
时间卷积
下载PDF
职称材料
基于双流跨模态特征融合模型的群养生猪体质量测定
7
作者
何威
米阳
+2 位作者
刘刚
丁向东
李涛
《农业机械学报》
EI
CAS
CSCD
北大核心
2023年第S01期275-282,329,共9页
针对生猪体质量准确测定问题,提出了一种跨模态特征融合模型(Cross-modality feature fusion ResNet, CFF-ResNet),充分利用可见光图像的纹理轮廓信息与深度图像的空间结构信息的互补性,实现了群养环境中无接触的生猪体质量智能测定。首...
针对生猪体质量准确测定问题,提出了一种跨模态特征融合模型(Cross-modality feature fusion ResNet, CFF-ResNet),充分利用可见光图像的纹理轮廓信息与深度图像的空间结构信息的互补性,实现了群养环境中无接触的生猪体质量智能测定。首先,采集并配准俯视猪圈的可见光与深度图像,并通过EdgeFlow算法对每一只目标生猪个体进行由粗到细的像素级分割。然后,基于ResNet50网络构建双流架构模型,通过内部插入门控形成双向连接,有效地结合可见光流和深度流的特征,实现跨模态特征融合。最后,双流分别回归出生猪体质量预估值,通过均值合并得到最终的体质量测定值。在试验中,以某种公猪场群养生猪为数据采集对象,构建了拥有9 842对配准可见光和深度图像的数据集,包括6 909对训练数据和2 933对测试数据。本研究所提出模型在测试集上的平均绝对误差为3.019 kg,平均准确率为96.132%。与基于可见光和基于深度的单模态基准模型相比,该模型体质量测定精度更高,其在平均绝对误差上分别减少18.095%和12.569%。同时,该模型体质量测定精度优于其他现有生猪体质量测定方法:常规图像处理模型、改进EfficientNetV2模型、改进DenseNet201模型和BotNet+DBRB+PFC模型,在平均绝对误差上分别减少46.272%、14.403%、8.847%和11.414%。试验结果表明,该测定模型能够有效学习跨模态的特征,满足了生猪体质量测定的高精度要求,为群养环境中生猪体质量测定提供了技术支撑。
展开更多
关键词
群养生猪
体质量测定
双流网络
特征融合
跨模态学习
下载PDF
职称材料
基于跨模态特征融合的胆囊癌诊断模型研究
8
作者
尹梓名
沈达聪
+2 位作者
束翌俊
杨自逸
龚伟
《软件导刊》
2023年第3期103-111,共9页
针对目前尚未有研究使用深度学习方法将胆囊癌影像、放射组学特征和肿瘤标志物等实验室检查数据融合应用于胆囊癌诊断的问题,提出一种跨模态特征融合的胆囊癌诊断模型。首先利用3D U-net网络进行胆囊区域分割并提取放射组学特征,使用三...
针对目前尚未有研究使用深度学习方法将胆囊癌影像、放射组学特征和肿瘤标志物等实验室检查数据融合应用于胆囊癌诊断的问题,提出一种跨模态特征融合的胆囊癌诊断模型。首先利用3D U-net网络进行胆囊区域分割并提取放射组学特征,使用三维卷积神经网络提取医学影像深度特征,再将这两者与实验室检查数据进行特征融合,将融合结果作为分类器的输入进行胆囊癌诊断。实验结果表明,该方法在分类准确率、特异度、灵敏度、精确率上相比最优的单类特征模型分别提高16.67%、12.62%、11.54%和13.14%。同5种常见的影像分类模型比较,其在准确率、特异度和精确率上均至少提高10.00%、25.00%和13.33%,由此得出该方法在胆囊癌诊断上具有更好的准确率与可靠性。
展开更多
关键词
胆囊癌
跨模态特征融合
3D
U-net
放射组学
三维卷积神经网络
实验室检查数据
下载PDF
职称材料
基于语义关系图的跨模态张量融合网络的图像文本检索
被引量:
2
9
作者
刘长红
曾胜
+1 位作者
张斌
陈勇
《计算机应用》
CSCD
北大核心
2022年第10期3018-3024,共7页
跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性。现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联。针对...
跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性。现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联。针对上述问题,提出了一种基于语义关系图的跨模态张量融合网络(CMTFN-SRG)的图像文本检索方法。首先,采用图卷积网络(GCN)学习图像区域间的关系并使用双向门控循环单元(Bi-GRU)构建文本单词间的关系;然后,将所学习到的图像区域和文本单词间的语义关系图通过张量融合网络进行匹配以学习两种不同模态数据间的细粒度语义关联;同时,采用门控循环单元(GRU)学习图像的全局特征,并将图像和文本的全局特征进行匹配以捕获模态间的全局语义相关性。将所提方法在Flickr30K和MS-COCO两个基准数据集上与多模态交叉注意力(MMCA)方法进行了对比分析。实验结果表明,所提方法在Flickr30K测试集、MS-COCO1K测试集以及MS-COCO5K测试集上文本检索图像任务的Recall@1分别提升了2.6%、9.0%和4.1%,召回率均值(mR)分别提升了0.4、1.3和0.1个百分点,可见该方法能有效提升图像文本检索的精度。
展开更多
关键词
跨模态检索
张量融合网络
图卷积网络
语义相关性
语义关系图
下载PDF
职称材料
基于局部异质协同双路网络的跨模态行人重识别
被引量:
4
10
作者
郑爱华
曾小强
+2 位作者
江波
黄岩
汤进
《模式识别与人工智能》
EI
CSCD
北大核心
2020年第10期867-878,共12页
针对现有跨模态行人重识别方法忽略行人的局部特征及模态间的相互协同的问题,文中提出基于局部异质协同双路网络的跨模态行人重识别方法.首先,通过双路网络提取不同模态的全局特征进行局部精细化,挖掘行人的结构化局部信息.然后,通过标...
针对现有跨模态行人重识别方法忽略行人的局部特征及模态间的相互协同的问题,文中提出基于局部异质协同双路网络的跨模态行人重识别方法.首先,通过双路网络提取不同模态的全局特征进行局部精细化,挖掘行人的结构化局部信息.然后,通过标签和预测信息建立跨模态局部信息之间的关联,进行协同自适应的跨模态融合,使不同模态的特征之间相互补充,获得富有判别力的特征.在RegDB、SYSU-MM01跨模态行人重识别数据集上的实验验证文中方法的有效性.
展开更多
关键词
行人重识别
跨模态
局部特征
协同融合
卷积神经网络
下载PDF
职称材料
一种基于跨域融合网络的红外目标检测方法
被引量:
11
11
作者
赵明
张浩然
《光子学报》
EI
CAS
CSCD
北大核心
2021年第11期331-341,共11页
由于红外图像本身缺乏纹理信息,多数目标检测网络针对红外图像难以达到理想的检测效果,该方法提出了一种跨域融合网络结构,结合多个模态进行红外目标检测。首先,采用无需成对的图像转换网络,对已有的红外数据集进行模态转换,生成伪可见...
由于红外图像本身缺乏纹理信息,多数目标检测网络针对红外图像难以达到理想的检测效果,该方法提出了一种跨域融合网络结构,结合多个模态进行红外目标检测。首先,采用无需成对的图像转换网络,对已有的红外数据集进行模态转换,生成伪可见光数据集;然后,提出了红外域和伪可见光域双通道的多尺度特征融合结构,采用特征金字塔网络获取每个模态的特征图,对多尺度特征进行双模态特征融合;最后,为了弥补融合过程中的纹理缺失,提出软权重分配模块,通过拼接参数化后的源域、目标域和融合域特征,自适应分配和优化网络权重,从而提高特征提取与目标检测的精度。与常规方法相比该方法方法具有更好的红外目标检测性能。
展开更多
关键词
红外图像
红外目标检测
模态转换网络
跨域融合
软权重分配
下载PDF
职称材料
基于多层跨模态注意力融合的图文情感分析
被引量:
3
12
作者
陈巧红
孙佳锦
+1 位作者
孙麒
贾宇波
《浙江理工大学学报(自然科学版)》
2022年第1期85-94,共10页
针对现有图文情感分析模型仅考虑图像高层特征与文本特征的联系,而忽视图像低层特征的问题,提出了一种基于多层跨模态注意力融合(Multi-level cross-modal attention fusion, MCAF)的图文情感分析模型。该模型首先将VGG13网络外接多层卷...
针对现有图文情感分析模型仅考虑图像高层特征与文本特征的联系,而忽视图像低层特征的问题,提出了一种基于多层跨模态注意力融合(Multi-level cross-modal attention fusion, MCAF)的图文情感分析模型。该模型首先将VGG13网络外接多层卷积,以获取不同层次的图像特征,并使用BERT词嵌入与双向门控循环网络(Gated recurrent unit, GRU)网络获取文本情感特征;然后将提取后的多层图像特征与文本特征进行注意力融合,得到多组单层文本-图像注意力融合特征,并将其通过注意力网络分配权重;最后将得到的多层文本-图像注意力融合特征输入全连接层,得到分类结果。在公开的MVSA和Memotion-7k数据集上进行实验,结果显示:与图文情感分析基线模型相比,基于多层跨模态注意力融合的图文情感分析模型的准确率和F1值在MVSA数据集上分别提升2.61%和3.56%,在Memotion-7k数据集上分别提升3.25%和3.63%。这表明该模型能够有效提高图文情感分类性能。
展开更多
关键词
图文情感分析
门控循环网络
注意力机制
跨模态融合
多层图像特征抽取
下载PDF
职称材料
互补特征交互融合的RGB_D实时显著目标检测
13
作者
叶欣悦
朱磊
+1 位作者
王文武
付云
《中国图象图形学报》
CSCD
北大核心
2024年第5期1252-1264,共13页
目的 通过融合颜色、深度和空间信息,利用RGB_D这两种模态数据的显著目标检测方案通常能比单一模态数据取得更加准确的预测结果。深度学习进一步推动RGB_D显著目标检测领域的发展。然而,现有RGB_D显著目标检测深度网络模型容易忽略模态...
目的 通过融合颜色、深度和空间信息,利用RGB_D这两种模态数据的显著目标检测方案通常能比单一模态数据取得更加准确的预测结果。深度学习进一步推动RGB_D显著目标检测领域的发展。然而,现有RGB_D显著目标检测深度网络模型容易忽略模态的特异性,通常仅通过简单的元素相加、相乘或特征串联来融合多模态特征,如何实现RGB图像和深度图像之间的信息交互则缺乏合理性解释。为了探求两种模态数据中的互补信息重要性及更有效的交互方式,在分析了传统卷积网络中修正线性单元(rectified linear unit,ReLU)选通特性的基础上,设计了一种新的RGB和深度特征互补信息交互机制,并首次应用于RGB_D显著目标检测中。方法 首先,根据该机制提出了互补信息交互模块将模态各自的“冗余”特征用于辅助对方。然后,将其阶段式插入两个轻量级主干网络分别用于提取RGB和深度特征并实施两者的交互。该模块核心功能基于修改的ReLU,具有结构简单的特点。在网络的顶层还设计了跨模态特征融合模块用于提取融合后特征的全局语义信息。该特征被馈送至主干网络每个尺度,并通过邻域尺度特征增强模块与多个尺度特征进行聚合。最后,采用了深度恢复监督、边缘监督和深度监督3种监督策略以有效监督提出模型的优化过程。结果 在4个广泛使用的公开数据集NJU2K(Nanjing University2K)、NLPR(national laboratory of pattern recognition)、STERE(stereo dataset)和SIP(salient person)上的定量和定性的实验结果表明,以Max F-measure、MAE(mean absolute error)以及Max E-measure共3种主流测度评估,本文提出的显著目标检测模型相比较其他方法取得了更优秀的性能和显著的推理速度优势(373.8帧/s)。结论 本文论证了在RGB_D显著目标检测中两种模态数据具有信息互补特点,提出的模型具有较好的性能和高效率推理能力,有较好的实际应用价值。
展开更多
关键词
显著目标检测(SOD)
RGB_D
深度卷积网络
互补信息交互
跨模态特征融合
原文传递
基于跨模态注意力的目标语音提取
14
作者
杨明强
卢健
《计算机工程》
CAS
2024年第9期121-129,共9页
目标语音提取作为语音分离领域的一部分,旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性,在进行模型训练时,可以融合视觉信息指导模型对目标语音的提取。对此,传统方法是将视觉特征和音频特征进行简单拼接,然后进...
目标语音提取作为语音分离领域的一部分,旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性,在进行模型训练时,可以融合视觉信息指导模型对目标语音的提取。对此,传统方法是将视觉特征和音频特征进行简单拼接,然后进行卷积操作实现通道融合,这种方法无法有效挖掘到跨模态信息间的相关性。针对这个问题,设计一个基于两阶段的跨模态注意力特征融合模块。在第一阶段进行点积注意力计算来挖掘跨模态信息间存在的浅层相关性,在第二阶段进行自注意力计算来捕捉目标语音特征间的全局依赖关系,以增强目标语音的特征表示,2个融合阶段分别训练不同的可学习参数来调节注意力权重。此外还在时间卷积网络(TCN)中引入门控循环单元(GRU)来增强其捕捉序列数据间长期依赖关系的能力,从而改善视觉特征的提取,进一步提升视听特征的融合效果。在VoxCeleb2和LRS2-BBC两个数据集上进行测试,实验结果表明,相比于基线方法,提出的方法在2个数据集上都有较好的表现,在评估指标源失真比(SDR)上分别提升了1.05 dB和0.26 dB。
展开更多
关键词
目标语音提取
跨模态融合
自注意力
时间卷积网络
门控循环单元
下载PDF
职称材料
题名
基于跨模态注意力融合的煤炭异物检测方法
被引量:
1
1
作者
曹现刚
李虎
王鹏
吴旭东
向敬芳
丁文韬
机构
西安科技大学机械工程学院
陕西省矿山机电装备智能检测重点实验室
出处
《工矿自动化》
CSCD
北大核心
2024年第1期57-65,共9页
基金
国家自然科学基金面上项目(51975468)
陕西省重点研发计划项目(2018GY-160)
陕西省教育厅科学研究计划项目(18JC022)。
文摘
为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采用浅层的特征提取策略提取Depth图像的低级特征,用深度边缘与深度纹理等基础特征辅助RGB图像深层特征,以有效获得2种特征的互补信息,从而丰富异物特征的空间与边缘信息,提高检测精度;构建了基于坐标注意力与改进空间注意力的跨模态注意力融合模块(CAFM),以协同优化并融合RGB特征与Depth特征,增强网络对特征图中被遮挡异物可见部分的关注度,提高被遮挡异物检测精度;使用区域卷积神经网络(R-CNN)输出煤炭异物的分类、回归与分割结果。实验结果表明:在检测精度方面,该方法的AP相较两阶段模型中较优的Mask transfiner高3.9%;在检测效率方面,该方法的单帧检测时间为110.5 ms,能够满足异物检测实时性需求。基于跨模态注意力融合的煤炭异物检测方法能够以空间特征辅助色彩、形状与纹理等特征,准确识别煤炭异物之间及煤炭异物与输送带之间的差异,从而有效提高对复杂特征异物的检测精度,减少误检、漏检现象,实现复杂特征下煤炭异物的精确检测与像素级分割。
关键词
煤炭异物检测
实例分割
双特征金字塔网络
跨模态注意力融合
Depth图像
坐标注意力
改进空间注意力
Keywords
coal foreign object detection
instance segmentation
double feature pyramid
network
cross
modal
attention
fusion
Depth image
coordinate attention
improved spatial attention
分类号
TD67 [矿业工程—矿山机电]
下载PDF
职称材料
题名
基于跨模态特征融合的RGB-D显著性目标检测
2
作者
李可新
何丽
刘哲凝
钟润豪
机构
新疆大学智能制造现代产业学院(机械工程学院)
出处
《国外电子测量技术》
2024年第6期59-67,共9页
文摘
RGB-D显著性目标检测因其有效性和易于捕捉深度线索而受到越来越多的关注。现有的工作通常侧重于通过各种融合策略学习共享表示,少有方法明确考虑如何维持RGB和深度的模态特征。提出了一种跨模态特征融合网络,该网络维持RGB-D显著目标检测的RGB和深度的模态,通过探索共享信息以及RGB和深度模态的特性来提高显著检测性能。具体来说,采用RGB模态、深度模态网络和一个共享学习网络来生成RGB和深度模态显著性预测图以及共享显著性预测图。提出了一种跨模态特征融合模块,用于融合共享学习网络中的跨模态特征,然后将这些特征传播到下一层以整合跨层次信息。此外,提出了一种多模态特征聚合模块,将每个单独解码器的模态特定特征整合到共享解码器中,这可以提供丰富的互补多模态信息来提高显著性检测性能。最后,使用跳转连接来组合编码器和解码器层之间的分层特征。通过在4个基准数据集上与7种先进方法进行的实验表明,方法优于其他最先进的方法。
关键词
RGB-D显著性目标检测
跨模态融合网络
跨模态特征融合
多模态聚合
Keywords
RGB-D saliency object detection
cross modal fusion network
cross
modal
feature integrate module
multi
modal
feature aggregation
分类号
TN2 [电子电信—物理电子学]
下载PDF
职称材料
题名
基于多级语义对齐的图像-文本匹配算法
3
作者
李艺茹
姚涛
张林梁
孙玉娟
付海燕
机构
鲁东大学信息与电气工程学院
西南交通大学烟台新一代信息技术研究院
大连理工大学信息与通信工程学院
出处
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2024年第2期551-558,共8页
基金
国家自然科学基金(61872170,62076052,61873117)
国家重点研发项目(2021ZD0113002)。
文摘
图像中的区域特征更关注于图像中的前景信息,背景信息往往被忽略,如何有效的联合局部特征和全局特征还没有得到充分地研究。为解决上述问题,加强全局概念和局部概念之间的关联得到更准确的视觉特征,提出一种基于多级语义对齐的图像-文本匹配算法。提取局部图像特征,得到图像中的细粒度信息;提取全局图像特征,将环境信息引入到网络的学习中,从而得到不同的视觉关系层次,为联合的视觉特征提供更多的信息;将全局-局部图像特征进行联合,将联合后的视觉特征和文本特征进行全局-局部对齐得到更加精准的相似度表示。通过大量的实验和分析表明:所提算法在2个公共数据集上具有有效性。
关键词
图像-文本匹配
跨模态信息处理
特征提取
神经网络
特征融合
Keywords
image-text matching
cross
-
modal
information processing
feature extraction
neural
network
feature
fusion
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离
4
作者
兰朝凤
蒋朋威
陈欢
赵世龙
郭小霞
韩玉兰
韩闯
机构
哈尔滨理工大学测控技术与通信工程学院
哈尔滨工大卫星技术有限公司
中国舰船研究设计中心
出处
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024年第3期1005-1012,共8页
基金
国家自然科学基金(11804068)
黑龙江省自然科学基金(LH2020F033)。
文摘
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。
关键词
语音分离
视听融合
跨模态注意力
双路径递归网络
Conv-TasNet
Keywords
Speech separation
Audiovisual
fusion
cross
-
modal
attention
Dual-path recurrent
network
Conv-TasNet
分类号
TN912.3 [电子电信—通信与信息系统]
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
结合深度神经网络的网络监控系统微表情识别
5
作者
罗予东
李振坤
机构
嘉应学院计算机学院
广东工业大学计算机学院
出处
《计算机应用与软件》
北大核心
2023年第7期172-179,191,共9页
基金
国家自然科学基金面上项目(41172028)。
文摘
为了提高网络监控系统微表情识别的效果,结合深度神经网络技术提出新的智能监控系统微表情识别算法。将判别能力强的卷积神经网络特征与鲁棒的直方图特征结合,利用卷积神经网络提取目标的空间特征,再将卷积特征表示为直方图,结合直方图和卷积神经网络两者的优势设计新的人体追踪算法;设计跨模态监督的深度神经网络训练方法,将可见光视频数据送入深度神经网络进行训练,利用近红外光视频对训练程序进行监督。基于公开的多模态微表情识别数据集完成了验证实验,结果显示该算法有效地提高了微表情识别的性能。
关键词
卷积神经网络
智能监控系统
微表情识别
深度神经网络
跨模态融合
近红外光成像
Keywords
Convolutional neural
network
s
Intelligent monitoring system
Micro-expression recognition
Deep neural
network
s
cross
modal
ity
fusion
Near infrared imaging
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于深度跨模态信息融合网络的股票走势预测
被引量:
1
6
作者
程海阳
张建新
孙启森
张强
魏小鹏
机构
大连大学先进设计与智能计算教育部重点实验室
大连民族大学计算机科学与工程学院
大连理工大学计算机科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2023年第5期128-136,共9页
基金
国家自然科学基金辽宁省联合基金(U1908214)
国家自然科学基金(61972062)
+1 种基金
辽宁省“兴辽英才计划”项目(XLYC2008017)
辽宁省重点研发计划(2019JH2/10100030)。
文摘
股票走势预测是经典且具有挑战性的任务,可帮助交易者做出获得更大收益的交易决策。近年来,基于深度学习的股票走势预测方法的性能得到明显提升,但现有方法大多仅依托于股票价格的历史数据来完成走势预测,无法捕捉价格指标之外的市场动态规律,在一定程度上限制了方法的性能。为此,将社交媒体文本与股票历史价格信息相结合,提出了一种基于深度跨模态信息融合网络(DCIFNet)的股票走势预测新方法。DCIFNet首先采用时间卷积操作对股票价格和推特文本进行编码,使得每个元素对其邻域元素都有足够的了解;然后,将结果输入到基于transformer的跨模态融合结构中,以更有效地融合股票价格和推特文本中的重要信息;最后,引入多图卷积注意力网络从不同角度描述不同股票之间的相互关系,能够更有效地捕获关联股票间的行业、维基和相关关系,从而提升股票走势预测的精度。在9个不同行业的高频交易数据集上实施走势预测和模拟交易实验。消融实验及所提方法与用于股票预测的多管齐下的注意力网络(MAN-SF)方法的比较结果验证了DCIFNet方法的有效性,准确率达到了0.6309,明显优于领域内代表性方法。
关键词
股票走势预测
社交媒体文本
跨模态信息融合
图卷积网络
时间卷积
Keywords
Stock trend prediction
Social media text
cross
-
modal
information
fusion
Graph convolutional
network
Temporal convolution
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于双流跨模态特征融合模型的群养生猪体质量测定
7
作者
何威
米阳
刘刚
丁向东
李涛
机构
中国农业大学信息与电气工程学院
中国农业大学农业农村部农业信息获取技术重点实验室
中国农业大学动物科学技术学院
中国农业大学农业农村部动物遗传育种与繁殖重点实验室
河南丰源和普农牧有限公司
出处
《农业机械学报》
EI
CAS
CSCD
北大核心
2023年第S01期275-282,329,共9页
基金
财政部和农业农村部:国家现代农业产业技术体系项目(CARS-35)
文摘
针对生猪体质量准确测定问题,提出了一种跨模态特征融合模型(Cross-modality feature fusion ResNet, CFF-ResNet),充分利用可见光图像的纹理轮廓信息与深度图像的空间结构信息的互补性,实现了群养环境中无接触的生猪体质量智能测定。首先,采集并配准俯视猪圈的可见光与深度图像,并通过EdgeFlow算法对每一只目标生猪个体进行由粗到细的像素级分割。然后,基于ResNet50网络构建双流架构模型,通过内部插入门控形成双向连接,有效地结合可见光流和深度流的特征,实现跨模态特征融合。最后,双流分别回归出生猪体质量预估值,通过均值合并得到最终的体质量测定值。在试验中,以某种公猪场群养生猪为数据采集对象,构建了拥有9 842对配准可见光和深度图像的数据集,包括6 909对训练数据和2 933对测试数据。本研究所提出模型在测试集上的平均绝对误差为3.019 kg,平均准确率为96.132%。与基于可见光和基于深度的单模态基准模型相比,该模型体质量测定精度更高,其在平均绝对误差上分别减少18.095%和12.569%。同时,该模型体质量测定精度优于其他现有生猪体质量测定方法:常规图像处理模型、改进EfficientNetV2模型、改进DenseNet201模型和BotNet+DBRB+PFC模型,在平均绝对误差上分别减少46.272%、14.403%、8.847%和11.414%。试验结果表明,该测定模型能够有效学习跨模态的特征,满足了生猪体质量测定的高精度要求,为群养环境中生猪体质量测定提供了技术支撑。
关键词
群养生猪
体质量测定
双流网络
特征融合
跨模态学习
Keywords
group farming pigs
weight measurement
two-stream
network
feature
fusion
cross
-
modal
learning
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于跨模态特征融合的胆囊癌诊断模型研究
8
作者
尹梓名
沈达聪
束翌俊
杨自逸
龚伟
机构
上海理工大学健康科学与工程学院
上海康复器械工程技术研究中心
民政部神经功能信息与康复工程重点实验室
上海交通大学医学院附属新华医院普外科
出处
《软件导刊》
2023年第3期103-111,共9页
基金
国家自然科学基金项目(82074581,81974371,82172628)
上海市市级科技重大专项项目(2021SHZDZX)。
文摘
针对目前尚未有研究使用深度学习方法将胆囊癌影像、放射组学特征和肿瘤标志物等实验室检查数据融合应用于胆囊癌诊断的问题,提出一种跨模态特征融合的胆囊癌诊断模型。首先利用3D U-net网络进行胆囊区域分割并提取放射组学特征,使用三维卷积神经网络提取医学影像深度特征,再将这两者与实验室检查数据进行特征融合,将融合结果作为分类器的输入进行胆囊癌诊断。实验结果表明,该方法在分类准确率、特异度、灵敏度、精确率上相比最优的单类特征模型分别提高16.67%、12.62%、11.54%和13.14%。同5种常见的影像分类模型比较,其在准确率、特异度和精确率上均至少提高10.00%、25.00%和13.33%,由此得出该方法在胆囊癌诊断上具有更好的准确率与可靠性。
关键词
胆囊癌
跨模态特征融合
3D
U-net
放射组学
三维卷积神经网络
实验室检查数据
Keywords
gallbladder cancer
cross
-
modal
feature
fusion
3D U-net
radiomics
3D convolutional neural
network
laboratory inspection data
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语义关系图的跨模态张量融合网络的图像文本检索
被引量:
2
9
作者
刘长红
曾胜
张斌
陈勇
机构
江西师范大学计算机信息工程学院
南昌工程学院工商管理学院
出处
《计算机应用》
CSCD
北大核心
2022年第10期3018-3024,共7页
基金
国家自然科学基金资助项目(62067004)。
文摘
跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性。现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联。针对上述问题,提出了一种基于语义关系图的跨模态张量融合网络(CMTFN-SRG)的图像文本检索方法。首先,采用图卷积网络(GCN)学习图像区域间的关系并使用双向门控循环单元(Bi-GRU)构建文本单词间的关系;然后,将所学习到的图像区域和文本单词间的语义关系图通过张量融合网络进行匹配以学习两种不同模态数据间的细粒度语义关联;同时,采用门控循环单元(GRU)学习图像的全局特征,并将图像和文本的全局特征进行匹配以捕获模态间的全局语义相关性。将所提方法在Flickr30K和MS-COCO两个基准数据集上与多模态交叉注意力(MMCA)方法进行了对比分析。实验结果表明,所提方法在Flickr30K测试集、MS-COCO1K测试集以及MS-COCO5K测试集上文本检索图像任务的Recall@1分别提升了2.6%、9.0%和4.1%,召回率均值(mR)分别提升了0.4、1.3和0.1个百分点,可见该方法能有效提升图像文本检索的精度。
关键词
跨模态检索
张量融合网络
图卷积网络
语义相关性
语义关系图
Keywords
cross
-
modal
retrieval
tensor
fusion
network
Graph Convolutional
network
(GCN)
semantic correlation
semantic relation graph
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于局部异质协同双路网络的跨模态行人重识别
被引量:
4
10
作者
郑爱华
曾小强
江波
黄岩
汤进
机构
安徽大学计算智能与信号处理教育部重点实验室
安徽省科学技术厅安徽省工业图像处理与分析重点实验室
中国科学院自动化研究所模式识别国家重点实验室
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2020年第10期867-878,共12页
基金
新一代人工智能重大项目(No.2018AAA0100400)
国家自然科学基金项目(No.61976002)
+3 种基金
安徽省重点研究与开发计划对外科技合作项目(No.201904b11020037)
安徽省高等学校自然科学研究重点项目(No.KJ2019A0033)
模式识别国家重点实验室开放课题基金项目(No.201900046)
安徽大学物质科学与信息技术研究院开放课题资助。
文摘
针对现有跨模态行人重识别方法忽略行人的局部特征及模态间的相互协同的问题,文中提出基于局部异质协同双路网络的跨模态行人重识别方法.首先,通过双路网络提取不同模态的全局特征进行局部精细化,挖掘行人的结构化局部信息.然后,通过标签和预测信息建立跨模态局部信息之间的关联,进行协同自适应的跨模态融合,使不同模态的特征之间相互补充,获得富有判别力的特征.在RegDB、SYSU-MM01跨模态行人重识别数据集上的实验验证文中方法的有效性.
关键词
行人重识别
跨模态
局部特征
协同融合
卷积神经网络
Keywords
Person Re-identification
cross
-
modal
Local Feature
Collaborative
fusion
Convolutional Neural
network
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于跨域融合网络的红外目标检测方法
被引量:
11
11
作者
赵明
张浩然
机构
上海海事大学信息工程学院
中国科学院上海技术物理研究所中国科学院智能红外感知重点实验室
出处
《光子学报》
EI
CAS
CSCD
北大核心
2021年第11期331-341,共11页
基金
上海市自然科学基金(No.20ZR1423500)
中国科学院智能红外感知重点实验室开放课题(No.CAS-IIRP-04)。
文摘
由于红外图像本身缺乏纹理信息,多数目标检测网络针对红外图像难以达到理想的检测效果,该方法提出了一种跨域融合网络结构,结合多个模态进行红外目标检测。首先,采用无需成对的图像转换网络,对已有的红外数据集进行模态转换,生成伪可见光数据集;然后,提出了红外域和伪可见光域双通道的多尺度特征融合结构,采用特征金字塔网络获取每个模态的特征图,对多尺度特征进行双模态特征融合;最后,为了弥补融合过程中的纹理缺失,提出软权重分配模块,通过拼接参数化后的源域、目标域和融合域特征,自适应分配和优化网络权重,从而提高特征提取与目标检测的精度。与常规方法相比该方法方法具有更好的红外目标检测性能。
关键词
红外图像
红外目标检测
模态转换网络
跨域融合
软权重分配
Keywords
Infrared image
Infrared target detection
modal
transformation
network
cross
-domain
fusion
Soft weight distribution
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于多层跨模态注意力融合的图文情感分析
被引量:
3
12
作者
陈巧红
孙佳锦
孙麒
贾宇波
机构
浙江理工大学信息学院
出处
《浙江理工大学学报(自然科学版)》
2022年第1期85-94,共10页
基金
浙江理工大学中青年骨干人才培养经费项目。
文摘
针对现有图文情感分析模型仅考虑图像高层特征与文本特征的联系,而忽视图像低层特征的问题,提出了一种基于多层跨模态注意力融合(Multi-level cross-modal attention fusion, MCAF)的图文情感分析模型。该模型首先将VGG13网络外接多层卷积,以获取不同层次的图像特征,并使用BERT词嵌入与双向门控循环网络(Gated recurrent unit, GRU)网络获取文本情感特征;然后将提取后的多层图像特征与文本特征进行注意力融合,得到多组单层文本-图像注意力融合特征,并将其通过注意力网络分配权重;最后将得到的多层文本-图像注意力融合特征输入全连接层,得到分类结果。在公开的MVSA和Memotion-7k数据集上进行实验,结果显示:与图文情感分析基线模型相比,基于多层跨模态注意力融合的图文情感分析模型的准确率和F1值在MVSA数据集上分别提升2.61%和3.56%,在Memotion-7k数据集上分别提升3.25%和3.63%。这表明该模型能够有效提高图文情感分类性能。
关键词
图文情感分析
门控循环网络
注意力机制
跨模态融合
多层图像特征抽取
Keywords
image-text sentiment analysis
gated recurrent unit(GRU)
network
attention mechanism
cross
modal
fusion
multi-layer image feature extraction
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
互补特征交互融合的RGB_D实时显著目标检测
13
作者
叶欣悦
朱磊
王文武
付云
机构
武汉科技大学信息科学与工程学院
出处
《中国图象图形学报》
CSCD
北大核心
2024年第5期1252-1264,共13页
基金
国家自然科学基金项目(61873196,61502358)。
文摘
目的 通过融合颜色、深度和空间信息,利用RGB_D这两种模态数据的显著目标检测方案通常能比单一模态数据取得更加准确的预测结果。深度学习进一步推动RGB_D显著目标检测领域的发展。然而,现有RGB_D显著目标检测深度网络模型容易忽略模态的特异性,通常仅通过简单的元素相加、相乘或特征串联来融合多模态特征,如何实现RGB图像和深度图像之间的信息交互则缺乏合理性解释。为了探求两种模态数据中的互补信息重要性及更有效的交互方式,在分析了传统卷积网络中修正线性单元(rectified linear unit,ReLU)选通特性的基础上,设计了一种新的RGB和深度特征互补信息交互机制,并首次应用于RGB_D显著目标检测中。方法 首先,根据该机制提出了互补信息交互模块将模态各自的“冗余”特征用于辅助对方。然后,将其阶段式插入两个轻量级主干网络分别用于提取RGB和深度特征并实施两者的交互。该模块核心功能基于修改的ReLU,具有结构简单的特点。在网络的顶层还设计了跨模态特征融合模块用于提取融合后特征的全局语义信息。该特征被馈送至主干网络每个尺度,并通过邻域尺度特征增强模块与多个尺度特征进行聚合。最后,采用了深度恢复监督、边缘监督和深度监督3种监督策略以有效监督提出模型的优化过程。结果 在4个广泛使用的公开数据集NJU2K(Nanjing University2K)、NLPR(national laboratory of pattern recognition)、STERE(stereo dataset)和SIP(salient person)上的定量和定性的实验结果表明,以Max F-measure、MAE(mean absolute error)以及Max E-measure共3种主流测度评估,本文提出的显著目标检测模型相比较其他方法取得了更优秀的性能和显著的推理速度优势(373.8帧/s)。结论 本文论证了在RGB_D显著目标检测中两种模态数据具有信息互补特点,提出的模型具有较好的性能和高效率推理能力,有较好的实际应用价值。
关键词
显著目标检测(SOD)
RGB_D
深度卷积网络
互补信息交互
跨模态特征融合
Keywords
salient object detection(SOD)
RGB_D
deep convolutional
network
complementary information interaction
cross
-
modal
feature
fusion
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于跨模态注意力的目标语音提取
14
作者
杨明强
卢健
机构
大连大学信息工程学院
出处
《计算机工程》
CAS
2024年第9期121-129,共9页
基金
NSFC-辽宁联合重点支持项目(U1708263)。
文摘
目标语音提取作为语音分离领域的一部分,旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性,在进行模型训练时,可以融合视觉信息指导模型对目标语音的提取。对此,传统方法是将视觉特征和音频特征进行简单拼接,然后进行卷积操作实现通道融合,这种方法无法有效挖掘到跨模态信息间的相关性。针对这个问题,设计一个基于两阶段的跨模态注意力特征融合模块。在第一阶段进行点积注意力计算来挖掘跨模态信息间存在的浅层相关性,在第二阶段进行自注意力计算来捕捉目标语音特征间的全局依赖关系,以增强目标语音的特征表示,2个融合阶段分别训练不同的可学习参数来调节注意力权重。此外还在时间卷积网络(TCN)中引入门控循环单元(GRU)来增强其捕捉序列数据间长期依赖关系的能力,从而改善视觉特征的提取,进一步提升视听特征的融合效果。在VoxCeleb2和LRS2-BBC两个数据集上进行测试,实验结果表明,相比于基线方法,提出的方法在2个数据集上都有较好的表现,在评估指标源失真比(SDR)上分别提升了1.05 dB和0.26 dB。
关键词
目标语音提取
跨模态融合
自注意力
时间卷积网络
门控循环单元
Keywords
target speech extraction
cross
-
modal
fusion
self-attention
Temporal Convolutional
network
(TCN)
Gated Recurrent Unit(GRU)
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于跨模态注意力融合的煤炭异物检测方法
曹现刚
李虎
王鹏
吴旭东
向敬芳
丁文韬
《工矿自动化》
CSCD
北大核心
2024
1
下载PDF
职称材料
2
基于跨模态特征融合的RGB-D显著性目标检测
李可新
何丽
刘哲凝
钟润豪
《国外电子测量技术》
2024
0
下载PDF
职称材料
3
基于多级语义对齐的图像-文本匹配算法
李艺茹
姚涛
张林梁
孙玉娟
付海燕
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
4
基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离
兰朝凤
蒋朋威
陈欢
赵世龙
郭小霞
韩玉兰
韩闯
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
5
结合深度神经网络的网络监控系统微表情识别
罗予东
李振坤
《计算机应用与软件》
北大核心
2023
0
下载PDF
职称材料
6
基于深度跨模态信息融合网络的股票走势预测
程海阳
张建新
孙启森
张强
魏小鹏
《计算机科学》
CSCD
北大核心
2023
1
下载PDF
职称材料
7
基于双流跨模态特征融合模型的群养生猪体质量测定
何威
米阳
刘刚
丁向东
李涛
《农业机械学报》
EI
CAS
CSCD
北大核心
2023
0
下载PDF
职称材料
8
基于跨模态特征融合的胆囊癌诊断模型研究
尹梓名
沈达聪
束翌俊
杨自逸
龚伟
《软件导刊》
2023
0
下载PDF
职称材料
9
基于语义关系图的跨模态张量融合网络的图像文本检索
刘长红
曾胜
张斌
陈勇
《计算机应用》
CSCD
北大核心
2022
2
下载PDF
职称材料
10
基于局部异质协同双路网络的跨模态行人重识别
郑爱华
曾小强
江波
黄岩
汤进
《模式识别与人工智能》
EI
CSCD
北大核心
2020
4
下载PDF
职称材料
11
一种基于跨域融合网络的红外目标检测方法
赵明
张浩然
《光子学报》
EI
CAS
CSCD
北大核心
2021
11
下载PDF
职称材料
12
基于多层跨模态注意力融合的图文情感分析
陈巧红
孙佳锦
孙麒
贾宇波
《浙江理工大学学报(自然科学版)》
2022
3
下载PDF
职称材料
13
互补特征交互融合的RGB_D实时显著目标检测
叶欣悦
朱磊
王文武
付云
《中国图象图形学报》
CSCD
北大核心
2024
0
原文传递
14
基于跨模态注意力的目标语音提取
杨明强
卢健
《计算机工程》
CAS
2024
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部