期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于跨模态注意力融合的煤炭异物检测方法 被引量:1
1
作者 曹现刚 李虎 +3 位作者 王鹏 吴旭东 向敬芳 丁文韬 《工矿自动化》 CSCD 北大核心 2024年第1期57-65,共9页
为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采... 为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采用浅层的特征提取策略提取Depth图像的低级特征,用深度边缘与深度纹理等基础特征辅助RGB图像深层特征,以有效获得2种特征的互补信息,从而丰富异物特征的空间与边缘信息,提高检测精度;构建了基于坐标注意力与改进空间注意力的跨模态注意力融合模块(CAFM),以协同优化并融合RGB特征与Depth特征,增强网络对特征图中被遮挡异物可见部分的关注度,提高被遮挡异物检测精度;使用区域卷积神经网络(R-CNN)输出煤炭异物的分类、回归与分割结果。实验结果表明:在检测精度方面,该方法的AP相较两阶段模型中较优的Mask transfiner高3.9%;在检测效率方面,该方法的单帧检测时间为110.5 ms,能够满足异物检测实时性需求。基于跨模态注意力融合的煤炭异物检测方法能够以空间特征辅助色彩、形状与纹理等特征,准确识别煤炭异物之间及煤炭异物与输送带之间的差异,从而有效提高对复杂特征异物的检测精度,减少误检、漏检现象,实现复杂特征下煤炭异物的精确检测与像素级分割。 展开更多
关键词 煤炭异物检测 实例分割 双特征金字塔网络 跨模态注意力融合 Depth图像 坐标注意力 改进空间注意力
下载PDF
基于跨模态特征融合的RGB-D显著性目标检测
2
作者 李可新 何丽 +1 位作者 刘哲凝 钟润豪 《国外电子测量技术》 2024年第6期59-67,共9页
RGB-D显著性目标检测因其有效性和易于捕捉深度线索而受到越来越多的关注。现有的工作通常侧重于通过各种融合策略学习共享表示,少有方法明确考虑如何维持RGB和深度的模态特征。提出了一种跨模态特征融合网络,该网络维持RGB-D显著目标... RGB-D显著性目标检测因其有效性和易于捕捉深度线索而受到越来越多的关注。现有的工作通常侧重于通过各种融合策略学习共享表示,少有方法明确考虑如何维持RGB和深度的模态特征。提出了一种跨模态特征融合网络,该网络维持RGB-D显著目标检测的RGB和深度的模态,通过探索共享信息以及RGB和深度模态的特性来提高显著检测性能。具体来说,采用RGB模态、深度模态网络和一个共享学习网络来生成RGB和深度模态显著性预测图以及共享显著性预测图。提出了一种跨模态特征融合模块,用于融合共享学习网络中的跨模态特征,然后将这些特征传播到下一层以整合跨层次信息。此外,提出了一种多模态特征聚合模块,将每个单独解码器的模态特定特征整合到共享解码器中,这可以提供丰富的互补多模态信息来提高显著性检测性能。最后,使用跳转连接来组合编码器和解码器层之间的分层特征。通过在4个基准数据集上与7种先进方法进行的实验表明,方法优于其他最先进的方法。 展开更多
关键词 RGB-D显著性目标检测 跨模态融合网络 跨模态特征融合 多模态聚合
下载PDF
基于多级语义对齐的图像-文本匹配算法
3
作者 李艺茹 姚涛 +2 位作者 张林梁 孙玉娟 付海燕 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期551-558,共8页
图像中的区域特征更关注于图像中的前景信息,背景信息往往被忽略,如何有效的联合局部特征和全局特征还没有得到充分地研究。为解决上述问题,加强全局概念和局部概念之间的关联得到更准确的视觉特征,提出一种基于多级语义对齐的图像-文... 图像中的区域特征更关注于图像中的前景信息,背景信息往往被忽略,如何有效的联合局部特征和全局特征还没有得到充分地研究。为解决上述问题,加强全局概念和局部概念之间的关联得到更准确的视觉特征,提出一种基于多级语义对齐的图像-文本匹配算法。提取局部图像特征,得到图像中的细粒度信息;提取全局图像特征,将环境信息引入到网络的学习中,从而得到不同的视觉关系层次,为联合的视觉特征提供更多的信息;将全局-局部图像特征进行联合,将联合后的视觉特征和文本特征进行全局-局部对齐得到更加精准的相似度表示。通过大量的实验和分析表明:所提算法在2个公共数据集上具有有效性。 展开更多
关键词 图像-文本匹配 跨模态信息处理 特征提取 神经网络 特征融合
下载PDF
基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离
4
作者 兰朝凤 蒋朋威 +4 位作者 陈欢 赵世龙 郭小霞 韩玉兰 韩闯 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第3期1005-1012,共8页
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型... 目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。 展开更多
关键词 语音分离 视听融合 跨模态注意力 双路径递归网络 Conv-TasNet
下载PDF
结合深度神经网络的网络监控系统微表情识别
5
作者 罗予东 李振坤 《计算机应用与软件》 北大核心 2023年第7期172-179,191,共9页
为了提高网络监控系统微表情识别的效果,结合深度神经网络技术提出新的智能监控系统微表情识别算法。将判别能力强的卷积神经网络特征与鲁棒的直方图特征结合,利用卷积神经网络提取目标的空间特征,再将卷积特征表示为直方图,结合直方图... 为了提高网络监控系统微表情识别的效果,结合深度神经网络技术提出新的智能监控系统微表情识别算法。将判别能力强的卷积神经网络特征与鲁棒的直方图特征结合,利用卷积神经网络提取目标的空间特征,再将卷积特征表示为直方图,结合直方图和卷积神经网络两者的优势设计新的人体追踪算法;设计跨模态监督的深度神经网络训练方法,将可见光视频数据送入深度神经网络进行训练,利用近红外光视频对训练程序进行监督。基于公开的多模态微表情识别数据集完成了验证实验,结果显示该算法有效地提高了微表情识别的性能。 展开更多
关键词 卷积神经网络 智能监控系统 微表情识别 深度神经网络 跨模态融合 近红外光成像
下载PDF
基于深度跨模态信息融合网络的股票走势预测 被引量:1
6
作者 程海阳 张建新 +2 位作者 孙启森 张强 魏小鹏 《计算机科学》 CSCD 北大核心 2023年第5期128-136,共9页
股票走势预测是经典且具有挑战性的任务,可帮助交易者做出获得更大收益的交易决策。近年来,基于深度学习的股票走势预测方法的性能得到明显提升,但现有方法大多仅依托于股票价格的历史数据来完成走势预测,无法捕捉价格指标之外的市场动... 股票走势预测是经典且具有挑战性的任务,可帮助交易者做出获得更大收益的交易决策。近年来,基于深度学习的股票走势预测方法的性能得到明显提升,但现有方法大多仅依托于股票价格的历史数据来完成走势预测,无法捕捉价格指标之外的市场动态规律,在一定程度上限制了方法的性能。为此,将社交媒体文本与股票历史价格信息相结合,提出了一种基于深度跨模态信息融合网络(DCIFNet)的股票走势预测新方法。DCIFNet首先采用时间卷积操作对股票价格和推特文本进行编码,使得每个元素对其邻域元素都有足够的了解;然后,将结果输入到基于transformer的跨模态融合结构中,以更有效地融合股票价格和推特文本中的重要信息;最后,引入多图卷积注意力网络从不同角度描述不同股票之间的相互关系,能够更有效地捕获关联股票间的行业、维基和相关关系,从而提升股票走势预测的精度。在9个不同行业的高频交易数据集上实施走势预测和模拟交易实验。消融实验及所提方法与用于股票预测的多管齐下的注意力网络(MAN-SF)方法的比较结果验证了DCIFNet方法的有效性,准确率达到了0.6309,明显优于领域内代表性方法。 展开更多
关键词 股票走势预测 社交媒体文本 跨模态信息融合 图卷积网络 时间卷积
下载PDF
基于双流跨模态特征融合模型的群养生猪体质量测定
7
作者 何威 米阳 +2 位作者 刘刚 丁向东 李涛 《农业机械学报》 EI CAS CSCD 北大核心 2023年第S01期275-282,329,共9页
针对生猪体质量准确测定问题,提出了一种跨模态特征融合模型(Cross-modality feature fusion ResNet, CFF-ResNet),充分利用可见光图像的纹理轮廓信息与深度图像的空间结构信息的互补性,实现了群养环境中无接触的生猪体质量智能测定。首... 针对生猪体质量准确测定问题,提出了一种跨模态特征融合模型(Cross-modality feature fusion ResNet, CFF-ResNet),充分利用可见光图像的纹理轮廓信息与深度图像的空间结构信息的互补性,实现了群养环境中无接触的生猪体质量智能测定。首先,采集并配准俯视猪圈的可见光与深度图像,并通过EdgeFlow算法对每一只目标生猪个体进行由粗到细的像素级分割。然后,基于ResNet50网络构建双流架构模型,通过内部插入门控形成双向连接,有效地结合可见光流和深度流的特征,实现跨模态特征融合。最后,双流分别回归出生猪体质量预估值,通过均值合并得到最终的体质量测定值。在试验中,以某种公猪场群养生猪为数据采集对象,构建了拥有9 842对配准可见光和深度图像的数据集,包括6 909对训练数据和2 933对测试数据。本研究所提出模型在测试集上的平均绝对误差为3.019 kg,平均准确率为96.132%。与基于可见光和基于深度的单模态基准模型相比,该模型体质量测定精度更高,其在平均绝对误差上分别减少18.095%和12.569%。同时,该模型体质量测定精度优于其他现有生猪体质量测定方法:常规图像处理模型、改进EfficientNetV2模型、改进DenseNet201模型和BotNet+DBRB+PFC模型,在平均绝对误差上分别减少46.272%、14.403%、8.847%和11.414%。试验结果表明,该测定模型能够有效学习跨模态的特征,满足了生猪体质量测定的高精度要求,为群养环境中生猪体质量测定提供了技术支撑。 展开更多
关键词 群养生猪 体质量测定 双流网络 特征融合 跨模态学习
下载PDF
基于跨模态特征融合的胆囊癌诊断模型研究
8
作者 尹梓名 沈达聪 +2 位作者 束翌俊 杨自逸 龚伟 《软件导刊》 2023年第3期103-111,共9页
针对目前尚未有研究使用深度学习方法将胆囊癌影像、放射组学特征和肿瘤标志物等实验室检查数据融合应用于胆囊癌诊断的问题,提出一种跨模态特征融合的胆囊癌诊断模型。首先利用3D U-net网络进行胆囊区域分割并提取放射组学特征,使用三... 针对目前尚未有研究使用深度学习方法将胆囊癌影像、放射组学特征和肿瘤标志物等实验室检查数据融合应用于胆囊癌诊断的问题,提出一种跨模态特征融合的胆囊癌诊断模型。首先利用3D U-net网络进行胆囊区域分割并提取放射组学特征,使用三维卷积神经网络提取医学影像深度特征,再将这两者与实验室检查数据进行特征融合,将融合结果作为分类器的输入进行胆囊癌诊断。实验结果表明,该方法在分类准确率、特异度、灵敏度、精确率上相比最优的单类特征模型分别提高16.67%、12.62%、11.54%和13.14%。同5种常见的影像分类模型比较,其在准确率、特异度和精确率上均至少提高10.00%、25.00%和13.33%,由此得出该方法在胆囊癌诊断上具有更好的准确率与可靠性。 展开更多
关键词 胆囊癌 跨模态特征融合 3D U-net 放射组学 三维卷积神经网络 实验室检查数据
下载PDF
基于语义关系图的跨模态张量融合网络的图像文本检索 被引量:2
9
作者 刘长红 曾胜 +1 位作者 张斌 陈勇 《计算机应用》 CSCD 北大核心 2022年第10期3018-3024,共7页
跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性。现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联。针对... 跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性。现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联。针对上述问题,提出了一种基于语义关系图的跨模态张量融合网络(CMTFN-SRG)的图像文本检索方法。首先,采用图卷积网络(GCN)学习图像区域间的关系并使用双向门控循环单元(Bi-GRU)构建文本单词间的关系;然后,将所学习到的图像区域和文本单词间的语义关系图通过张量融合网络进行匹配以学习两种不同模态数据间的细粒度语义关联;同时,采用门控循环单元(GRU)学习图像的全局特征,并将图像和文本的全局特征进行匹配以捕获模态间的全局语义相关性。将所提方法在Flickr30K和MS-COCO两个基准数据集上与多模态交叉注意力(MMCA)方法进行了对比分析。实验结果表明,所提方法在Flickr30K测试集、MS-COCO1K测试集以及MS-COCO5K测试集上文本检索图像任务的Recall@1分别提升了2.6%、9.0%和4.1%,召回率均值(mR)分别提升了0.4、1.3和0.1个百分点,可见该方法能有效提升图像文本检索的精度。 展开更多
关键词 跨模态检索 张量融合网络 图卷积网络 语义相关性 语义关系图
下载PDF
基于局部异质协同双路网络的跨模态行人重识别 被引量:4
10
作者 郑爱华 曾小强 +2 位作者 江波 黄岩 汤进 《模式识别与人工智能》 EI CSCD 北大核心 2020年第10期867-878,共12页
针对现有跨模态行人重识别方法忽略行人的局部特征及模态间的相互协同的问题,文中提出基于局部异质协同双路网络的跨模态行人重识别方法.首先,通过双路网络提取不同模态的全局特征进行局部精细化,挖掘行人的结构化局部信息.然后,通过标... 针对现有跨模态行人重识别方法忽略行人的局部特征及模态间的相互协同的问题,文中提出基于局部异质协同双路网络的跨模态行人重识别方法.首先,通过双路网络提取不同模态的全局特征进行局部精细化,挖掘行人的结构化局部信息.然后,通过标签和预测信息建立跨模态局部信息之间的关联,进行协同自适应的跨模态融合,使不同模态的特征之间相互补充,获得富有判别力的特征.在RegDB、SYSU-MM01跨模态行人重识别数据集上的实验验证文中方法的有效性. 展开更多
关键词 行人重识别 跨模态 局部特征 协同融合 卷积神经网络
下载PDF
一种基于跨域融合网络的红外目标检测方法 被引量:11
11
作者 赵明 张浩然 《光子学报》 EI CAS CSCD 北大核心 2021年第11期331-341,共11页
由于红外图像本身缺乏纹理信息,多数目标检测网络针对红外图像难以达到理想的检测效果,该方法提出了一种跨域融合网络结构,结合多个模态进行红外目标检测。首先,采用无需成对的图像转换网络,对已有的红外数据集进行模态转换,生成伪可见... 由于红外图像本身缺乏纹理信息,多数目标检测网络针对红外图像难以达到理想的检测效果,该方法提出了一种跨域融合网络结构,结合多个模态进行红外目标检测。首先,采用无需成对的图像转换网络,对已有的红外数据集进行模态转换,生成伪可见光数据集;然后,提出了红外域和伪可见光域双通道的多尺度特征融合结构,采用特征金字塔网络获取每个模态的特征图,对多尺度特征进行双模态特征融合;最后,为了弥补融合过程中的纹理缺失,提出软权重分配模块,通过拼接参数化后的源域、目标域和融合域特征,自适应分配和优化网络权重,从而提高特征提取与目标检测的精度。与常规方法相比该方法方法具有更好的红外目标检测性能。 展开更多
关键词 红外图像 红外目标检测 模态转换网络 跨域融合 软权重分配
下载PDF
基于多层跨模态注意力融合的图文情感分析 被引量:3
12
作者 陈巧红 孙佳锦 +1 位作者 孙麒 贾宇波 《浙江理工大学学报(自然科学版)》 2022年第1期85-94,共10页
针对现有图文情感分析模型仅考虑图像高层特征与文本特征的联系,而忽视图像低层特征的问题,提出了一种基于多层跨模态注意力融合(Multi-level cross-modal attention fusion, MCAF)的图文情感分析模型。该模型首先将VGG13网络外接多层卷... 针对现有图文情感分析模型仅考虑图像高层特征与文本特征的联系,而忽视图像低层特征的问题,提出了一种基于多层跨模态注意力融合(Multi-level cross-modal attention fusion, MCAF)的图文情感分析模型。该模型首先将VGG13网络外接多层卷积,以获取不同层次的图像特征,并使用BERT词嵌入与双向门控循环网络(Gated recurrent unit, GRU)网络获取文本情感特征;然后将提取后的多层图像特征与文本特征进行注意力融合,得到多组单层文本-图像注意力融合特征,并将其通过注意力网络分配权重;最后将得到的多层文本-图像注意力融合特征输入全连接层,得到分类结果。在公开的MVSA和Memotion-7k数据集上进行实验,结果显示:与图文情感分析基线模型相比,基于多层跨模态注意力融合的图文情感分析模型的准确率和F1值在MVSA数据集上分别提升2.61%和3.56%,在Memotion-7k数据集上分别提升3.25%和3.63%。这表明该模型能够有效提高图文情感分类性能。 展开更多
关键词 图文情感分析 门控循环网络 注意力机制 跨模态融合 多层图像特征抽取
下载PDF
互补特征交互融合的RGB_D实时显著目标检测
13
作者 叶欣悦 朱磊 +1 位作者 王文武 付云 《中国图象图形学报》 CSCD 北大核心 2024年第5期1252-1264,共13页
目的 通过融合颜色、深度和空间信息,利用RGB_D这两种模态数据的显著目标检测方案通常能比单一模态数据取得更加准确的预测结果。深度学习进一步推动RGB_D显著目标检测领域的发展。然而,现有RGB_D显著目标检测深度网络模型容易忽略模态... 目的 通过融合颜色、深度和空间信息,利用RGB_D这两种模态数据的显著目标检测方案通常能比单一模态数据取得更加准确的预测结果。深度学习进一步推动RGB_D显著目标检测领域的发展。然而,现有RGB_D显著目标检测深度网络模型容易忽略模态的特异性,通常仅通过简单的元素相加、相乘或特征串联来融合多模态特征,如何实现RGB图像和深度图像之间的信息交互则缺乏合理性解释。为了探求两种模态数据中的互补信息重要性及更有效的交互方式,在分析了传统卷积网络中修正线性单元(rectified linear unit,ReLU)选通特性的基础上,设计了一种新的RGB和深度特征互补信息交互机制,并首次应用于RGB_D显著目标检测中。方法 首先,根据该机制提出了互补信息交互模块将模态各自的“冗余”特征用于辅助对方。然后,将其阶段式插入两个轻量级主干网络分别用于提取RGB和深度特征并实施两者的交互。该模块核心功能基于修改的ReLU,具有结构简单的特点。在网络的顶层还设计了跨模态特征融合模块用于提取融合后特征的全局语义信息。该特征被馈送至主干网络每个尺度,并通过邻域尺度特征增强模块与多个尺度特征进行聚合。最后,采用了深度恢复监督、边缘监督和深度监督3种监督策略以有效监督提出模型的优化过程。结果 在4个广泛使用的公开数据集NJU2K(Nanjing University2K)、NLPR(national laboratory of pattern recognition)、STERE(stereo dataset)和SIP(salient person)上的定量和定性的实验结果表明,以Max F-measure、MAE(mean absolute error)以及Max E-measure共3种主流测度评估,本文提出的显著目标检测模型相比较其他方法取得了更优秀的性能和显著的推理速度优势(373.8帧/s)。结论 本文论证了在RGB_D显著目标检测中两种模态数据具有信息互补特点,提出的模型具有较好的性能和高效率推理能力,有较好的实际应用价值。 展开更多
关键词 显著目标检测(SOD) RGB_D 深度卷积网络 互补信息交互 跨模态特征融合
原文传递
基于跨模态注意力的目标语音提取
14
作者 杨明强 卢健 《计算机工程》 CAS 2024年第9期121-129,共9页
目标语音提取作为语音分离领域的一部分,旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性,在进行模型训练时,可以融合视觉信息指导模型对目标语音的提取。对此,传统方法是将视觉特征和音频特征进行简单拼接,然后进... 目标语音提取作为语音分离领域的一部分,旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性,在进行模型训练时,可以融合视觉信息指导模型对目标语音的提取。对此,传统方法是将视觉特征和音频特征进行简单拼接,然后进行卷积操作实现通道融合,这种方法无法有效挖掘到跨模态信息间的相关性。针对这个问题,设计一个基于两阶段的跨模态注意力特征融合模块。在第一阶段进行点积注意力计算来挖掘跨模态信息间存在的浅层相关性,在第二阶段进行自注意力计算来捕捉目标语音特征间的全局依赖关系,以增强目标语音的特征表示,2个融合阶段分别训练不同的可学习参数来调节注意力权重。此外还在时间卷积网络(TCN)中引入门控循环单元(GRU)来增强其捕捉序列数据间长期依赖关系的能力,从而改善视觉特征的提取,进一步提升视听特征的融合效果。在VoxCeleb2和LRS2-BBC两个数据集上进行测试,实验结果表明,相比于基线方法,提出的方法在2个数据集上都有较好的表现,在评估指标源失真比(SDR)上分别提升了1.05 dB和0.26 dB。 展开更多
关键词 目标语音提取 跨模态融合 自注意力 时间卷积网络 门控循环单元
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部