期刊文献+
共找到569篇文章
< 1 2 29 >
每页显示 20 50 100
MMCSC:一种跨模态的假新闻检测方法
1
作者 赵越 郝琨 +1 位作者 赵敬 信俊昌 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期18-25,共8页
目前基于新闻内容的假新闻检测方法没有考虑到不同模态更高层的语义关联,缺少可以依据的信息对新闻进行判断,从而缺乏对有重要辨别特征的新闻的社交网络信息进行有效使用.针对这个问题,提出了基于新闻内容的假新闻检测方法,通过提取文... 目前基于新闻内容的假新闻检测方法没有考虑到不同模态更高层的语义关联,缺少可以依据的信息对新闻进行判断,从而缺乏对有重要辨别特征的新闻的社交网络信息进行有效使用.针对这个问题,提出了基于新闻内容的假新闻检测方法,通过提取文本、图像和视频等多模态新闻的高层语义特征,分析不同模态高层语义信息,设计跨模态主题一致性和跨模态情感一致性计算方法.在此基础上,设计了一种跨模态内容语义一致性的假新闻检测模型MMCSC(multi-modal feature content semantic consistency).实验证明,相比于传统方法,所提出的MMCSC有较好的检测效果. 展开更多
关键词 假新闻检测 内容语义一致性 跨模态主题一致性 跨模态情感一致性
下载PDF
面向跨模态检索的查询感知双重对比学习网络
2
作者 尹梦冉 梁美玉 +3 位作者 于洋 曹晓雯 杜军平 薛哲 《软件学报》 EI CSCD 北大核心 2024年第5期2120-2132,共13页
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和... 近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,提出一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,提出一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法. 展开更多
关键词 跨模态语义融合 跨模态检索 视频时刻定位 对比学习
下载PDF
基于复合跨模态交互网络的时序多模态情感分析 被引量:1
3
作者 杨力 钟俊弘 +1 位作者 张赟 宋欣渝 《计算机科学与探索》 CSCD 北大核心 2024年第5期1318-1327,共10页
针对多模态情感分析中存在的不同模态间语义特征差异性导致模态融合不充分、交互性弱等问题,通过研究分析不同模态之间存在的潜在关联性,搭建一种基于复合跨模态交互网络的时序多模态情感分析(CCIN-SA)模型。该模型首先使用双向门控循... 针对多模态情感分析中存在的不同模态间语义特征差异性导致模态融合不充分、交互性弱等问题,通过研究分析不同模态之间存在的潜在关联性,搭建一种基于复合跨模态交互网络的时序多模态情感分析(CCIN-SA)模型。该模型首先使用双向门控循环单元和多头注意力机制提取具有上下文语义信息的文本、视觉和语音模态时序特征;然后,设计跨模态注意力交互层,利用辅助模态的低阶信号不断强化目标模态,使得目标模态学习到辅助模态的信息,捕获模态间的潜在适应性;再将增强后的特征输入到复合特征融合层,通过条件向量进一步捕获不同模态间的相似性,增强重要特征的关联程度,挖掘模态间更深层次的交互性;最后,利用多头注意力机制将复合跨模态强化后的特征与低阶信号做拼接融合,提高模态内部重要特征的权重,保留初始模态独有的特征信息,将得到的多模态融合特征进行最终的情感分类任务。在CMU-MOSI和CMUMOSEI数据集上进行模型评估,结果表明,CCIN-SA模型相比其他现有模型在准确率和F1指标上均有提高,能够有效挖掘不同模态间的关联性,做出更加准确的情感判断。 展开更多
关键词 跨模态交互 注意力机制 特征融合 复合融合层 模态情感分析
下载PDF
基于跨模态交叉注意力网络的多模态情感分析方法 被引量:1
4
作者 王旭阳 王常瑞 +1 位作者 张金峰 邢梦怡 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第2期84-93,共10页
挖掘不同模态内信息和模态间信息有助于提升多模态情感分析的性能,本文为此提出一种基于跨模态交叉注意力网络的多模态情感分析方法。首先,利用VGG-16网络将多模态数据映射到全局特征空间;同时,利用Swin Transformer网络将多模态数据映... 挖掘不同模态内信息和模态间信息有助于提升多模态情感分析的性能,本文为此提出一种基于跨模态交叉注意力网络的多模态情感分析方法。首先,利用VGG-16网络将多模态数据映射到全局特征空间;同时,利用Swin Transformer网络将多模态数据映射到局部特征空间;其次,构造模态内自注意力和模态间交叉注意力特征;然后,设计一种跨模态交叉注意力融合模块实现不同模态内和模态间特征的深度融合,提升多模态特征表达的可靠性;最后,通过Softmax获得最终预测结果。在2个开源数据集CMU-MOSI和CMU-MSOEI上进行测试,本文模型在七分类任务上获得45.9%和54.1%的准确率,相比当前MCGMF模型,提升了0.66%和2.46%,综合性能提升显著。 展开更多
关键词 情感分析 模态 跨模态交叉注意力 自注意力 局部和全局特征
下载PDF
基于跨模态注意力融合的煤炭异物检测方法 被引量:1
5
作者 曹现刚 李虎 +3 位作者 王鹏 吴旭东 向敬芳 丁文韬 《工矿自动化》 CSCD 北大核心 2024年第1期57-65,共9页
为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采... 为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采用浅层的特征提取策略提取Depth图像的低级特征,用深度边缘与深度纹理等基础特征辅助RGB图像深层特征,以有效获得2种特征的互补信息,从而丰富异物特征的空间与边缘信息,提高检测精度;构建了基于坐标注意力与改进空间注意力的跨模态注意力融合模块(CAFM),以协同优化并融合RGB特征与Depth特征,增强网络对特征图中被遮挡异物可见部分的关注度,提高被遮挡异物检测精度;使用区域卷积神经网络(R-CNN)输出煤炭异物的分类、回归与分割结果。实验结果表明:在检测精度方面,该方法的AP相较两阶段模型中较优的Mask transfiner高3.9%;在检测效率方面,该方法的单帧检测时间为110.5 ms,能够满足异物检测实时性需求。基于跨模态注意力融合的煤炭异物检测方法能够以空间特征辅助色彩、形状与纹理等特征,准确识别煤炭异物之间及煤炭异物与输送带之间的差异,从而有效提高对复杂特征异物的检测精度,减少误检、漏检现象,实现复杂特征下煤炭异物的精确检测与像素级分割。 展开更多
关键词 煤炭异物检测 实例分割 双特征金字塔网络 跨模态注意力融合 Depth图像 坐标注意力 改进空间注意力
下载PDF
基于视觉注意力的图文跨模态情感分析 被引量:1
6
作者 王法玉 郝攀征 《计算机工程与设计》 北大核心 2024年第2期601-607,共7页
针对单模态情感分析无法完全捕获情感信息的问题,提出一种图像和文本跨模态情感分析模型(BERT-VistaNet),该模型没有直接使用视觉信息作为特征,而是利用视觉信息作为对齐方式,使用注意力机制指出文本中重要的句子,得到基于视觉注意力的... 针对单模态情感分析无法完全捕获情感信息的问题,提出一种图像和文本跨模态情感分析模型(BERT-VistaNet),该模型没有直接使用视觉信息作为特征,而是利用视觉信息作为对齐方式,使用注意力机制指出文本中重要的句子,得到基于视觉注意力的文档表示。对于视觉注意力无法完全覆盖的文本内容,使用BERT模型对文本进行情感分析,得到基于文本的文档表示,将特征进行融合应用于情感分类任务。在Yelp公开餐厅数据集上,该模型相比基线模型TFN-aVGG,准确率提高了43%,相比VistaNet模型准确率提高了1.4%。 展开更多
关键词 情感分析 视觉注意力机制 跨模态 深度学习 特征融合 预训练模型 双向门控单元
下载PDF
跨模态生成技术下面向文化产品的概念设计方法研究 被引量:1
7
作者 朱上上 徐铭铭 《设计》 2024年第9期14-18,共5页
文化产品是传承传统文化的重要方式,但目前市场同质化严重,设计研究效率低,人力成本高。跨模态生成技术可实现文化产品数字原型快速生成迭代,是数字化创新的有效途径。文章提出了一种将跨模态生成技术与当前文化产品概念设计过程相结合... 文化产品是传承传统文化的重要方式,但目前市场同质化严重,设计研究效率低,人力成本高。跨模态生成技术可实现文化产品数字原型快速生成迭代,是数字化创新的有效途径。文章提出了一种将跨模态生成技术与当前文化产品概念设计过程相结合的方法。根据文化产品特点和跨模态生成技术特点,结合文化意象层次知识,将设计过程中需要人为处理的大量跨模态设计任务,通过跨模态技术处理传递设计信息,快速生成创新概念方案,并对此设计方法流程进行研究。以“基于海晏河清文化的加湿器”为例,进行有效设计实践,获得相关文化产品初步概念设计方案。利用该概念设计方法可以促进文化产品概念设计阶段快速迭代,为文化产品的创新和发展提供有力支持。 展开更多
关键词 文化产品 概念设计 跨模态 模态 数字技术
下载PDF
基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型
8
作者 林俊安 包翠竹 +2 位作者 董建锋 杨勋 王勋 《计算机学报》 EI CAS CSCD 北大核心 2024年第9期2195-2210,共16页
本文针对具有挑战性的多语言文本-视频跨模态检索问题进行研究.传统文本-视频跨模态检索模型通常针对单一语言进行设计,比如英语,模型仅支持某一特定语言的文本查询.如果有不同语言检索需求,则需另收集目标语言的训练数据并重新训练构... 本文针对具有挑战性的多语言文本-视频跨模态检索问题进行研究.传统文本-视频跨模态检索模型通常针对单一语言进行设计,比如英语,模型仅支持某一特定语言的文本查询.如果有不同语言检索需求,则需另收集目标语言的训练数据并重新训练构建新的检索模型,这使得模型很难快速有效地适用于其他语言的检索任务.近年来,针对多语言问题的研究逐渐深入,这为多语言跨模态检索的实现打下了良好的基石.为了解决多语言跨模态检索问题,本文提出了一种简单有效的基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型,将不同语言与视觉信息映射到同一公共空间.该空间以视频向量为锚点,分别与不同的语言向量进行对齐,以此实现多语言跨模态的学习,由此建立了统一的多语言学习框架,使用一个模型满足了多语言的检索需求并探究了不平行语料库、平行语料库、伪平行语料库三种训练场景下的模型性能.同时,在多语言建模中有效地利用了不同语言之间的互通性和互补性,弥补了单语言文本特征表达的不足;并在文本端与视频端引入了基于对比学习的抗噪音鲁棒性学习方法,进一步提升了不同模态特征的表示能力.在VATEX、MSR-VTT多语言数据集上实验的数据证明,本文模型不仅能够简单快速地适用于多种语言检索任务,模型性能也较为突出,在较为常见的伪平行场景下和最先进的方法相比,中文VATEX和MSR-VTT在总召回率上分别提升了约5.97%和1.37%. 展开更多
关键词 多语言 跨模态检索 跨模态特征表示 对比学习
下载PDF
一种单阶段无监督可见光-红外跨模态行人重识别方法
9
作者 娄刃 和任强 +4 位作者 赵三元 郝昕 周跃琪 汪心渊 李方芳 《计算机科学》 CSCD 北大核心 2024年第S01期528-534,共7页
无监督“可见光-红外”跨模态行人重识别任务能够缓解智能监控场景中需要大量人工标注的问题。常见多阶段模型用于处理不同模态数据。文中提出了一种有效的单阶段无监督跨模态行人重识别的方法,设计了基于置信因子的聚类算法和图嵌入的... 无监督“可见光-红外”跨模态行人重识别任务能够缓解智能监控场景中需要大量人工标注的问题。常见多阶段模型用于处理不同模态数据。文中提出了一种有效的单阶段无监督跨模态行人重识别的方法,设计了基于置信因子的聚类算法和图嵌入的跨模态特征处理方法,分别用于解决无标签问题和跨模态问题。实验结果表明,相较于现有算法,所提方法在r=1时精度至少取得了7%的提高。 展开更多
关键词 跨模态学习 无监督行人重识别 可见光-红外行人重识别 无监督学习 跨模态特征处理
下载PDF
基于改进U⁃Net和跨模态自蒸馏的医学图像融合
10
作者 刘势杰 王丽芳 郁晓庆 《测试技术学报》 2024年第6期686-694,共9页
针对医学图像融合方法中存在融合图像信息完整性丢失和跨模态特征提取不足的问题,提出了一种基于改进U-Net和跨模态自蒸馏的医学图像融合方法。该方法改进了U-Net的编码部分,设计了一个双分支编码器,它结合了CNN和Transformer的优势,能... 针对医学图像融合方法中存在融合图像信息完整性丢失和跨模态特征提取不足的问题,提出了一种基于改进U-Net和跨模态自蒸馏的医学图像融合方法。该方法改进了U-Net的编码部分,设计了一个双分支编码器,它结合了CNN和Transformer的优势,能够更有效地捕捉和保留医学图像的局部特征和全局特征,解决了信息完整性丢失的问题。采用跨模态自蒸馏技术,在两幅医学图像的CNN分支之间、Trans⁃former分支之间进行信息传递,加强不同模态特征之间的交互,最大程度地获取跨模态特征。在解码阶段,提出注意力门机制代替U-Net中的跳跃连接,保证网络能够有效关注关键特征,进一步增强了融合图像的信息完整性。实验结果表明,相较于其他方法,该方法得到的融合图像不仅保留了更完整的纹理细节和边缘信息,而且有效地解决了跨模态特征提取不足的问题。 展开更多
关键词 医学图像融合 U-Net 跨模态自蒸馏 跨模态特征 注意力门
下载PDF
基于跨模态特征融合的RGB-D显著性目标检测
11
作者 李可新 何丽 +1 位作者 刘哲凝 钟润豪 《国外电子测量技术》 2024年第6期59-67,共9页
RGB-D显著性目标检测因其有效性和易于捕捉深度线索而受到越来越多的关注。现有的工作通常侧重于通过各种融合策略学习共享表示,少有方法明确考虑如何维持RGB和深度的模态特征。提出了一种跨模态特征融合网络,该网络维持RGB-D显著目标... RGB-D显著性目标检测因其有效性和易于捕捉深度线索而受到越来越多的关注。现有的工作通常侧重于通过各种融合策略学习共享表示,少有方法明确考虑如何维持RGB和深度的模态特征。提出了一种跨模态特征融合网络,该网络维持RGB-D显著目标检测的RGB和深度的模态,通过探索共享信息以及RGB和深度模态的特性来提高显著检测性能。具体来说,采用RGB模态、深度模态网络和一个共享学习网络来生成RGB和深度模态显著性预测图以及共享显著性预测图。提出了一种跨模态特征融合模块,用于融合共享学习网络中的跨模态特征,然后将这些特征传播到下一层以整合跨层次信息。此外,提出了一种多模态特征聚合模块,将每个单独解码器的模态特定特征整合到共享解码器中,这可以提供丰富的互补多模态信息来提高显著性检测性能。最后,使用跳转连接来组合编码器和解码器层之间的分层特征。通过在4个基准数据集上与7种先进方法进行的实验表明,方法优于其他最先进的方法。 展开更多
关键词 RGB-D显著性目标检测 跨模态融合网络 跨模态特征融合 模态聚合
下载PDF
图像语义特征引导与点云跨模态融合的三维目标检测方法
12
作者 李辉 王俊印 +3 位作者 程远志 刘健 赵国伟 陈双敏 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第5期734-749,共16页
受到场景的复杂性和目标尺度变化、遮挡等影响,三维目标检测仍面临着诸多挑战.虽然跨模态特征融合图像和激光点云信息能够有效地提升三维目标检测性能,但在融合效果和检测性能上仍有待提升,为此,提出图像语义特征引导与点云跨模态融合... 受到场景的复杂性和目标尺度变化、遮挡等影响,三维目标检测仍面临着诸多挑战.虽然跨模态特征融合图像和激光点云信息能够有效地提升三维目标检测性能,但在融合效果和检测性能上仍有待提升,为此,提出图像语义特征引导与点云跨模态融合的三维目标检测方法.首先设计图像语义特征学习网络,采用双分支自注意力并行计算方式,实现全局语义特征增强,降低目标错误分类;然后提出图像语义特征引导的局部融合模块,采用元素级数据拼接将检索的图像局部语义特征引导融合点云数据,更好地解决跨模态信息融合存在的语义对齐问题;提出多尺度再融合网络,设计融合特征与激光雷达点云交互模块,学习融合特征和不同分辨率特征间的再融合,提高网络的检测性能;最后采用4种任务损失实现anchor-free的三维目标检测.在KITTI和nuScenes数据集中与其他方法进行对比,针对三维目标检测准确率达87.15%,并且实验结果表明,文中方法优于对比方法,具有更优的三维检测性能. 展开更多
关键词 三维目标检测 跨模态 语义特征 点云 无锚
下载PDF
基于混合特征提取与跨模态特征预测融合的情感识别模型
13
作者 李牧 杨宇恒 柯熙政 《计算机应用》 CSCD 北大核心 2024年第1期86-93,共8页
为从多模态情感分析中有效挖掘单模态表征信息,并实现多模态信息充分融合,提出一种基于混合特征与跨模态预测融合的情感识别模型(H-MGFCT)。首先,利用Mel频率倒谱系数(MFCC)和Gammatone频率倒谱系数(GFCC)及其一阶动态特征融合得到混合... 为从多模态情感分析中有效挖掘单模态表征信息,并实现多模态信息充分融合,提出一种基于混合特征与跨模态预测融合的情感识别模型(H-MGFCT)。首先,利用Mel频率倒谱系数(MFCC)和Gammatone频率倒谱系数(GFCC)及其一阶动态特征融合得到混合特征参数提取算法(H-MGFCC),解决了语音情感特征丢失的问题;其次,利用基于注意力权重的跨模态预测模型,筛选出与语音特征相关性更高的文本特征;随后,加入对比学习的跨模态注意力机制模型对相关性高的文本特征和语音模态情感特征进行跨模态信息融合;最后,将含有文本−语音的跨模态信息特征与筛选出的相关性低的文本特征相融合,以起到信息补充的作用。实验结果表明,该模型在公开IEMOCAP(Interactive EMotional dyadic MOtion CAPture)、CMU-MOSI(CMU-Multimodal Opinion Emotion Intensity)、CMU-MOSEI(CMU-Multimodal Opinion Sentiment Emotion Intensity)数据集上与加权决策层融合的语音文本情感识别(DLFT)模型相比,准确率分别提高了2.83、2.64和3.05个百分点,验证了该模型情感识别的有效性。 展开更多
关键词 特征提取 模态融合 情感识别 跨模态融合 注意力机制
下载PDF
基于跨模态引导和对齐的多模态预训练方法
14
作者 才华 易亚希 +2 位作者 付强 冉越 孙俊喜 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3368-3381,共14页
现有的视觉语言多模态预训练方法仅在图像和文本的全局语义上进行特征对齐,对模态间细粒度特征交互的探索不足.针对这一问题,本文提出了一种基于跨模态引导和对齐的多模态预训练方法.该方法在模态特征提取阶段,采用基于视觉序列压缩的... 现有的视觉语言多模态预训练方法仅在图像和文本的全局语义上进行特征对齐,对模态间细粒度特征交互的探索不足.针对这一问题,本文提出了一种基于跨模态引导和对齐的多模态预训练方法.该方法在模态特征提取阶段,采用基于视觉序列压缩的双流特征提取网络,在视觉编码器中联合图像和文本信息逐层引导视觉序列压缩,缓解与文本无关的冗余视觉信息对模态间细粒度交互的干扰;在模态特征对齐阶段,对图像和文本特征进行细粒度关系推理,实现视觉标记与文本标记的局部特征对齐,增强对模态间细粒度对齐关系的理解.实验结果表明,本文方法能够更好地对齐视觉文本的细粒度特征,在图文检索任务中,微调后的图像检索和文本检索的平均召回率分别达到了86.4%和94.88%,且零样本图文检索的整体指标相较于经典图文检索算法CLIP(Contrastive Language-Image Pre-training)提升了5.36%,在视觉问答等分类任务中,准确率也优于目前主流多模态预训练方法. 展开更多
关键词 模态预训练 跨模态引导 视觉序列压缩 双流特征提取 细粒度关系推理 局部特征对齐
下载PDF
特征融合的装修案例跨模态检索方法
15
作者 亢洁 刘威 《智能系统学报》 CSCD 北大核心 2024年第2期429-437,共9页
目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题... 目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题,对现有的风格聚合模块进行改进,在原始模块中引入通道注意力机制,以此来为每组装修案例中不同图片的特征向量添加合适的权重,从而增强包含更多有用信息的重要特征并削弱其他不重要的特征。同时,为充分利用多模态信息,设计一种适用于检索场景下的多模态特征融合模块,该模块能够自适应地控制2种不同模态的特征向量进行一系列的融合操作,以实现跨模态数据间的知识流动与共享,从而生成语义更丰富、表达能力更强的特征向量,进一步提升模型的检索性能。在自建的装修案例多模态数据集上将该方法与其他方法进行比较,试验结果表明本文方法在装修案例检索上具有更优越的性能。 展开更多
关键词 家装客服系统 装修案例检索 跨模态检索 风格聚合 模态 特征融合 通道注意力机制 语义信息
下载PDF
基于Transformer生成对抗网络的跨模态哈希检索算法
16
作者 雷蕾 徐黎明 《南阳理工学院学报》 2024年第4期38-44,共7页
考虑生成对抗网络在保持跨模态数据之间的流形结构的优势,并结合Transformer利用自注意力和无须使用卷积的优点,提出一种基于Transformer生成对抗网络的跨模态哈希检索算法。首先在ImageNet数据集上预训练Vision Transformer框架,并将... 考虑生成对抗网络在保持跨模态数据之间的流形结构的优势,并结合Transformer利用自注意力和无须使用卷积的优点,提出一种基于Transformer生成对抗网络的跨模态哈希检索算法。首先在ImageNet数据集上预训练Vision Transformer框架,并将其作为图像特征提取的主干网络,然后将不同模态的数据分割为共享特征和私有特征。接着,构建对抗学习模块减少不同模态的共享特征的分布距离与保持语义一致性,同时增大不同模态的私有特征分布距离与保持语义非一致性。最后将通用的特征表示映射为紧凑的哈希码,实现跨模态哈希检索。实验结果表明,在公共数据集上,所提算法优于对比算法。 展开更多
关键词 TRANSFORMER 生成对抗网络 跨模态检索 哈希编码 语义保持
下载PDF
跨模态语义时空动态交互情感分析研究
17
作者 屈立成 郤丽媛 +2 位作者 刘紫君 魏思 董哲为 《计算机工程与应用》 CSCD 北大核心 2024年第1期165-173,共9页
针对传统情感分析中存在的模态间交互性差、时空特征融合度低的问题,建立了一种跨模态的语义时空动态交互网络。通过引入双向长短期记忆网络挖掘各模态的时间序列特征,加入自注意力机制强化模态内特征的权重赋值,将自动筛选出的特征矩... 针对传统情感分析中存在的模态间交互性差、时空特征融合度低的问题,建立了一种跨模态的语义时空动态交互网络。通过引入双向长短期记忆网络挖掘各模态的时间序列特征,加入自注意力机制强化模态内特征的权重赋值,将自动筛选出的特征矩阵送入图卷积神经网络进行语义交互。然后以时间戳为基础进行特征聚合,计算聚合层的相关系数,获得融合后的联合特征,实现跨模态空间交互,最终完成情感极性的分类与预测。使用公开数据集对所提出的模型进行评估验证,实验结果表明,多模态时间序列提取和跨模态语义空间交互机制可以实现模态内和模态间特征的全动态融合,有效地提升了情感分类的准确率和F1值,在CMU-MOSEI数据集上分别提高了1.7%~13.5%和2.1%~14.0%,表现出良好的健壮性和先进性。 展开更多
关键词 跨模态情感分析 语义交互 时空交互 双向长短期记忆网络 图卷积网络
下载PDF
基于跨模态近邻损失的可视-红外行人重识别
18
作者 赵三元 阿琪 高宇 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期433-441,共9页
可视-红外跨模态行人重识别任务的目标是给定一个模态的特定人员图像,在其他不同模态摄像机所拍摄的图像集中进行检索,找出相同人员对应的图像。由于成像方式不同,不同模态的图像之间存在明显的模态差异。为此,从度量学习的角度出发,对... 可视-红外跨模态行人重识别任务的目标是给定一个模态的特定人员图像,在其他不同模态摄像机所拍摄的图像集中进行检索,找出相同人员对应的图像。由于成像方式不同,不同模态的图像之间存在明显的模态差异。为此,从度量学习的角度出发,对损失函数进行改进以获取具有更加辨别性的信息。对图像特征内聚性进行理论分析,并在此基础上提出一种基于内聚性分析和跨模态近邻损失函数的重识别方法,以加强不同模态样本的内聚性。将跨模态困难样本的相似性度量问题转化为跨模态最近邻样本对和同模态样本对的相似性度量,使得网络对模态内聚性的优化更加高效和稳定。对所提方法在全局特征表示的基线网络和部分特征表示的基线网络上进行实验验证结果表明:所提方法对可视-红外行人重识别的预测结果相较于基线方法,平均准确度最高可提升8.44%,证明了方法在不同网络架构中的通用性;同时,以较小的模型复杂度和较低的计算量为代价,实现了可靠的跨模态行人重识别结果。 展开更多
关键词 可视-红外行人重识别 度量学习 深度学习 跨模态学习 计算机视觉
下载PDF
细微特征增强的多级联合聚类跨模态行人重识别算法
19
作者 范馨月 张阔 +1 位作者 张干 李嘉辉 《电子测量与仪器学报》 CSCD 北大核心 2024年第3期94-103,共10页
目前跨模态行人重识别研究注重于通过身份标签在全局特征或局部特征上提取模态共享特征来减少模态差异,但却忽视了具有辨别力的细微特征。为此提出了一种基于特征增强的聚类学习网络,该网络通过全局和局部特征来挖掘并增强不同模态的细... 目前跨模态行人重识别研究注重于通过身份标签在全局特征或局部特征上提取模态共享特征来减少模态差异,但却忽视了具有辨别力的细微特征。为此提出了一种基于特征增强的聚类学习网络,该网络通过全局和局部特征来挖掘并增强不同模态的细微特征,并结合多级联合聚类学习策略,最小化模态差异和类内变化。针对训练数据设计了随机颜色转换模块,在图像输入端增加模态之间的交互,以克服颜色偏差的影响。通过在公共数据集上进行实验,验证了所提方法的有效性,其中在SYSU-MM01数据集的全搜索模式下Rank-1和mAP分别达到了70.52%和64.02%;在RegDB数据集的V2I检索模式下Rank-1和mAP分别达到了88.88%和80.93%。 展开更多
关键词 行人重识别 跨模态 随机颜色转换 细微特征增强 多级联合聚类学习
下载PDF
基于图卷积的无监督跨模态哈希检索算法
20
作者 龙军 邓茜尹 +1 位作者 陈云飞 杨展 《计算机工程与设计》 北大核心 2024年第8期2393-2399,共7页
为解决当前无监督跨模态哈希检索在全局相似性矩阵构建和异构数据语义信息融合中存在的困难,提出一种基于图卷积的无监督跨模态哈希检索算法(GCUH)。采用分层次聚合的方式,将各个模态的相似性结构编码到全局相似性矩阵中,获得跨模态的... 为解决当前无监督跨模态哈希检索在全局相似性矩阵构建和异构数据语义信息融合中存在的困难,提出一种基于图卷积的无监督跨模态哈希检索算法(GCUH)。采用分层次聚合的方式,将各个模态的相似性结构编码到全局相似性矩阵中,获得跨模态的成对相似性信息来指导学习。使用图卷积模块融合跨模态信息,消除邻居结构中的噪声干扰,形成完备的跨模态表征,提出两种相似性保持的损失函数约束哈希码的一致性。与基线模型相比,GCUH在NUS-WIDE数据集上使用64位哈希码执行文本检索图片任务的检索精度提升了6.3%。 展开更多
关键词 哈希学习 跨模态 无监督深度学习 图卷积网络 相似度构建 信息检索 机器学习
下载PDF
上一页 1 2 29 下一页 到第
使用帮助 返回顶部