期刊文献+
共找到459篇文章
< 1 2 23 >
每页显示 20 50 100
Mining Fine-Grain Face Forgery Cues with Fusion Modality
1
作者 Shufan Peng Manchun Cai +1 位作者 Tianliang Lu Xiaowen Liu 《Computers, Materials & Continua》 SCIE EI 2023年第5期4025-4045,共21页
Face forgery detection is drawing ever-increasing attention in the academic community owing to security concerns.Despite the considerable progress in existing methods,we note that:Previous works overlooked finegrain f... Face forgery detection is drawing ever-increasing attention in the academic community owing to security concerns.Despite the considerable progress in existing methods,we note that:Previous works overlooked finegrain forgery cues with high transferability.Such cues positively impact the model’s accuracy and generalizability.Moreover,single-modality often causes overfitting of the model,and Red-Green-Blue(RGB)modal-only is not conducive to extracting the more detailed forgery traces.We propose a novel framework for fine-grain forgery cues mining with fusion modality to cope with these issues.First,we propose two functional modules to reveal and locate the deeper forged features.Our method locates deeper forgery cues through a dual-modality progressive fusion module and a noise adaptive enhancement module,which can excavate the association between dualmodal space and channels and enhance the learning of subtle noise features.A sensitive patch branch is introduced on this foundation to enhance the mining of subtle forgery traces under fusion modality.The experimental results demonstrate that our proposed framework can desirably explore the differences between authentic and forged images with supervised learning.Comprehensive evaluations of several mainstream datasets show that our method outperforms the state-of-the-art detection methods with remarkable detection ability and generalizability. 展开更多
关键词 Face forgery detection fine-grain forgery cues fusion modality adaptive enhancement
下载PDF
利用Transformer的多模态目标跟踪算法
2
作者 刘万军 梁林林 曲海成 《计算机工程与应用》 CSCD 北大核心 2024年第11期84-94,共11页
目前目标跟踪方法大多通过融合不同模态信息进行定位决策,存在信息提取不充分、融合方法简单、弱光场景无法准确跟踪目标的问题。为此,提出一种基于Transformer的多模态目标跟踪算法(Trans-RGBT):利用伪孪生网络对可见光图像和红外图像... 目前目标跟踪方法大多通过融合不同模态信息进行定位决策,存在信息提取不充分、融合方法简单、弱光场景无法准确跟踪目标的问题。为此,提出一种基于Transformer的多模态目标跟踪算法(Trans-RGBT):利用伪孪生网络对可见光图像和红外图像分别进行特征提取,并在特征层面充分融合;将首帧目标信息调制到待跟踪帧的特征向量中,得到一个专用跟踪器;应用Transformer的方法对视野中的目标进行编解码,通过空间位置预测分支预测目标在视野中的空间位置,并结合历史信息滤除干扰目标,得到目标的准确位置;使用矩形框回归网络预测目标的外接矩形框,从而实现目标准确跟踪。在最新的大规模数据集VTUAV、RGBT234上进行了实验,与孪生网络(Siambased)、滤波(filter-based)算法相比,Trans-RGBT精度更高、鲁棒性更好、速度接近实时,达22 FPS。 展开更多
关键词 多模态融合 可见光图像 红外图像 TRANSFORMER 目标跟踪
下载PDF
基于跨模态注意力融合的煤炭异物检测方法 被引量:1
3
作者 曹现刚 李虎 +3 位作者 王鹏 吴旭东 向敬芳 丁文韬 《工矿自动化》 CSCD 北大核心 2024年第1期57-65,共9页
为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采... 为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采用浅层的特征提取策略提取Depth图像的低级特征,用深度边缘与深度纹理等基础特征辅助RGB图像深层特征,以有效获得2种特征的互补信息,从而丰富异物特征的空间与边缘信息,提高检测精度;构建了基于坐标注意力与改进空间注意力的跨模态注意力融合模块(CAFM),以协同优化并融合RGB特征与Depth特征,增强网络对特征图中被遮挡异物可见部分的关注度,提高被遮挡异物检测精度;使用区域卷积神经网络(R-CNN)输出煤炭异物的分类、回归与分割结果。实验结果表明:在检测精度方面,该方法的AP相较两阶段模型中较优的Mask transfiner高3.9%;在检测效率方面,该方法的单帧检测时间为110.5 ms,能够满足异物检测实时性需求。基于跨模态注意力融合的煤炭异物检测方法能够以空间特征辅助色彩、形状与纹理等特征,准确识别煤炭异物之间及煤炭异物与输送带之间的差异,从而有效提高对复杂特征异物的检测精度,减少误检、漏检现象,实现复杂特征下煤炭异物的精确检测与像素级分割。 展开更多
关键词 煤炭异物检测 实例分割 双特征金字塔网络 跨模态注意力融合 Depth图像 坐标注意力 改进空间注意力
下载PDF
基于混合特征提取与跨模态特征预测融合的情感识别模型
4
作者 李牧 杨宇恒 柯熙政 《计算机应用》 CSCD 北大核心 2024年第1期86-93,共8页
为从多模态情感分析中有效挖掘单模态表征信息,并实现多模态信息充分融合,提出一种基于混合特征与跨模态预测融合的情感识别模型(H-MGFCT)。首先,利用Mel频率倒谱系数(MFCC)和Gammatone频率倒谱系数(GFCC)及其一阶动态特征融合得到混合... 为从多模态情感分析中有效挖掘单模态表征信息,并实现多模态信息充分融合,提出一种基于混合特征与跨模态预测融合的情感识别模型(H-MGFCT)。首先,利用Mel频率倒谱系数(MFCC)和Gammatone频率倒谱系数(GFCC)及其一阶动态特征融合得到混合特征参数提取算法(H-MGFCC),解决了语音情感特征丢失的问题;其次,利用基于注意力权重的跨模态预测模型,筛选出与语音特征相关性更高的文本特征;随后,加入对比学习的跨模态注意力机制模型对相关性高的文本特征和语音模态情感特征进行跨模态信息融合;最后,将含有文本−语音的跨模态信息特征与筛选出的相关性低的文本特征相融合,以起到信息补充的作用。实验结果表明,该模型在公开IEMOCAP(Interactive EMotional dyadic MOtion CAPture)、CMU-MOSI(CMU-Multimodal Opinion Emotion Intensity)、CMU-MOSEI(CMU-Multimodal Opinion Sentiment Emotion Intensity)数据集上与加权决策层融合的语音文本情感识别(DLFT)模型相比,准确率分别提高了2.83、2.64和3.05个百分点,验证了该模型情感识别的有效性。 展开更多
关键词 特征提取 多模态融合 情感识别 跨模态融合 注意力机制
下载PDF
基于Transformer网络多模态融合的密集视频描述方法
5
作者 李想 桑海峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第5期1061-1071,共11页
针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探... 针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探测器生成语义信息,加入音频特征进行补充,建立了多尺度可变形注意力模块,应用并行的预测头,加快模型收敛速度,提高模型精度。实验结果表明:模型在2个基准数据集上性能均有很好的表现,评价指标BLEU4上达到了2.17。 展开更多
关键词 密集事件描述 Transformer网络 语义信息 多模态融合 可变形注意力
下载PDF
大数据环境下多模态融合的大学生异常行为预警
6
作者 王玉标 陶八梅 +1 位作者 李珩 陶志红 《计算机系统应用》 2024年第1期167-176,共10页
针对“校园大数据”累积的海量数据呈现出离散性、稀疏性等问题,如何从基数大、活动广、个性强的校园学生群体中检测出潜在的、有异常行为的学生,已成为学生异常行为分析亟需解决的问题.本文提出了一种大数据环境下基于多模态融合的大... 针对“校园大数据”累积的海量数据呈现出离散性、稀疏性等问题,如何从基数大、活动广、个性强的校园学生群体中检测出潜在的、有异常行为的学生,已成为学生异常行为分析亟需解决的问题.本文提出了一种大数据环境下基于多模态融合的大学生异常行为预警方法(early warning method for abnormal behavior of college students based on multi-modal fusion in big data environment,EWMAB).首先,针对学生行为画像的表征不够丰富,行为标签存在时效性、动态性等问题,建立一种基于多模态特征深度学习的跨模态学生行为画像模型;其次,针对学生异常行为预测、预警的时效性和后置性问题,在学生行为画像和学生行为分类预测基础上,提出了一种基于多模态融合的学生异常行为预警方法,通过长短期记忆神经网络(long and short term memory networks,LSTM),结合学生行为多指标数据和文本信息来解决学生异常行为预警问题;最后,本文通过应用实例验证模型以学生学习成绩异常预警为例,与其他预警算法相比,EWMAB方法可以提高预警的准确性,实现学生异常行为预警的时效性和前置性,从而使学生教育工作更具有针对性、个性化和预测性. 展开更多
关键词 教育大数据 学生行为画像 多模态融合 异常行为预警 分类预测
下载PDF
面向机器智能的情感分析
7
作者 彭俊杰 《自然杂志》 CAS 2024年第2期150-156,共7页
大模型的兴起,尤其是以大模型为基础的人工智能技术的发展与应用引起了全社会对人工智能技术的广泛关注。人工智能技术已经在很多方面达到甚至超越人类,可以替代人工完成一些技艺要求较高的工作。不过,在人工智能迈向人类智慧的道路上,... 大模型的兴起,尤其是以大模型为基础的人工智能技术的发展与应用引起了全社会对人工智能技术的广泛关注。人工智能技术已经在很多方面达到甚至超越人类,可以替代人工完成一些技艺要求较高的工作。不过,在人工智能迈向人类智慧的道路上,仍然有许多难题亟待克服与解决,其中一个重要的问题就是情感分析与理解问题,如让机器准确理解人类的情感。针对该问题,文章从情感的定义与分类入手,对情感分析研究需要解决的问题,研究方向、研究现状、面临的挑战、应用前景与展望等进行了讨论。 展开更多
关键词 机器智能 情感分析 多模态 信息融合 特征提取
下载PDF
基于视觉注意力的图文跨模态情感分析
8
作者 王法玉 郝攀征 《计算机工程与设计》 北大核心 2024年第2期601-607,共7页
针对单模态情感分析无法完全捕获情感信息的问题,提出一种图像和文本跨模态情感分析模型(BERT-VistaNet),该模型没有直接使用视觉信息作为特征,而是利用视觉信息作为对齐方式,使用注意力机制指出文本中重要的句子,得到基于视觉注意力的... 针对单模态情感分析无法完全捕获情感信息的问题,提出一种图像和文本跨模态情感分析模型(BERT-VistaNet),该模型没有直接使用视觉信息作为特征,而是利用视觉信息作为对齐方式,使用注意力机制指出文本中重要的句子,得到基于视觉注意力的文档表示。对于视觉注意力无法完全覆盖的文本内容,使用BERT模型对文本进行情感分析,得到基于文本的文档表示,将特征进行融合应用于情感分类任务。在Yelp公开餐厅数据集上,该模型相比基线模型TFN-aVGG,准确率提高了43%,相比VistaNet模型准确率提高了1.4%。 展开更多
关键词 情感分析 视觉注意力机制 跨模态 深度学习 特征融合 预训练模型 双向门控单元
下载PDF
基于多维气象信息时空融合和MPA-VMD的短期电力负荷组合预测模型
9
作者 王凌云 周翔 +2 位作者 田恬 杨波 李世春 《电力自动化设备》 EI CSCD 北大核心 2024年第2期190-197,共8页
为提高电力负荷预测精度,需考虑区域内不同地区多维气象信息对电力负荷影响的差异性。在空间维度上,提出多维气象信息时空融合的方法,利用Copula理论将多座气象站的风速、降雨量、温度、日照强度等气象信息与电力负荷进行非线性耦合分... 为提高电力负荷预测精度,需考虑区域内不同地区多维气象信息对电力负荷影响的差异性。在空间维度上,提出多维气象信息时空融合的方法,利用Copula理论将多座气象站的风速、降雨量、温度、日照强度等气象信息与电力负荷进行非线性耦合分析并实现时空融合。在时间维度上,采用海洋捕食者算法(MPA)实现变分模态分解(VMD)核心参数的自动寻优,并采用加权排列熵构造MPA-VMD适应度函数,实现负荷序列的自适应分解。通过将时间维度各分量与空间维度各气象信息进行融合构造长短期记忆(LSTM)网络模型与海洋捕食者算法-最小二乘支持向量机(MPA-LSSVM)模型的输入集,得到各分量预测结果,根据评价指标选择各分量对应的预测模型,重构得到整体预测结果。算例分析结果表明,所提预测模型优于传统预测模型,有效提高了电力负荷预测精度。 展开更多
关键词 短期电力负荷预测 海洋捕食者算法 时空融合 COPULA理论 变分模态分解
下载PDF
基于复合跨模态交互网络的时序多模态情感分析
10
作者 杨力 钟俊弘 +1 位作者 张赟 宋欣渝 《计算机科学与探索》 CSCD 北大核心 2024年第5期1318-1327,共10页
针对多模态情感分析中存在的不同模态间语义特征差异性导致模态融合不充分、交互性弱等问题,通过研究分析不同模态之间存在的潜在关联性,搭建一种基于复合跨模态交互网络的时序多模态情感分析(CCIN-SA)模型。该模型首先使用双向门控循... 针对多模态情感分析中存在的不同模态间语义特征差异性导致模态融合不充分、交互性弱等问题,通过研究分析不同模态之间存在的潜在关联性,搭建一种基于复合跨模态交互网络的时序多模态情感分析(CCIN-SA)模型。该模型首先使用双向门控循环单元和多头注意力机制提取具有上下文语义信息的文本、视觉和语音模态时序特征;然后,设计跨模态注意力交互层,利用辅助模态的低阶信号不断强化目标模态,使得目标模态学习到辅助模态的信息,捕获模态间的潜在适应性;再将增强后的特征输入到复合特征融合层,通过条件向量进一步捕获不同模态间的相似性,增强重要特征的关联程度,挖掘模态间更深层次的交互性;最后,利用多头注意力机制将复合跨模态强化后的特征与低阶信号做拼接融合,提高模态内部重要特征的权重,保留初始模态独有的特征信息,将得到的多模态融合特征进行最终的情感分类任务。在CMU-MOSI和CMUMOSEI数据集上进行模型评估,结果表明,CCIN-SA模型相比其他现有模型在准确率和F1指标上均有提高,能够有效挖掘不同模态间的关联性,做出更加准确的情感判断。 展开更多
关键词 跨模态交互 注意力机制 特征融合 复合融合层 多模态情感分析
下载PDF
多源异构数据融合关键技术与政务大数据治理体系 被引量:2
11
作者 闫佳和 李红辉 +4 位作者 马英 刘真 张大林 江周娴 段宇航 《计算机科学》 CSCD 北大核心 2024年第2期1-14,共14页
随着信息技术的飞速发展,各级政府和大型企业掌握的数据量正在以指数级别增长。然而,数据来源多样会导致格式差异,数据质量参差不齐会影响应用效果,数据分散管理会弱化关联汇集,数据形态异构会造成语义鸿沟。在此背景下,多源异构数据融... 随着信息技术的飞速发展,各级政府和大型企业掌握的数据量正在以指数级别增长。然而,数据来源多样会导致格式差异,数据质量参差不齐会影响应用效果,数据分散管理会弱化关联汇集,数据形态异构会造成语义鸿沟。在此背景下,多源异构数据融合负责将来源不同的多模态数据进行有效整合,完成数据互补与关联,进而实现信息增强。目前,大多数已有研究的关注重点集中在大数据治理流程与多模态深度学习,很少有工作研究讨论完整的多源异构数据融合技术框架。因此,在综述关键技术的基础上,文中提出了一整套涵盖“数据引接-数据清洗-数据集成-数据融合”全过程的多源异构数据融合关键技术框架,并对各个环节需要解决的问题与重点任务进行介绍。然后,通过一个政务应用实例场景,给出了政务大数据治理体系的设计,以解决政务数据来源广泛、质量参差不齐、管理分散、形态异构的问题,并进一步阐述了多源异构数据融合的重要价值。最后总结全文并展望未来。 展开更多
关键词 多源异构数据 多模态数据融合 数据治理技术 政务大数据 大数据治理流程
下载PDF
自适应特征融合的多模态实体对齐研究
12
作者 郭浩 李欣奕 +2 位作者 唐九阳 郭延明 赵翔 《自动化学报》 EI CAS CSCD 北大核心 2024年第4期758-770,共13页
多模态数据间交互式任务的兴起对于综合利用不同模态的知识提出了更高的要求,因此融合不同模态知识的多模态知识图谱应运而生.然而,现有多模态知识图谱存在图谱知识不完整的问题,严重阻碍对信息的有效利用.缓解此问题的有效方法是通过... 多模态数据间交互式任务的兴起对于综合利用不同模态的知识提出了更高的要求,因此融合不同模态知识的多模态知识图谱应运而生.然而,现有多模态知识图谱存在图谱知识不完整的问题,严重阻碍对信息的有效利用.缓解此问题的有效方法是通过实体对齐进行知识图谱补全.当前多模态实体对齐方法以固定权重融合多种模态信息,在融合过程中忽略不同模态信息贡献的差异性.为解决上述问题,设计一套自适应特征融合机制,根据不同模态数据质量动态融合实体结构信息和视觉信息.此外,考虑到视觉信息质量不高、知识图谱之间的结构差异也影响实体对齐的效果,本文分别设计提升视觉信息有效利用率的视觉特征处理模块以及缓和结构差异性的三元组筛选模块.在多模态实体对齐任务上的实验结果表明,提出的多模态实体对齐方法的性能优于当前最好的方法. 展开更多
关键词 多模态知识图谱 实体对齐 预训练模型 特征融合
下载PDF
基于跨模态信息过滤的视觉问答网络
13
作者 何世阳 王朝晖 +1 位作者 龚声蓉 钟珊 《计算机科学》 CSCD 北大核心 2024年第5期85-91,共7页
视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注... 视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注意力计算,忽略了图像特征中含有噪声和不正确的信息这一问题,且多数方法局限于模态间的浅层交互,未曾考虑模态间的深层语义信息。为解决这一问题,提出了一个跨模态信息过滤网络,即首先以问题特征为监督信号,通过设计的信息过滤模块来过滤图像特征信息,使之更好地契合问题表征;随后将图像特征和问题特征送入跨模态交互层,在自注意力和引导注意力的作用下分别建模模态内和模态间的关系,以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模块的引入有效提升了模型准确率,在test-std上的整体精度达到了71.51%,相比大多数先进的方法具有良好的性能。 展开更多
关键词 视觉问答 深度学习 注意力机制 多模态融合 信息过滤
下载PDF
特征融合的装修案例跨模态检索方法
14
作者 亢洁 刘威 《智能系统学报》 CSCD 北大核心 2024年第2期429-437,共9页
目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题... 目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题,对现有的风格聚合模块进行改进,在原始模块中引入通道注意力机制,以此来为每组装修案例中不同图片的特征向量添加合适的权重,从而增强包含更多有用信息的重要特征并削弱其他不重要的特征。同时,为充分利用多模态信息,设计一种适用于检索场景下的多模态特征融合模块,该模块能够自适应地控制2种不同模态的特征向量进行一系列的融合操作,以实现跨模态数据间的知识流动与共享,从而生成语义更丰富、表达能力更强的特征向量,进一步提升模型的检索性能。在自建的装修案例多模态数据集上将该方法与其他方法进行比较,试验结果表明本文方法在装修案例检索上具有更优越的性能。 展开更多
关键词 家装客服系统 装修案例检索 跨模态检索 风格聚合 多模态 特征融合 通道注意力机制 语义信息
下载PDF
基于预训练和多模态融合的假新闻检测
15
作者 周昊玮 刘勇 玄萍 《计算机工程》 CSCD 北大核心 2024年第1期289-295,共7页
现有的多模态检测模型通常对每个模态的特征进行简单拼接,不能对模态之间的相关性进行有效建模,而且很难迁移到标签稀少的领域。提出一种基于预训练和多模态融合的假新闻检测模型PMFD。提取新闻附带图像不同区域的特征作为图像原始向量... 现有的多模态检测模型通常对每个模态的特征进行简单拼接,不能对模态之间的相关性进行有效建模,而且很难迁移到标签稀少的领域。提出一种基于预训练和多模态融合的假新闻检测模型PMFD。提取新闻附带图像不同区域的特征作为图像原始向量,合并图像原始向量作为图像引导向量,设计早期融合、中期融合、后期融合3种不同的多模态融合方式。在早期融合阶段,通过图像引导向量初始化文本特征提取器,获取文本原始向量,合并文本原始向量作为文本引导向量。在中期融合阶段,使用模态的原始向量集合与其他模态的引导向量构造模态的特征表示。在后期融合阶段,融合不同模态的特征表示,构造新闻的特征表示。为提高模型的泛化能力,在标签丰富的数据上对PMFD进行预训练,然后再在标签稀少的数据上对PMFD进行微调。在公开数据集上的实验结果表明,PMFD能有效检测假新闻结果,相对传统模型CNN、LSTM、BERT等有10%以上的提升,相对EANN、M_model多模态假新闻检测模型有2%~3%的提升。 展开更多
关键词 假新闻检测 预训练 多模态融合 引导向量 跨模态共享特征 阶段融合
下载PDF
基于多模态多示例学习的免疫介导性肾小球疾病自动分类方法
16
作者 龙楷兴 翁丹仪 +3 位作者 耿舰 路艳蒙 周志涛 曹蕾 《南方医科大学学报》 CAS CSCD 北大核心 2024年第3期585-593,共9页
目的探讨如何利用多模态深度学习方法,联合光学显微镜(OM)、免疫荧光显微镜(IM)及透射电子显微镜(TEM)对应的3种图像进行免疫介导性肾小球疾病分类。方法基于273例患者的病理图像进行回顾性研究,构建多模态多示例模型对3种免疫介导性的... 目的探讨如何利用多模态深度学习方法,联合光学显微镜(OM)、免疫荧光显微镜(IM)及透射电子显微镜(TEM)对应的3种图像进行免疫介导性肾小球疾病分类。方法基于273例患者的病理图像进行回顾性研究,构建多模态多示例模型对3种免疫介导性的肾小球疾病——免疫球蛋白A肾病(IgAN)、膜性肾病(MN)、狼疮性肾炎(LN)进行分类。该模型采用示例水平的多示例学习(I-MIL)方法挑选患者的TEM图像并与同一患者的OM图像和IM图像进行多模态特征融合。通过该模型与单模态、双模态模型的比较,探究3种模态之间的不同组合形式以及模态特征融合方式的特性。结果联合OM、IM以及TEM图像建立的多模态多示例模型准确率为(88.34±2.12)%,优于准确率为(87.08±4.25)%的最优的单模态模型,以及准确率为(87.92±3.06)%的最优的双模态模型。结论本研究成功建立基于OM、IM及TEM三种模态图像的多模态多示例模型,并验证了采用多示例学习结合多模态学习方法对免疫介导性肾小球疾病分类的有效性。 展开更多
关键词 肾活检病理 肾小球疾病 深度学习 多模态融合 多示例学习
下载PDF
基于多尺度模态融合的RGB-T目标跟踪网络
17
作者 程竹轩 范慧杰 +1 位作者 唐延东 王强 《山东科技大学学报(自然科学版)》 CAS 北大核心 2024年第1期89-99,共11页
可见光-热红外(RGB-T)目标跟踪因受光照条件限制较小受到关注。针对不同尺度特征的分辨率与语义信息存在差异、可见光与热红外两种模态信息不一致的特点,以及现有网络在多模态融合策略上的不足,提出一种RGB-T目标跟踪网络。网络采用孪... 可见光-热红外(RGB-T)目标跟踪因受光照条件限制较小受到关注。针对不同尺度特征的分辨率与语义信息存在差异、可见光与热红外两种模态信息不一致的特点,以及现有网络在多模态融合策略上的不足,提出一种RGB-T目标跟踪网络。网络采用孪生结构,首先将主干特征提取网络输出的模板图像特征与搜索图像特征从单尺度拓展到多尺度,并对可见光与热红外模态在不同尺度上分别进行模态融合,然后将得到的融合特征通过注意力机制增强特征表示,最后通过区域建议网络得到预测结果。在GTOT与RGBT-234两个公开RGB-T数据集上的实验结果表明,该网络跟踪精度和成功率较高,可以应对复杂的跟踪场景,相比于其他网络具有更高的跟踪性能。 展开更多
关键词 目标跟踪 可见光与热红外 多尺度特征 模态融合 深度学习
下载PDF
联合方面注意力交互的图文方面类情感识别
18
作者 赵一成 王素格 +1 位作者 廖健 何东欢 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期569-578,共10页
随着多媒体的快速发展,单纯采用文本的方面类情感分析,不能准确识别用户所表达的情感。而现有图文数据的方面类情感分析方法仅考虑图文模态间的交互,忽略图文数据的不一致性和相关性。因此,提出联合方面注意力交互网络(JAAIN)模型的图... 随着多媒体的快速发展,单纯采用文本的方面类情感分析,不能准确识别用户所表达的情感。而现有图文数据的方面类情感分析方法仅考虑图文模态间的交互,忽略图文数据的不一致性和相关性。因此,提出联合方面注意力交互网络(JAAIN)模型的图文方面类情感识别方法。所提方法针对图文数据的不一致性与相关性,通过多层次融合方面信息和图文信息,去除与给定方面无关的文本和图像,增强给定方面的图文模态数据的情感表示,将文本数据情感表示、图像数据情感表示及方面类情感表示进行拼接融合与全连接,实现图文方面类情感判别。在数据集Multi-ZOL上进行实验,实验结果表明:所提模型能够提升图文方面类情感判别的性能。 展开更多
关键词 方面类情感分析 注意力机制 多模态情感分析 情感表示 多模态融合
下载PDF
面向多模态知识图谱的实体对齐方法研究
19
作者 张艺玮 周乾 +1 位作者 陈伟 赵雷 《小型微型计算机系统》 CSCD 北大核心 2024年第5期1257-1263,共7页
实体对齐是构建知识图谱的重要环节,也是该领域的一个研究热点.现有实体对齐工作在包含文本、图片的多模态知识图谱数据集DB15K-FB15K和YAGO15K-FB15K上做了大量研究,但是它们仅局限于文本和图片两种模态,且在多模态知识融合方面的性能... 实体对齐是构建知识图谱的重要环节,也是该领域的一个研究热点.现有实体对齐工作在包含文本、图片的多模态知识图谱数据集DB15K-FB15K和YAGO15K-FB15K上做了大量研究,但是它们仅局限于文本和图片两种模态,且在多模态知识融合方面的性能并不显著.为弥补已有工作的不足,本文构建了一个包含文本、图片、视频的多模态知识图谱数据集Douban-Baidu,并提出了EA-MMKG模型来解决多模态知识图谱实体对齐问题.EA-MMKG包含两部分:多模态知识嵌入模块和多模态知识交互融合模块.具体来讲,多模态知识嵌入模块由关系三元组嵌入、图片嵌入、视频嵌入和属性三元组嵌入4个部分组成;多模态知识交互融合模块采用了基于注意力的融合机制来融合从文本、图片、视频3种模态中提取的特征信息,从而使得各模态之间的交互更加充分、融合效果更好,并最终提高多模态知识图谱实体对齐的性能.实验结果表明,EA-MMKG模型在Douban-Baidu数据集、DB15K-FB15K数据集和YAGO15K-FB15K数据集上的性能均优于现有的模型. 展开更多
关键词 多模态 实体对齐 多模态知识图谱嵌入 多模态融合
下载PDF
面向跨模态检索的查询感知双重对比学习网络
20
作者 尹梦冉 梁美玉 +3 位作者 于洋 曹晓雯 杜军平 薛哲 《软件学报》 EI CSCD 北大核心 2024年第5期2120-2132,共13页
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和... 近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,提出一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,提出一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法. 展开更多
关键词 跨模态语义融合 跨模态检索 视频时刻定位 对比学习
下载PDF
上一页 1 2 23 下一页 到第
使用帮助 返回顶部