期刊文献+
共找到106篇文章
< 1 2 6 >
每页显示 20 50 100
融合语义增强和位置编码的图文匹配方法
1
作者 赵婷婷 常玉广 +2 位作者 郭宇 陈亚瑞 王嫄 《天津科技大学学报》 CAS 2024年第4期63-72,共10页
图文匹配是跨模态基础任务之一,其核心是如何准确评估图像语义与文本语义之间的相似度。现有方法是通过引入相关阈值,最大限度地区分相关和无关分布,以获得更好的语义对齐。然而,对于特征本身,其语义之间缺乏相互关联,且对于缺乏空间位... 图文匹配是跨模态基础任务之一,其核心是如何准确评估图像语义与文本语义之间的相似度。现有方法是通过引入相关阈值,最大限度地区分相关和无关分布,以获得更好的语义对齐。然而,对于特征本身,其语义之间缺乏相互关联,且对于缺乏空间位置信息的图像区域与文本单词很难准确对齐,从而不可避免地限制了相关阈值的学习导致语义无法准确对齐。针对此问题,本文提出一种融合语义增强和位置编码的自适应相关性可学习注意力的图文匹配方法。首先,在初步提取特征的基础上构造图像(文本)无向全连通图,使用图注意力去聚合邻居的信息,获得语义增强的特征。然后,对图像区域的绝对位置信息编码,在具备了空间语义的图像区域与文本单词相似性的基础上获得最大程度区分的相关和无关分布,更好地学习两个分布之间的最优相关边界。最后,通过公开数据集Flickr 30 k和MSCOCO,利用Recall@K指标对比实验,验证本文方法的有效性。 展开更多
关键词 跨模态图文匹配 图注意力 位置编码 相关性阈值
下载PDF
基于图文多模态融合推理的产品创新方案设计方法研究
2
作者 马进 范明浩 +1 位作者 马良山 胡洁 《包装工程》 CAS 北大核心 2024年第8期21-28,共8页
目的针对当前产品创新设计领域中对基于图像-文本多模态知识支撑创新设计方法研究不足的问题,提出了一套基于图文多模态的产品创新方案设计方法。方法首先,对设计师的设计草图与文本要求进行预处理,然后引入产品设计知识图谱来促进设计... 目的针对当前产品创新设计领域中对基于图像-文本多模态知识支撑创新设计方法研究不足的问题,提出了一套基于图文多模态的产品创新方案设计方法。方法首先,对设计师的设计草图与文本要求进行预处理,然后引入产品设计知识图谱来促进设计思维的发散和创新;其次,通过微调的生成式预训练变换器模型和扩散模型生成产品方案及其概念图;最后,利用深度多模态设计评估模型对产品设计方案的可行性和市场潜力进行评估。结果通过产品设计知识图谱,及深度多模态设计评估模型的引入,该设计流程可以生成富有创新性且具备可行性的产品方案。结论基于图文多模态的产品创新方案设计流程结合了最新的深度学习技术,不仅提高了设计的效率,还为设计师提供了更广阔的创新视角和灵感来源。 展开更多
关键词 图文多模态 深度生成模型 知识图谱 产品创新设计
下载PDF
基于多样化标签矩阵的医学影像报告生成
3
作者 张俊三 程铭 +2 位作者 沈秀轩 刘玉雪 王雷全 《计算机科学》 CSCD 北大核心 2024年第8期200-208,共9页
医学影像在医学诊断中具有重要作用,而准确描述的文本报告对于理解图像以及后续疾病诊断是必不可少的。目前在医学影像报告生成领域,基于模式化方法生成规范的文本报告成为近年的研究热点。但正负样本数量差距较大导致的数据偏差问题,... 医学影像在医学诊断中具有重要作用,而准确描述的文本报告对于理解图像以及后续疾病诊断是必不可少的。目前在医学影像报告生成领域,基于模式化方法生成规范的文本报告成为近年的研究热点。但正负样本数量差距较大导致的数据偏差问题,使得生成的报告内容普遍倾向于描述正常状况,难以准确捕捉异常信息。为解决这一问题,提出了一种基于多样化标签矩阵的医学报告生成方法,可以对不同的疾病进行差异化学习,生成多样化的医疗报告;设计文本-矩阵特征损失函数,优化多样化标签矩阵;增加特征交叉模块改进Transformer网络,加强图像与文本的映射,提升疾病描述的准确性。在IU-X-Ray和MIMIC-CXR两个数据集上进行实验,实验结果表明,与目前的主流方法相比,所提方法在BLEU,METEOR等多个指标上取得了最优的效果。 展开更多
关键词 深度学习 医学影像报告生成 注意力机制 图像-文本生成 多模态
下载PDF
基于文本-图像增强的突发事件识别及分类方法研究 被引量:2
4
作者 周红磊 张海涛 +1 位作者 栾宇 苏欣宇 《情报理论与实践》 CSSCI 北大核心 2024年第4期181-188,共8页
[目的/意义]丰富的互联网数据为洞悉真实事件提供了多维视角,快速识别突发事件并准确判断其所属类别,有助于各级政府及应急管理部门高效地管理应急情报资源。[方法/过程]文章构建了基于文本—图像增强的突发事件识别及分类的理论模型;... [目的/意义]丰富的互联网数据为洞悉真实事件提供了多维视角,快速识别突发事件并准确判断其所属类别,有助于各级政府及应急管理部门高效地管理应急情报资源。[方法/过程]文章构建了基于文本—图像增强的突发事件识别及分类的理论模型;通过文本卷积神经网络、视觉几何群网络搭建深度神经网络共同组成Multi-DNN模型;最后以真实的自然灾害类突发事件数据进行实例验证。[结果/结论]通过文本、图像相互增强,多模态特征融合能够提升突发事件识别及分类的准确率,同时在小样本数据的任务处理中仍有良好效果,证明不同模态的数据能够相互补充、相互印证,对其融合处理能够提供比单一模态更为准确和全面的信息分析。 展开更多
关键词 文本—图像增强 多模态特征融合 突发事件 事件识别及分类 应急信息管理
下载PDF
基于正反上下文语义对齐融合的多模态文本摘要模型
5
作者 陈中峰 陆振宇 荣欢 《中文信息学报》 CSCD 北大核心 2024年第4期108-119,共12页
该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过... 该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过多模态正向注意力机制与反向注意力机制多方面观察对齐后的源文本与图片内容,分别得到各自模态语义信息的正相关和不相关特征表示。使用正向滤波器过滤正向注意力机制中的不相关信息,使用反向滤波器过滤反向注意力机制中的相关信息,达到分别从正向与反向两个方面选择性地融合文本语义信息和图片语义信息的目的。最后基于指针生成网络,使用正相关信息搭建正向指针、使用不相关信息搭建反向指针,生成带有多模态语义信息补偿的文本摘要内容。在京东中文电子商务数据集上,所提模型生成的多模态文本摘要在ROUGE-1、ROUGE-2、ROUGE-L指标上分别取得了38.40、16.71、28.01的结果。 展开更多
关键词 多模态文本摘要 多模态信息对齐 二级门控编码机制 文本生成模型
下载PDF
基于多级语义对齐的图像-文本匹配算法
6
作者 李艺茹 姚涛 +2 位作者 张林梁 孙玉娟 付海燕 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期551-558,共8页
图像中的区域特征更关注于图像中的前景信息,背景信息往往被忽略,如何有效的联合局部特征和全局特征还没有得到充分地研究。为解决上述问题,加强全局概念和局部概念之间的关联得到更准确的视觉特征,提出一种基于多级语义对齐的图像-文... 图像中的区域特征更关注于图像中的前景信息,背景信息往往被忽略,如何有效的联合局部特征和全局特征还没有得到充分地研究。为解决上述问题,加强全局概念和局部概念之间的关联得到更准确的视觉特征,提出一种基于多级语义对齐的图像-文本匹配算法。提取局部图像特征,得到图像中的细粒度信息;提取全局图像特征,将环境信息引入到网络的学习中,从而得到不同的视觉关系层次,为联合的视觉特征提供更多的信息;将全局-局部图像特征进行联合,将联合后的视觉特征和文本特征进行全局-局部对齐得到更加精准的相似度表示。通过大量的实验和分析表明:所提算法在2个公共数据集上具有有效性。 展开更多
关键词 图像-文本匹配 跨模态信息处理 特征提取 神经网络 特征融合
下载PDF
基于CLIP模型和文本重建的人脸图像生成方法研究
7
作者 李源凡 张丽红 《测试技术学报》 2024年第2期154-160,共7页
针对文本生成人脸方法中生成图像与文本描述不一致、图像分辨率较低等问题,提出一种跨模态文本生成人脸图像网络框架。首先,采用CLIP预训练模型对文本进行特征提取,通过条件增强模块增强文本语义特征并生成隐藏向量;然后,将隐藏向量通... 针对文本生成人脸方法中生成图像与文本描述不一致、图像分辨率较低等问题,提出一种跨模态文本生成人脸图像网络框架。首先,采用CLIP预训练模型对文本进行特征提取,通过条件增强模块增强文本语义特征并生成隐藏向量;然后,将隐藏向量通过映射网络投影到预训练模型StyleGAN的隐式空间中获得解纠缠隐藏向量,将该向量输入到StyleGAN生成器中生成高分辨率人脸图像;最后,采用文本重建模块将人脸图像重新生成文本,计算重建文本和输入文本之间的语义对齐损失,并将其作为语义监督指导网络训练。在Multi-Modal CelebA-HQ和CelebAText-HQ两个数据集上进行训练与测试,实验结果表明,相比其他方法,该方法能生成更加符合文本描述的高分辨率人脸图像。 展开更多
关键词 文本生成人脸 跨模态 CLIP预训练 文本重建 文本映射
下载PDF
实值无标签图文跨模态检索研究综述
8
作者 张力 陈康 孙光辉 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第9期1-16,共16页
为研究面向无标签数据集基于实值特征的图像文本跨模态检索(以下简称跨模态检索)方法的发展现状和亟待解决的关键问题,对目前该领域的文献进行了分析与总结。跨模态检索是根据给定的一种模态查询,从另一种模态中检索出与查询相关的样本... 为研究面向无标签数据集基于实值特征的图像文本跨模态检索(以下简称跨模态检索)方法的发展现状和亟待解决的关键问题,对目前该领域的文献进行了分析与总结。跨模态检索是根据给定的一种模态查询,从另一种模态中检索出与查询相关的样本。首先,引入基于时间复杂度分类法,将现有跨模态检索方法分为基于特征方法和基于分数方法;其次,分别对以上两类方法的研究现状进行叙述,并针对两类方法现阶段存在的主要问题进行分析和讨论;然后,引入跨模态检索的两个主流数据集和常用评价指标,分别对两类方法在公开数据集上的性能进行比较与分析;最后,总结了跨模态检索领域亟待解决的关键问题。研究表明,现有跨模态检索方法尽管已经取得了显著进展,但仍有一些关键问题亟待解决,这些关键问题是未来跨模态检索领域的重要发展方向。 展开更多
关键词 图像文本跨模态检索 多模态学习 实值特征 基于特征方法 基于分数方法
下载PDF
基于图文细粒度对齐语义引导的多模态神经机器翻译方法
9
作者 叶俊杰 郭军军 +2 位作者 谭凯文 相艳 余正涛 《中文信息学报》 CSCD 北大核心 2024年第10期24-34,共11页
多模态神经机器翻译旨在利用视觉信息来提高文本翻译质量。传统多模态机器翻译将图像的全局语义信息融入翻译模型,而忽略了图像的细粒度信息对翻译质量的影响。对此,该文提出一种基于图文细粒度对齐语义引导的多模态神经机器翻译方法,... 多模态神经机器翻译旨在利用视觉信息来提高文本翻译质量。传统多模态机器翻译将图像的全局语义信息融入翻译模型,而忽略了图像的细粒度信息对翻译质量的影响。对此,该文提出一种基于图文细粒度对齐语义引导的多模态神经机器翻译方法,该方法首先采用跨模态交互图文信息,以提取图文细粒度对齐语义信息,然后以图文细粒度对齐语义信息为枢纽,采用门控机制将多模态细粒度信息对齐到文本信息上,实现图文多模态特征融合。在多模态机器翻译基准数据集Multi30K英语到德语、英语到法语以及英语到捷克语翻译任务上的实验结果表明,该文提出的方法是有效的,并且优于大多数先进的多模态机器翻译方法。 展开更多
关键词 多模态神经机器翻译 图文细粒度 语义交互 对齐语义
下载PDF
基于文本引导下的多模态医学图像分析算法
10
作者 樊琳 龚勋 郑岑洋 《电子学报》 EI CAS CSCD 北大核心 2024年第7期2341-2355,共15页
结合胃镜超声和白光内镜可以更准确地识别胃肠道间质瘤.但是现有的多模态方法往往仅关注于图像特征,忽略了诊断文本信息中所包含的语义信息对于精确理解和诊断医学图像的重要性.为此,本文提出一种新的基于文本引导下的多模态医学图像分... 结合胃镜超声和白光内镜可以更准确地识别胃肠道间质瘤.但是现有的多模态方法往往仅关注于图像特征,忽略了诊断文本信息中所包含的语义信息对于精确理解和诊断医学图像的重要性.为此,本文提出一种新的基于文本引导下的多模态医学图像分析算法框架(Text-guided Multi-modal Medical image analysis framework,TMM-Net).TMM-Net使用多阶段的诊断文本来引导模型学习,以提取图像中的关键诊断信息特征,然后通过交叉模态注意力机制促进多模态特征之间的交互.值得注意的是,TMM-Net通过预测病变属性来模拟临床诊断过程,从而增强了可解释性.验证实验在两个中心包含10 025个模态数据对的数据集上进行.结果表明,该方法相比目前最优的GISTs诊断方法精度提升7.7%,同时获得了最高的(Area Under the Curve,AUC)值:0.927,其可解释性可以更好地适合临床需求. 展开更多
关键词 多模态融合 模型可解释性 图像-文本匹配 胃肠道间质瘤 胃镜超声 白光内镜
下载PDF
双级交互式自适应融合的多模态神经机器翻译
11
作者 杜连成 郭军军 +1 位作者 叶俊杰 余正涛 《计算机工程与科学》 CSCD 北大核心 2024年第11期2071-2080,共10页
多模态神经机器翻译的目标是通过引入其他模态信息来提升纯文本神经机器翻译的质量。图像中包含了实体对象的关系、属性以及空间位置关系等多种语义信息。然而,目前存在的大多数融合方法仅考虑图像的部分视觉信息,忽略了对视觉模态内部... 多模态神经机器翻译的目标是通过引入其他模态信息来提升纯文本神经机器翻译的质量。图像中包含了实体对象的关系、属性以及空间位置关系等多种语义信息。然而,目前存在的大多数融合方法仅考虑图像的部分视觉信息,忽略了对视觉模态内部关系的探索,导致视觉信息的利用率较低,无法充分利用图像所包含的全部语义信息。因此,提出了一种双级交互式自适应融合的多模态神经机器翻译方法,该方法考虑了图像不同方面的属性特征,以充分利用图像的视觉信息。实验结果显示,该方法能够有效地利用图像所具有的视觉信息,并且在Multi30K数据集的英语→德语(EN→DE)和英语→法语(EN→FR)2种翻译任务的测试上的效果显著优于当前大多数的效果最优(SOTA)多模态神经机器翻译方法的结果,十分具有竞争力。 展开更多
关键词 多模态神经机器翻译 双视觉特征交互 图-文跨模态自适应融合
下载PDF
图文跨模态检索研究综述
12
作者 张振兴 王亚雄 《北京交通大学学报》 CAS CSCD 北大核心 2024年第2期23-36,共14页
图文跨模态检索作为跨模态计算研究的一个核心课题,一直受到学术界和工业界的高度重视.在过去的几十年里,随着深度学习技术的发展,特别是深度神经网络、Transformer架构以及图文对比学习等关键技术的广泛应用与革新,图文跨模态检索领域... 图文跨模态检索作为跨模态计算研究的一个核心课题,一直受到学术界和工业界的高度重视.在过去的几十年里,随着深度学习技术的发展,特别是深度神经网络、Transformer架构以及图文对比学习等关键技术的广泛应用与革新,图文跨模态检索领域取得了显著的进展和突破.本文在系统梳理图文跨模态检索的发展轨迹的基础上,重点关注其建模过程中的5个关键步骤,即训练数据准备、数据输入形式设计、图文特征抽取机制的选择、图文建模方法的选择以及优化目标的确立.为客观评估现有模型在跨模态检索任务上的性能水平,在多个权威的标注评测数据集上比较各类模型的表现,以揭示当前跨模态检索方法的实际效能边界.通过对各关键步骤发展历程的分析与总结,结合当前图文跨模态检索领域的研究成果,对未来跨模态学习的发展趋势做出预测与展望.研究结果表明:尽管当前的图文跨模态检索技术已取得显著进步,但仍存在进一步提升的空间和潜力,研究者可从精细化检索、经济的预训练方法、新的图文交互方式、AIGC赋能的图文预训练4个方向进行改进. 展开更多
关键词 图文检索 跨模态学习 深度学习 注意力机制
下载PDF
多尺度视觉特征提取及跨模态对齐的连续手语识别
13
作者 郭乐铭 薛万利 袁甜甜 《计算机科学与探索》 CSCD 北大核心 2024年第10期2762-2769,共8页
连续手语识别研究中,视觉特征的有效表示是提升识别效果的关键。然而,手语动作时序长度的差异性及手语弱标注现象,使得有效的视觉特征提取更加困难。针对上述问题,提出了多尺度视觉特征提取及跨模态对齐的连续手语识别方法(MECA)。该方... 连续手语识别研究中,视觉特征的有效表示是提升识别效果的关键。然而,手语动作时序长度的差异性及手语弱标注现象,使得有效的视觉特征提取更加困难。针对上述问题,提出了多尺度视觉特征提取及跨模态对齐的连续手语识别方法(MECA)。该方法主要包含多尺度视觉特征提取模型和跨模态对齐约束。在多尺度视觉特征提取模型中,并行地融合具备不同扩张因子的瓶颈残差结构,来丰富多尺度时序感受野,用于提取不同时序长度的手语视觉特征,同时采用层级复用设计进一步强化视觉特征表示。在跨模态对齐约束中,采用动态时间规整建模手语视觉特征和文本特征之间的内在联系,其中,文本特征提取由多层感知机和长短期记忆网络协作实现。在具备挑战性的公开数据集RWTH-2014、RWTH-2014T、CSL-Daily上进行实验,结果表明所提方法达到目前具有竞争力的性能。上述实验验证了所提的采用多尺度的方式可以捕捉不同时序长度的手语动作,以及构建跨模态对齐约束的思路是正确且有效的,适用于弱监督条件下的连续手语识别任务。 展开更多
关键词 连续手语识别 多尺度 跨模态对齐约束 视频视觉特征 文本特征
下载PDF
基于层次聚类的图文检索模型研究
14
作者 孙健玮 刘玉龙 《计算机测量与控制》 2024年第6期286-291,298,共7页
图文检索在工业中的用途和作用是多方面的,可以帮助提高研发和生产效率,促进科技创新,提高产品的质量和竞争力;目前,图文检索模型的重点是提高检索的精度;随着技术和数据的快速发展,深度学习和大模型技术的不断应用,图文检索的速度问题... 图文检索在工业中的用途和作用是多方面的,可以帮助提高研发和生产效率,促进科技创新,提高产品的质量和竞争力;目前,图文检索模型的重点是提高检索的精度;随着技术和数据的快速发展,深度学习和大模型技术的不断应用,图文检索的速度问题逐渐凸显,为解决当前图文检索速度受限、计算量大的问题,提出了一种基于层次聚类的图文检索模型;该方法选择了检索效果明显的跨模态哈希方法,并运用深度聚类算法对待检索的数据进行分类,从而缩小检索范围,提高了检索速度;实验结果表明,基于层次聚类的图文检索模型在保持检索精度的同时,显著提高了检索速度,使得工程人员能够更快地获取到满意的检索结果。 展开更多
关键词 图文检索 跨模态哈希方法 深度学习 深度聚类算法 信息检索
下载PDF
文本生成人脸:基于BERT-DCGAN的文本人脸生成
15
作者 余松森 陈新 苏海 《计算机与数字工程》 2024年第3期909-914,共6页
随着生成对抗网络(GANs)的提出,从文本中自动合成逼真的图像的技术已经初步实现。然而,现有的大多数任务仅限于从标注(captions)中生成简单的图像,如画、鸟。作为文本生成图像(T2I)的子领域,文本生成人脸图像(T2F)在公共安全领域有着巨... 随着生成对抗网络(GANs)的提出,从文本中自动合成逼真的图像的技术已经初步实现。然而,现有的大多数任务仅限于从标注(captions)中生成简单的图像,如画、鸟。作为文本生成图像(T2I)的子领域,文本生成人脸图像(T2F)在公共安全领域有着巨大的应用潜力,如犯罪嫌疑人人脸重建。但是由于当前的任务数据集要么非常小,要么不包括标注,缺少可用相关的数据集,几乎没有对这个领域有相关的研究。论文通过Text2FaceGAN中所提出的算法将CelebA数据集的属性列表转换为一组标注,并对CelebA数据集中的人脸图像进行切割,生成<标注-人脸图像>的成对的数据集ImprovedCelebA,解决了数据集的不足。此外,由于文本生成人脸图像(T2F)的效果依赖于文本编码的质量,传统的T2I方法使用粗粒度的文本编码手段无法生成逼真的人脸图像,因此论文提出一种根据细粒度的人脸文本描述生成人脸的方法,并利用带有GAN-CLS损失的BERT-DCGAN来学习这一条件多模态问题。为了避免前期训练时出现传统GANs训练时出现梯度消失的问题,每4次训练对真假图像的标签进行了翻转。通过实验验证,与其他文本生成人脸图像方法相比,该算法不仅可以生成逼真的人脸图像,而且大大减少了训练时间。 展开更多
关键词 生成对抗网络 文本生成人脸 多模态
下载PDF
基于多模态特征对齐的作物病害叶片检测
16
作者 周一帆 刘东洋 周宇平 《中国农机化学报》 北大核心 2024年第7期180-187,共8页
针对现有农作物病害叶片检测方法利用图像特征定位叶片病害区域精度不高的问题,提出一种基于多模态特征对齐的作物病害叶片检测新方法。在训练阶段,利用视觉编码器和文本编码器将农作物叶片集中的图片和文本进行编码,并根据视觉编码特... 针对现有农作物病害叶片检测方法利用图像特征定位叶片病害区域精度不高的问题,提出一种基于多模态特征对齐的作物病害叶片检测新方法。在训练阶段,利用视觉编码器和文本编码器将农作物叶片集中的图片和文本进行编码,并根据视觉编码特征定位给定图片中的病害区域,利用视觉和文本编码融合特征实现病害区域病害类型的细粒度分类。在推理阶段,利用预训练的病害区域定位模块定位给定测试图片中的病害区域,并将其提取的病害区域作为预训练分类模型的输入;通过计算预测文本值与文本集中原始标签之间的相似度值,快速给出病害区域的细粒度分类结果。在多个开源的农作物病害数据集上进行测试,所提出方法在马铃薯、番茄、苹果和草莓四种类型的病害叶片数据集上精准率分别为0.9574、0.9611、0.9580和0.9502,综合性能更优,具有较好实用价值。 展开更多
关键词 病害叶片检测 多模态特征 视觉编码特征 文本编码特征 细粒度分类
下载PDF
动态多视图推理分层相似性的图文检索算法
17
作者 张书铭 《现代信息科技》 2024年第17期56-61,共6页
跨模态图像文本检索通常指的是可见光图像和正常文本。其中,基于标量的图文相似度具有局限性,无法全面表示跨模态对齐。同时,局部区域—单词相关性和全局图像—文本依赖性之间存在复杂的相互作用,所以用于推理两种模态特征的模块存在一... 跨模态图像文本检索通常指的是可见光图像和正常文本。其中,基于标量的图文相似度具有局限性,无法全面表示跨模态对齐。同时,局部区域—单词相关性和全局图像—文本依赖性之间存在复杂的相互作用,所以用于推理两种模态特征的模块存在一定程度的不确定性。针对上述问题,文章提出了一种基于层次相似网络的图文匹配动态多视图推理方法。首先,该方法使用了基于标量和基于向量的全局和局部相似度。其次,设计了四种类型的单元作为探索全局—局部相似性交互的基本单位。最后,引入了可学习的选择置信度机制,在Flickr30K和MSCOCO数据集上的实验展现了算法的卓越性能。 展开更多
关键词 跨模态检索 图文匹配 动态交互算法 相似度预测
下载PDF
基于多尺度跨模态特征融合的图文情感分类模型
18
作者 刘倩 白志豪 +1 位作者 程春玲 归耀城 《计算机科学》 CSCD 北大核心 2024年第9期258-264,共7页
图文情感分类任务常用早期融合和Transformer模型相结合的跨模态特征融合策略进行图文特征融合,但该策略更倾向于关注模态内部的独有信息,而忽略了模态间的相互联系和共有信息,导致跨模态特征融合效果不理想。针对此问题,提出一种基于... 图文情感分类任务常用早期融合和Transformer模型相结合的跨模态特征融合策略进行图文特征融合,但该策略更倾向于关注模态内部的独有信息,而忽略了模态间的相互联系和共有信息,导致跨模态特征融合效果不理想。针对此问题,提出一种基于多尺度跨模态特征融合的图文情感分类方法。局部尺度方面,基于跨模态注意力机制进行局部特征融合,使模型不仅关注图像和文本的独有信息,而且可以发现图像和文本之间的联系和共有信息。全局尺度方面,基于MLM损失进行全局特征融合,使模型对图像和文本数据进行全局建模,进一步挖掘图像和文本之间的联系,从而促进图像和文本特征的深度融合。在两个公开数据集MVSA-Single和MVSA-Multiple上与10个基线模型进行对比实验,结果表明所提方法在精度、F1值和模型参数量方面均具有明显优势,验证了其有效性。 展开更多
关键词 图文情感分类 跨模态特征融合 Transformer模型 注意力机制 MLM损失
下载PDF
基于拓展图文对比学习的多模态语义对齐
19
作者 安国成 江波 +1 位作者 王晓龙 戴军 《计算机工程》 CAS CSCD 北大核心 2024年第11期152-162,共11页
基于对比语言-图像的预训练(CLIP)方法在大规模图文数据上使双流架构下的模型能够较好地学习到统一的高级语义表征,但CLIP模式仅约束图像-文本模态间的粗粒度语义对齐,在同一模态下的语义表征仍需改进。为了使网络学习到更好的潜在统一... 基于对比语言-图像的预训练(CLIP)方法在大规模图文数据上使双流架构下的模型能够较好地学习到统一的高级语义表征,但CLIP模式仅约束图像-文本模态间的粗粒度语义对齐,在同一模态下的语义表征仍需改进。为了使网络学习到更好的潜在统一语义表征,提出一种基于拓展图文对比学习的多模态语义对齐方法。首先通过微调预训练的CLIP模型,针对指定数据集优化语义表征,设计双向匹配策略构造图文样本匹配拓扑图,然后利用拓扑图中关联度更高的图文样本将对比学习进行拓展,在图像-文本模态下进行粗粒度语义对齐,同时在相同模态中进行细粒度调整,并引入可学习参数调整各模态下的对比损失权重。通过在多个数据集下的实验结果表明,该方法在不影响多模态语义对齐的性能下能够改进相同模态下的语义表征,在分类、检索等下游任务上具有更好或相当的性能。 展开更多
关键词 多模态学习 语义表征 对比学习 图文匹配 图像分类
下载PDF
基于图文多模态融合的文档片段语义相似度判定算法
20
作者 潘媛 梁国迪 +1 位作者 邵馨叶 李芹 《电子设计工程》 2024年第3期106-109,114,共5页
为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现... 为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现基于图文多模态融合的文档片段标注。根据文本数据预处理条件,确定关键词权值指标,联合已知文档片段语义信息,求取相似性度量值的准确计算结果,完成文档片段语义相似度判定算法的设计。对比实验结果可知,在图文多模态融合技术的支持下,差异性赋值指标的平均值达到了1.0,对于网络主机而言,其在准确判别相似性文档片段语义信息方面的应用能力得到了保障。 展开更多
关键词 图文多模态融合 文档片段 语义相似度 词袋模型 关键词权值 差异性赋值
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部