期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于Transformer和多模态对齐的非自回归手语翻译技术研究
1
作者 邵舒羽 杜垚 范晓丽 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2932-2941,共10页
为了解决多模态数据的对齐及手语翻译速度较慢的问题,该文提出一个基于自注意力机制模型Transformer的非自回归手语翻译模型(Trans-SLT-NA),同时引入了对比学习损失函数进行多模态数据的对齐,通过学习输入序列(手语视频)和目标序列(文本... 为了解决多模态数据的对齐及手语翻译速度较慢的问题,该文提出一个基于自注意力机制模型Transformer的非自回归手语翻译模型(Trans-SLT-NA),同时引入了对比学习损失函数进行多模态数据的对齐,通过学习输入序列(手语视频)和目标序列(文本)的上下文信息和交互信息,实现一次性地将手语翻译为自然语言。该文所提模型在公开数据集PHOENIX-2014T(德语)、CSL(中文)和How2Sign(英文)上进行实验评估,结果表明该文方法相比于自回归模型翻译速度提升11.6~17.6倍,同时在双语评估辅助指标(BLEU-4)、自动摘要评估指标(ROUGE)指标上也接近自回归模型。 展开更多
关键词 手语翻译 自注意力机制 非自回归翻译 深度学习 模态数据对齐
下载PDF
基于正反上下文语义对齐融合的多模态文本摘要模型
2
作者 陈中峰 陆振宇 荣欢 《中文信息学报》 CSCD 北大核心 2024年第4期108-119,共12页
该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过... 该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过多模态正向注意力机制与反向注意力机制多方面观察对齐后的源文本与图片内容,分别得到各自模态语义信息的正相关和不相关特征表示。使用正向滤波器过滤正向注意力机制中的不相关信息,使用反向滤波器过滤反向注意力机制中的相关信息,达到分别从正向与反向两个方面选择性地融合文本语义信息和图片语义信息的目的。最后基于指针生成网络,使用正相关信息搭建正向指针、使用不相关信息搭建反向指针,生成带有多模态语义信息补偿的文本摘要内容。在京东中文电子商务数据集上,所提模型生成的多模态文本摘要在ROUGE-1、ROUGE-2、ROUGE-L指标上分别取得了38.40、16.71、28.01的结果。 展开更多
关键词 模态文本摘要 模态信息对齐 二级门控编码机制 文本生成模型
下载PDF
关系敏感型多子图图神经网络的多模态实体对齐
3
作者 金佳惠 李治江 刘谊章 《计算机系统应用》 2024年第3期245-254,共10页
作为融合多源异构知识图谱的主要手段,实体对齐一般首先编码实体等图结构信息,而后通过计算实体间相似度来获取对齐实体.然而,现存的多模态对齐方法往往直接引入预训练方法表达模态特征,忽略了模态间的融合以及模态特征与图结构间的融合... 作为融合多源异构知识图谱的主要手段,实体对齐一般首先编码实体等图结构信息,而后通过计算实体间相似度来获取对齐实体.然而,现存的多模态对齐方法往往直接引入预训练方法表达模态特征,忽略了模态间的融合以及模态特征与图结构间的融合.因此,本文提出一种关系敏感型的多子图图神经网络(RAMS)方法.通过多子图图神经网络编码方法对模态信息与图结构进行结合并获得实体表征,通过跨域相似度计算得到对齐结果.广泛且多角度的实验证明了本文所提出的模型在准确率、效率、鲁棒性方面均超过了基线模型. 展开更多
关键词 模态实体对齐 图神经网络 知识图谱 机器学习 深度学习
下载PDF
基于去偏对比学习的多模态命名实体识别
4
作者 张鑫 袁景凌 +1 位作者 李琳 刘佳 《中文信息学报》 CSCD 北大核心 2023年第11期49-59,共11页
命名实体识别作为信息抽取的关键环节,在自然语言处理领域有着广泛应用。随着互联网上多模态信息的不断涌现,研究发现视觉信息有助于文本实现更加准确的命名实体识别。现有工作通常将图像视为视觉对象的集合,试图将图像中的视觉对象与... 命名实体识别作为信息抽取的关键环节,在自然语言处理领域有着广泛应用。随着互联网上多模态信息的不断涌现,研究发现视觉信息有助于文本实现更加准确的命名实体识别。现有工作通常将图像视为视觉对象的集合,试图将图像中的视觉对象与文本中的实体显式对齐。然而,当二者在数量或语义上不一致时,这些方法往往不能很好地应对模态偏差,从而难以实现图像和文本之间的准确语义对齐。针对此问题,该文提出了一种基于去偏对比学习的多模态命名实体识别方法(DebiasCL),利用视觉对象密度指导视觉语境丰富的图文作为扩充样本,通过去偏对比学习优化图文共享的潜在语义空间学习,实现图像与文本间的隐式对齐。在Twitter-2015和Twitter-2017上进行实验,DebiasCL的F1值分别达到75.04%和86.51%,在“PER.”和“MISC.”类别数据中F1分别提升了5.23%和5.2%。实验结果表明,该方法可以有效缓解模态偏差,从而提升多模态命名实体识别系统性能。 展开更多
关键词 模态命名实体识别 对比学习 模态对齐
下载PDF
基于全箭振型数据的大型捆绑火箭模态筛选与对齐方法 被引量:1
5
作者 胡明明 谭述君 +1 位作者 周如好 何骁 《振动与冲击》 EI CSCD 北大核心 2021年第20期217-222,231,共7页
针对大型捆绑火箭开展了模态筛选和对齐方法的研究。采用全箭的振型数据,首先改进了模态振型数据归一化的方式,给出了弯曲、扭转、纵振及局部模态等的筛选系数公式。然后利用基于模态置信度准则的模态对齐方法,结合模态筛选结果,完成了... 针对大型捆绑火箭开展了模态筛选和对齐方法的研究。采用全箭的振型数据,首先改进了模态振型数据归一化的方式,给出了弯曲、扭转、纵振及局部模态等的筛选系数公式。然后利用基于模态置信度准则的模态对齐方法,结合模态筛选结果,完成了不同秒点的模态对齐。最后在某型号运载火箭动力学模型上进行了仿真验证。仿真结果表明了所提出的模态筛选与对齐方法的正确性和有效性。 展开更多
关键词 大型捆绑火箭 振型数据 模态筛选 模态对齐
下载PDF
深度多模态表示学习的研究综述 被引量:3
6
作者 潘梦竹 李千目 邱天 《计算机工程与应用》 CSCD 北大核心 2023年第2期48-64,共17页
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习... 尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。 展开更多
关键词 模态表示 深度学习 模态融合 模态对齐
下载PDF
多模态深度学习综述 被引量:39
7
作者 刘建伟 丁熙浩 罗雄麟 《计算机应用研究》 CSCD 北大核心 2020年第6期1601-1614,共14页
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了... 在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。 展开更多
关键词 模态 深度学习 多神经网络 模态表示 模态传译 模态融合 模态对齐
下载PDF
联合知识和视觉信息推理的视觉问答研究
8
作者 苏振强 苟刚 《计算机工程与应用》 CSCD 北大核心 2024年第5期95-102,共8页
视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答... 视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答中发挥着重要的作用,能够很好地辅助问答。基于知识的开放性视觉问答需要关联外部知识,才能实现跨模态的场景理解。为了更好地融合视觉信息和相关联的外部知识,提出联合知识和视觉信息推理双线性结构,设计了图像特征联合问题特征,对知识表征进行双引导的注意力模块。该模型利用预训练的视觉-语言模型获取问题和图像的特征表示以及视觉推理信息;利用相似性矩阵计算问题语义对齐下的图像对象区域;问题特征联合对齐后的区域特征,对知识表征进行协同引导获得知识推理信息;视觉推理信息和知识推理信息进行融合得到最终的答案。在开放的OK-VQA数据集上的实验结果表明,该模型的准确率相比两种基线方法分别有1.97个百分点和4.82个百分点的提升,从而验证了该模型的有效性。 展开更多
关键词 视觉问答 注意力机制 特征融合 模态对齐 外部知识
下载PDF
基于图像和特征联合优化的跨模态行人重识别研究
9
作者 张辉 刘世洪 钟武 《荆楚理工学院学报》 2023年第2期9-17,共9页
跨模态行人重识别(VI-ReID)旨在匹配可见光和红外摄像头下捕获的行人图像,十分具有挑战性。为减小可见光图像和红外图像之间的模态差异,本文提出了异质图像增广方法和跨模态特征对齐方法来优化跨模态行人重识别网络,利用轻量级异质图像... 跨模态行人重识别(VI-ReID)旨在匹配可见光和红外摄像头下捕获的行人图像,十分具有挑战性。为减小可见光图像和红外图像之间的模态差异,本文提出了异质图像增广方法和跨模态特征对齐方法来优化跨模态行人重识别网络,利用轻量级异质图像卷积生成器对可见光图像进行增广,采用色彩抖动方式对红外图像进行增广,并使用正样本优化轻量级异构图像卷积生成器来约束损失。在此基础上,使用两个模态分类器和跨模态特征对齐损失作为指导,不断学习获得模态共享的特征。在两个数据集上的大量实验表明,我们的方法具有优异的性能,在SYSU-MM01和RegDB数据集上分别达到了rank1/mAP 57.82%/54.35%和80.39%/75.05%的精度。 展开更多
关键词 模态行人重识别 模态差异 异质图像增广 模态特征对齐
下载PDF
面向深度学习的多模态融合技术研究综述 被引量:55
10
作者 何俊 张彩庆 +1 位作者 李小珍 张德海 《计算机工程》 CAS CSCD 北大核心 2020年第5期1-11,共11页
面向深度学习的多模态融合技术是指机器从文本、图像、语音和视频等领域获取信息实现转换与融合以提升模型性能,而模态的普遍性和深度学习的热度促进了多模态融合技术的发展。在多模态融合技术发展前期,以提升深度学习模型分类与回归性... 面向深度学习的多模态融合技术是指机器从文本、图像、语音和视频等领域获取信息实现转换与融合以提升模型性能,而模态的普遍性和深度学习的热度促进了多模态融合技术的发展。在多模态融合技术发展前期,以提升深度学习模型分类与回归性能为出发点,阐述多模态融合架构、融合方法和对齐技术。重点分析联合、协同、编解码器3种融合架构在深度学习中的应用情况与优缺点,以及多核学习、图像模型和神经网络等具体融合方法与对齐技术,在此基础上归纳多模态融合研究的常用公开数据集,并对跨模态转移学习、模态语义冲突消解、多模态组合评价等下一步的研究方向进行展望。 展开更多
关键词 深度学习 模态 模态融合 模态对齐 多核学习 图像模型
下载PDF
可靠多模态学习综述 被引量:11
11
作者 杨杨 詹德川 +1 位作者 姜远 熊辉 《软件学报》 EI CSCD 北大核心 2021年第4期1067-1081,共15页
近年来,多模态学习逐步成为机器学习、数据挖掘领域的研究热点之一,并成功地应用于诸多现实场景中,如跨媒介搜索、多语言处理、辅助信息点击率预估等.传统多模态学习方法通常利用模态间的一致性或互补性设计相应的损失函数或正则化项进... 近年来,多模态学习逐步成为机器学习、数据挖掘领域的研究热点之一,并成功地应用于诸多现实场景中,如跨媒介搜索、多语言处理、辅助信息点击率预估等.传统多模态学习方法通常利用模态间的一致性或互补性设计相应的损失函数或正则化项进行联合训练,进而提升单模态及集成的性能.而在开放环境下,受数据缺失及噪声等因素的影响,多模态数据呈现不均衡性.具体表现为单模态信息不充分或缺失,从而导致"模态表示强弱不一致""模态对齐关联不一致"两大挑战,而针对不均衡多模态数据直接利用传统的多模态方法甚至会退化单模态和集成的性能.针对这类问题,可靠多模态学习被提出并进行了广泛研究,系统地总结和分析了目前国内外学者针对可靠多模态学习取得的进展,并对未来研究可能面临的挑战进行展望. 展开更多
关键词 不均衡多模态数据 模态表示强弱不一致 模态对齐关联不一致 可靠多模态学习
下载PDF
一种基于时序损失的语音驱动面部运动方法
12
作者 王振凯 王承伟 +1 位作者 张一帆 李昊渊 《计算机科学与应用》 2023年第12期2521-2527,共7页
语音驱动3D面部运动的研究主要聚焦于拓展多说话人的3D面部运动数据以及获取高质量音频特征上,但采集3D面部运动数据往往需要高昂的成本和繁琐的标注流程,单一说话人的少量数据样本又会导致模型因为数据的稀疏性难以获取高质量音频特征... 语音驱动3D面部运动的研究主要聚焦于拓展多说话人的3D面部运动数据以及获取高质量音频特征上,但采集3D面部运动数据往往需要高昂的成本和繁琐的标注流程,单一说话人的少量数据样本又会导致模型因为数据的稀疏性难以获取高质量音频特征。针对该问题,论文从时间序列任务中获得启发,将可微动态时间规整(Smoothed formulation of Dynamic Time Warping, Soft-DTW)应用到语音特征与面部网格(Mesh)顶点的跨模态对齐中。经过实验表明,采用Soft-DTW作为损失函数在生成面部动画的唇形吻合度方面相较于使用均方误差(Mean Squared Error, MSE)时有所提高,可以合成更高质量的面部动画。 展开更多
关键词 语音驱动 模态对齐 面部动画 Soft-DTW
下载PDF
基于联合知识表示学习的多模态实体对齐 被引量:15
13
作者 王会勇 论兵 +1 位作者 张晓明 孙晓领 《控制与决策》 EI CSCD 北大核心 2020年第12期2855-2864,共10页
基于知识表示学习的实体对齐方法是将多个知识图谱嵌入到低维语义空间,通过计算实体向量之间的相似度实现对齐.现有方法往往关注文本信息而忽视图像信息,导致图像中实体特征信息未得到有效利用.对此,提出一种基于联合知识表示学习的多... 基于知识表示学习的实体对齐方法是将多个知识图谱嵌入到低维语义空间,通过计算实体向量之间的相似度实现对齐.现有方法往往关注文本信息而忽视图像信息,导致图像中实体特征信息未得到有效利用.对此,提出一种基于联合知识表示学习的多模态实体对齐方法(ITMEA).该方法联合多模态(图像、文本)数据,采用TransE与TransD相结合的知识表示学习模型,使多模态数据能够嵌入到统一低维语义空间.在低维语义空间中迭代地学习已对齐多模态实体之间的关系,从而实现多模态数据的实体对齐.实验结果表明,ITMEA在WN18-IMG数据集中能够较好地实现多模态实体对齐. 展开更多
关键词 模态数据 知识表示学习 知识图谱 模态实体对齐 翻译模型 种子集合
原文传递
基于自然语言的视频片段定位综述
14
作者 聂秀山 潘嘉男 +3 位作者 谭智方 刘新放 郭杰 尹义龙 《计算机科学》 CSCD 北大核心 2022年第9期111-122,共12页
自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有... 自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有更强的灵活性,因为它不受预定义动作列表的限制;同时也更具挑战性,因为NLVL需要从视频和文本两种模态间对齐语义信息。此外,在对齐关系中获取最终的时间戳也是一个艰巨的任务。首先,描述了NLVL的流程;其次,根据是否有监督信息将NLVL算法分为监督方法和弱监督方法两大类并分析其优缺点;然后,总结了常用的数据集和评估指标,对现有的研究进行了总体性能的评估和分析;最后,讨论了技术难点及未来的研究趋势,为今后的工作提供参考。 展开更多
关键词 模态检索 视频片段定位 视频理解 模态对齐 模态交互
下载PDF
基于多模深度神经网络生成图像描述研究
15
作者 周珊 刘子龙 《软件导刊》 2018年第8期40-44,共5页
图片相比文字而言,可以为人们呈现更生动、更易于理解和更丰富的信息,海量图片成为互联网信息交流的主要媒介之一。因此,如何快速、便捷地自动生成图像描述具有研究意义。介绍了一种根据图像生成其内容的自然语言描述模型,该模型是基于... 图片相比文字而言,可以为人们呈现更生动、更易于理解和更丰富的信息,海量图片成为互联网信息交流的主要媒介之一。因此,如何快速、便捷地自动生成图像描述具有研究意义。介绍了一种根据图像生成其内容的自然语言描述模型,该模型是基于一种在图像区域上应用改进的Faster-RCNN、在句子上应用BRNN以及通过多模嵌入达成两种模态对齐的一种结构化目标的新颖组合。对实验生成描述与图片本来描述相似度进行评估,B-1为0.63,B-2为0.45,B-1为0.32,相较于初始的一些语言描述模型性能有明显提高,说明该模型有一定的实用性。 展开更多
关键词 自然语言描述模型 改进Faster-RCNN BRNN 多模嵌入 模态对齐
下载PDF
从视觉到文本:图像描述生成的研究进展综述 被引量:14
16
作者 魏忠钰 范智昊 +3 位作者 王瑞泽 承怡菁 赵王榕 黄萱菁 《中文信息学报》 CSCD 北大核心 2020年第7期19-29,共11页
近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像... 近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。 展开更多
关键词 图像描述生成 模态特征对齐 文献综述
下载PDF
视觉-语言导航的研究进展与发展趋势 被引量:2
17
作者 牛凯 王鹏 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2022年第12期1815-1827,共13页
视觉-语言导航是近年来出现并蓬勃发展的新兴研究方向,是视觉-语言交互前沿领域中的代表性研究任务之一,其目标是根据人类给出的语言指令基于环境视觉感知实现自主导航.首先介绍该任务的研究内容,分析其面临的跨模态语义对齐、语义理解... 视觉-语言导航是近年来出现并蓬勃发展的新兴研究方向,是视觉-语言交互前沿领域中的代表性研究任务之一,其目标是根据人类给出的语言指令基于环境视觉感知实现自主导航.首先介绍该任务的研究内容,分析其面临的跨模态语义对齐、语义理解与推理和模型泛化能力增强3个方面的问题与挑战,然后列举了常用的数据集和评价指标;再从模仿学习、强化学习、自监督学习以及其他方法4个方面对该任务的研究进展进行归纳与总结,并对代表性方法的效果进行对比分析;从连续环境导航和高级复杂指令理解与常识推理2个方面论述该任务当前研究的热点趋势;最后对三维空间的视觉-语言导航、模糊导航、环境交互导航等未来发展方向进行讨论与展望. 展开更多
关键词 视觉-语言导航 视觉-语言交互 模态语义对齐 行为决策
下载PDF
指称表达的研究进展与发展趋势
18
作者 牛凯 孙梦阳 +1 位作者 索伟 王鹏 《中国基础科学》 2022年第3期10-17,共8页
指称表达是近年来蓬勃发展的新兴研究方向,也是视觉—语言交互领域中具有代表性的研究任务。其主要研究内容为:在对自然语言及视觉图像中的属性、位置、关系等上下文信息充分理解的基础上,通过跨模态的交互及推理,依据自然语言描述,准... 指称表达是近年来蓬勃发展的新兴研究方向,也是视觉—语言交互领域中具有代表性的研究任务。其主要研究内容为:在对自然语言及视觉图像中的属性、位置、关系等上下文信息充分理解的基础上,通过跨模态的交互及推理,依据自然语言描述,准确完成图像区域的指称决策。该任务的有效解决对计算机的感知能力、推理能力和多模态信息融合能力等均提出了更高的要求,具有重要的研究价值;同时在人机交互、自动驾驶、智能家居等众多现实情景中均具备广阔的应用前景。本文旨在对近年来指称表达任务的研究进展及未来趋势进行综述和分析。介绍该任务的研究背景及研究内容,列举常用的数据集和评价指标,重点对国内外近几年的研究进展进行归纳与总结,分析国内该领域的研究现状及特点,对其未来的发展方向进行讨论与展望。 展开更多
关键词 视觉—语言交互 指称表达 模态对齐 关系推理
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部