期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
49
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于多模态知识主动学习的视频问答方案
1
作者
刘明阳
王若梅
+1 位作者
周凡
林格
《计算机研究与发展》
EI
CSCD
北大核心
2024年第4期889-902,共14页
视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影...
视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影响了模型对多模态内容的深度理解.针对这些问题,首先,设计了一种显性多模态特征提取模块,通过获取图像序列中视觉目标的语义关联以及与周围环境的动态关系来建立每个视觉目标的运动轨迹.进一步通过动态内容对静态内容的补充,为数据融合与推理提供了更加精准的视频特征表达.其次,提出了知识自增强多模态数据融合与推理模型,实现了多模态信息理解的自我完善和逻辑思维聚焦,增强了对多模态特征的深度理解,减少了对先验知识的依赖.最后,提出了一种基于多模态知识主动学习的视频问答方案.实验结果表明,该方案的性能优于现有最先进的视频问答算法,大量的消融和可视化实验也验证了方案的合理性.
展开更多
关键词
视频问答
数据融合与推理
多模态主动学习
视频细节描述提取
深度学习
下载PDF
职称材料
面向遥感视觉问答的尺度引导融合推理网络
2
作者
赵恩源
宋宁
+3 位作者
聂婕
王鑫
郑程予
魏志强
《软件学报》
EI
CSCD
北大核心
2024年第5期2133-2149,共17页
遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目...
遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目标中的多尺度特征及其空间位置信息的深度挖掘,又缺乏对尺度特征的建模和推理的研究,导致答案预测不够全面和准确.针对以上问题,提出一种多尺度引导的融合推理网络(multi-scale guided fusion inference network,MGFIN),旨在增强RSVQA系统的视觉空间推理能力.首先,设计基于Swin Transformer的多尺度视觉表征模块,对嵌入空间位置信息的多尺度视觉特征进行编码;其次,在语言线索的引导下,使用多尺度关系推理模块以尺度空间为线索学习跨多个尺度的高阶群内对象关系,并进行空间层次推理;最后,设计基于推理的融合模块来弥合多模态语义鸿沟,在交叉注意力基础上,通过自监督范式、对比学习方法、图文匹配机制等训练目标来自适应地对齐融合多模态特征,并辅助预测最终答案.实验结果表明,所提模型在两个公共RSVQA数据集上具有显著优势.
展开更多
关键词
遥感视觉问答
多模态智能融合
多模态推理
多尺度表征
下载PDF
职称材料
面向小样本抽取式问答的多标签语义校准方法
3
作者
刘青
陈艳平
+2 位作者
邹安琪
秦永彬
黄瑞章
《应用科学学报》
CAS
CSCD
北大核心
2024年第1期161-173,共13页
小样本抽取式问答任务旨在利用文章给定的上下文片段,抽取出真实的答案片段。其基线模型采用的方法只针对跨度进行学习,缺乏对全局语义信息的利用,在含有多组不同重复跨度的实例中存在着理解偏差等问题。为了解决上述问题,该文利用不同...
小样本抽取式问答任务旨在利用文章给定的上下文片段,抽取出真实的答案片段。其基线模型采用的方法只针对跨度进行学习,缺乏对全局语义信息的利用,在含有多组不同重复跨度的实例中存在着理解偏差等问题。为了解决上述问题,该文利用不同层级的语义提出了一种面向小样本抽取式问答任务的多标签语义校准方法。采用包含全局语义信息的头标签和基线模型中的特殊字符构成多标签进行语义融合,并利用语义融合门来控制全局信息流的引入,将全局语义信息融合到特殊字符的语义信息中。然后,利用语义筛选门对新融入的全局语义信息和该特殊字符的原有语义信息进行保留与更替,实现对标签偏差语义的校准。在8个小样本抽取式问答数据集中的56组实验结果表明:该方法在评价指标F1值上均明显优于基线模型,证明了所提方法的有效性和先进性。
展开更多
关键词
小样本抽取式问答
跨度抽取式问答
多标签语义融合
双门控机制
机器阅读理解
下载PDF
职称材料
融合局部特征的多知识库常识问答模型
4
作者
田雨晴
汪春梅
袁非牛
《计算机工程与应用》
CSCD
北大核心
2024年第12期129-135,共7页
当前的多知识库融合常识推理模型的输入和特征组合的方式过于简单,导致模型丢失了一些与问题和答案相关的重要信息,限制了融合外部知识的常识推理模型的效果。另外,在进行常识问答的任务时,预训练语言模型输出的问题和答案表示存在的向...
当前的多知识库融合常识推理模型的输入和特征组合的方式过于简单,导致模型丢失了一些与问题和答案相关的重要信息,限制了融合外部知识的常识推理模型的效果。另外,在进行常识问答的任务时,预训练语言模型输出的问题和答案表示存在的向量各向异性问题没有得到解决。这些问题都是导致常识问答推理性能不够高的因素。针对以上问题,提出了一种基于局部特征融合的多知识库常识问答模型,改进外部知识库和问答文本的融合方式。模型将局部的问题和答案特征融入预训练语言模型全局特征,以丰富模型的特征信息,并在预测层结合了多种维度的特征进行预测;模型对于待匹配的问题和答案句子表示进行了白化处理,然后执行匹配任务。通过白化操作,模型增强了句子表示的各向同性,提升了句子向量的表征能力;还探索了不同预训练编码器(如:ALBERT、ELECTRA)在模型上的效果,以加强对知识文本的特征抽取能力,并证明了模型的稳定性。实验结果证明,在相同BERT-base编码器的实验下,模型的准确率达到78.6%,相较于基线模型,准确率提升了3.5个百分点;在ELECTRA-base编码器的实验下,模型的准确率达到80.1%。
展开更多
关键词
常识问答
知识库融合
局部特征融合预测
向量白化
下载PDF
职称材料
联合知识和视觉信息推理的视觉问答研究
5
作者
苏振强
苟刚
《计算机工程与应用》
CSCD
北大核心
2024年第5期95-102,共8页
视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答...
视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答中发挥着重要的作用,能够很好地辅助问答。基于知识的开放性视觉问答需要关联外部知识,才能实现跨模态的场景理解。为了更好地融合视觉信息和相关联的外部知识,提出联合知识和视觉信息推理双线性结构,设计了图像特征联合问题特征,对知识表征进行双引导的注意力模块。该模型利用预训练的视觉-语言模型获取问题和图像的特征表示以及视觉推理信息;利用相似性矩阵计算问题语义对齐下的图像对象区域;问题特征联合对齐后的区域特征,对知识表征进行协同引导获得知识推理信息;视觉推理信息和知识推理信息进行融合得到最终的答案。在开放的OK-VQA数据集上的实验结果表明,该模型的准确率相比两种基线方法分别有1.97个百分点和4.82个百分点的提升,从而验证了该模型的有效性。
展开更多
关键词
视觉问答
注意力机制
特征融合
多模态对齐
外部知识
下载PDF
职称材料
基于跨模态信息过滤的视觉问答网络
6
作者
何世阳
王朝晖
+1 位作者
龚声蓉
钟珊
《计算机科学》
CSCD
北大核心
2024年第5期85-91,共7页
视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注...
视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注意力计算,忽略了图像特征中含有噪声和不正确的信息这一问题,且多数方法局限于模态间的浅层交互,未曾考虑模态间的深层语义信息。为解决这一问题,提出了一个跨模态信息过滤网络,即首先以问题特征为监督信号,通过设计的信息过滤模块来过滤图像特征信息,使之更好地契合问题表征;随后将图像特征和问题特征送入跨模态交互层,在自注意力和引导注意力的作用下分别建模模态内和模态间的关系,以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模块的引入有效提升了模型准确率,在test-std上的整体精度达到了71.51%,相比大多数先进的方法具有良好的性能。
展开更多
关键词
视觉问答
深度学习
注意力机制
多模态融合
信息过滤
下载PDF
职称材料
动态视音场景下问答模型研究
7
作者
段毛毛
连培榆
史海涛
《计算机技术与发展》
2024年第3期163-169,共7页
现实世界由大量不同模态内容构建而成,各种模态的信息相互关联和互补,充分挖掘不同模态之间的关系和特性能够有效弥补单一模态信息的局限性。动态视音场景下的问答模型研究,旨在通过视频中多模态信息回答不同视觉物体、声音及其相互联...
现实世界由大量不同模态内容构建而成,各种模态的信息相互关联和互补,充分挖掘不同模态之间的关系和特性能够有效弥补单一模态信息的局限性。动态视音场景下的问答模型研究,旨在通过视频中多模态信息回答不同视觉物体、声音及其相互联系的问题,使人工智能获得场景感知和时空推理能力。针对视音问答不准确的问题,提出了一种空间时序问答模型,该模型通过空间融合建模和时序融合建模对多模态特征进行融合,从而提高问答准确率。首先,分别使用Resnet_18,VGGish和Bi-LST对音频、视频和文字进行特征提取;其次,根据声音和视频的关系,在特征融合时对声音和视频两种模态进行早期的空间融合,并使用联合注意力机制在相互辅助学习后进行特征融合,增强特征互补性;最后,在特征融合后添加注意力机制以增强融合特征与文字的相关性。基于MUSIC-AVQA数据集的实验准确率达73.49%,实现了场景感知和时空推理能力的提升。
展开更多
关键词
视音问答
多模态融合
联合注意力机制
Bi-LSTM
MUSIC-AVQA
下载PDF
职称材料
问答模式下结合属性语义的实体属性抽取研究
8
作者
常露予
张晓滨
《计算机技术与发展》
2024年第4期174-179,共6页
实体属性抽取任务中常面临属性标签过多时模型存在爆炸风险的问题,且目前大多数属性抽取模型对文本均分配一致的注意力因子,未将上下文的变化考虑在内。为解决上述问题,提出一种基于问答模式的结合属性语义的实体属性抽取方法。该方法...
实体属性抽取任务中常面临属性标签过多时模型存在爆炸风险的问题,且目前大多数属性抽取模型对文本均分配一致的注意力因子,未将上下文的变化考虑在内。为解决上述问题,提出一种基于问答模式的结合属性语义的实体属性抽取方法。该方法的要点在于,将文本看作上下文,把属性视为查询,从上下文中提取到的答案等同于期望的属性值。文中对文本和属性的语义表示进行建模,并提出一个动态注意力机制用于捕捉二者间的语义交互、实现信息融合,同时自适应地控制属性信息融入文本向量的程度。为了验证该方法的有效性,将模型与目前广泛应用的BiLSTM模型、BiLSTM-CRF模型、OpenTag模型和Open Tagging模型在包含大量属性标签的数据集AE-110K、AE-650K上进行对比实验,结果表明,模型在结合属性语义信息且采用动态Attention的条件下,其预测准确度、召回率和F1值更高。
展开更多
关键词
问答模式
实体属性抽取
动态注意力
语义交互
信息融合
下载PDF
职称材料
文本视觉问答综述
9
作者
朱贵德
黄海
《计算机工程》
CAS
CSCD
北大核心
2024年第2期1-14,共14页
传统视觉问答(VQA)大多只关注图像中的视觉对象信息,忽略了对图像中文本信息的关注。文本视觉问答(TextVQA)除了视觉信息外还关注了图像中的文本信息,能够更加准确并高效地回答问题。近年来,TextVQA已经成为多模态领域的研究热点,在自...
传统视觉问答(VQA)大多只关注图像中的视觉对象信息,忽略了对图像中文本信息的关注。文本视觉问答(TextVQA)除了视觉信息外还关注了图像中的文本信息,能够更加准确并高效地回答问题。近年来,TextVQA已经成为多模态领域的研究热点,在自动驾驶、场景理解等包含文本信息的场景中有重要的应用前景。阐述TextVQA的概念以及存在的问题与挑战,从方法、数据集、未来研究方向等方面对TextVQA任务进行系统性的分析。总结现有的TextVQA研究方法,并将其归纳为3个阶段,分别为特征提取阶段、特征融合阶段和答案预测阶段。根据融合阶段使用方法的不同,从简单注意力方法、基于Transformer方法和基于预训练方法这3个方面对TextVQA方法进行阐述,分析对比不同方法的特点以及在公开数据集中的表现。介绍TextVQA领域4种常用的公共数据集,并对它们的特点和评价指标进行分析。在此基础上,探讨当前TextVQA任务中存在的问题与挑战,并对该领域未来的研究方向进行展望。
展开更多
关键词
文本视觉问答
文本信息
自然语言处理
计算机视觉
多模态融合
下载PDF
职称材料
一种基于多模态深度特征融合的视觉问答模型
被引量:
3
10
作者
邹芸竹
杜圣东
+1 位作者
滕飞
李天瑞
《计算机科学》
CSCD
北大核心
2023年第2期123-129,共7页
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推...
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。
展开更多
关键词
视觉问答
多模态特征融合
注意力机制
深度学习
数据融合
下载PDF
职称材料
基于多路语义图网络的图像自动问答
11
作者
乔有田
张海军
路明
《计算机应用研究》
CSCD
北大核心
2023年第2期383-387,共5页
基于视觉特征与文本特征融合的图像问答已经成为自动问答的热点研究方向之一。现有的大部分模型都是通过注意力机制来挖掘图像和问题语句之间的关联关系,忽略了图像区域和问题词在同一模态之中以及不同视角的关联关系。针对该问题,提出...
基于视觉特征与文本特征融合的图像问答已经成为自动问答的热点研究方向之一。现有的大部分模型都是通过注意力机制来挖掘图像和问题语句之间的关联关系,忽略了图像区域和问题词在同一模态之中以及不同视角的关联关系。针对该问题,提出一种基于多路语义图网络的图像自动问答模型(MSGN),从多个角度挖掘图像和问题之间的语义关联。MSGN利用图神经网络模型挖掘图像区域和问题词细粒度的模态内模态间的关联关系,进而提高答案预测的准确性。模型在公开的图像问答数据集上的实验结果表明,从多个角度挖掘图像和问题之间的语义关联可提高图像问题答案预测的性能。
展开更多
关键词
图像问答
多头注意力
自动问答
特征融合
跨模态分析
下载PDF
职称材料
基于图结构的级联注意力视觉问答模型
被引量:
1
12
作者
张昊雨
张德
《计算机工程与应用》
CSCD
北大核心
2023年第6期155-161,共7页
视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流方式,先分别计算图像和问题特征,然后再采取不同的技术和策略进行融合。目前,尚缺乏能够直接捕获问题语义和图像空间关系的更高层次...
视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流方式,先分别计算图像和问题特征,然后再采取不同的技术和策略进行融合。目前,尚缺乏能够直接捕获问题语义和图像空间关系的更高层次的表示方法。提出一种基于图结构的级联注意力学习模型,该模型结合了图学习模块(学习输入图像问题的特定图表示)、图卷积层和级联注意力层,目的是捕捉不同候选框区域图像的空间信息,以及其与问题之间的更高层次的关系。在大规模数据集VQA v2.0上进行了实验,结果表明,跟主流算法相比较,是/否、计数和其他类型问题的回答准确率均有明显提升,总体准确率达到了68.34%,从而验证了提出模型的有效性。
展开更多
关键词
视觉问答
注意力机制
图卷积神经网络
特征融合
下载PDF
职称材料
视觉问答技术研究综述
13
作者
王虞
孙海春
《计算机科学与探索》
CSCD
北大核心
2023年第7期1487-1505,共19页
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析...
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。
展开更多
关键词
视觉问答(VQA)
模态融合
视觉对话
智能问答
跨模态技术
下载PDF
职称材料
融合多头自注意力机制和共同注意的图像问答模型
被引量:
1
14
作者
官巍
张晗
马力
《计算机与数字工程》
2023年第6期1291-1296,共6页
为了获取到更加细粒度的图像表示,防止图像特征获取时关键信息的丢失,论文采用融合多头自注意机制的图像特征提取模型,来获取图像特征。通过对问题文本信息使用自注意力机制并用来引导图像注意,增强问题文本特征与图像特征之间的关联性...
为了获取到更加细粒度的图像表示,防止图像特征获取时关键信息的丢失,论文采用融合多头自注意机制的图像特征提取模型,来获取图像特征。通过对问题文本信息使用自注意力机制并用来引导图像注意,增强问题文本特征与图像特征之间的关联性,获取图像特征中与问题文本相关的信息。将最终获取到的图像特征与问题特征进行多模态特征融合,并对融合特征进行分类预测。实验结果表明,论文方法在VQA1.0数据集上,总体准确率为64.6%,在VQA2.0数据集上,总体准确率为63.9%,从而验证了论文方法的有效性,相比一些经典的方法都有较好的提升。
展开更多
关键词
图像问答
注意力机制
多模态融合
深度神经网络
下载PDF
职称材料
基于跨模态多维关系增强的多模态模型研究
15
作者
成曦
杨关
+1 位作者
刘小明
刘阳
《计算机应用研究》
CSCD
北大核心
2023年第8期2367-2374,共8页
针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型(multi-dimensional relationship enhancement model,MRE),用于提...
针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型(multi-dimensional relationship enhancement model,MRE),用于提取潜层结构下图像各要素之间的空间关系信息,并推理出视觉—语言间的语义相关性。设计了特征多样性模块用于挖掘图像中与显著区域相关的次显著区域特征,从而增强图像空间关系特征表示。同时设计了上下文引导注意模块来引导模型学习语言上下文在图像中的关系,实现跨模态关系对齐。在MSCOCO数据集上的实验表明所提模型获得了更好的性能,其中BLEU-4和CIDEr分数分别提升了0.5%和1.3%。将这种方法应用到视觉问答任务中,在VQA 2.0数据集上性能得到了0.62%的提升,证明了该方法在多模态任务方面的广泛适用性。
展开更多
关键词
图像描述
视觉问答
特征多样性
空间关系
上下文语义关系
特征融合
多模态编码
下载PDF
职称材料
多通道特征融合的实体链接模型泛化性能优化
16
作者
陈阳
万卫兵
《计算机工程与应用》
CSCD
北大核心
2023年第16期125-134,共10页
实体链接是知识库问答和知识图谱构建的关键环节,中文语料库的语义表达稀疏,存在大量难以区分的相似实体,一般模型过于依赖除原始问答以外的特征信息,很难完全学习文本特征,使得实体链接准确率难以提高,进而限制了问答等上层应用的性能...
实体链接是知识库问答和知识图谱构建的关键环节,中文语料库的语义表达稀疏,存在大量难以区分的相似实体,一般模型过于依赖除原始问答以外的特征信息,很难完全学习文本特征,使得实体链接准确率难以提高,进而限制了问答等上层应用的性能上限。针对这些问题,聚焦问答系统实体链接的候选生成和候选消歧,将实体消歧视为分类任务,构建了一种基于Bi-LSTM和CNN的多通道网络模型,提出阈值权重拼接策略融合CNN和LSTM通道提取的多维特征。引入双向注意力机制,充分挖掘问句提及表征和知识库实体描述之间的深层语义关系,有效降低问答对额外特征规则的依赖,以便应用在多领域知识库中。实验结果表明,在仅依靠问答原始信息的情况下,提出的实体链接模型显著提高了问答系统的整体性能,并具有较强的泛化性,在公开数据集CCKS2019-CKBQA和NLPCC-2016KBQA中取得了最优的Acc@1和F1值。
展开更多
关键词
知识库问答
实体链接
多通道
特征融合
双向注意力机制
泛化性能
下载PDF
职称材料
知识是如何驱动Q/A系统的
被引量:
8
17
作者
李良富
樊孝忠
+1 位作者
李宏乔
顾益军
《计算机工程与应用》
CSCD
北大核心
2004年第20期70-73,98,共5页
文章探讨了以本体(ontology)为核心,融合多知识源,驱动自动问答系统的技术方法和应用设计策略,简要介绍了知识在答案析取和实例识别中的作用。在银行领域的业务咨询服务中应用表明,融合多种知识驱动的自动问答系统的性能达到令人满意的...
文章探讨了以本体(ontology)为核心,融合多知识源,驱动自动问答系统的技术方法和应用设计策略,简要介绍了知识在答案析取和实例识别中的作用。在银行领域的业务咨询服务中应用表明,融合多种知识驱动的自动问答系统的性能达到令人满意的水平。认为提高自动问答系统可用性,必须综合利用多种知识资源。
展开更多
关键词
自动问答
本体
知识融合
语义相似
下载PDF
职称材料
基于答案模式和语义特征融合的答案抽取方法
被引量:
3
18
作者
田卫东
祖永亮
《计算机工程与应用》
CSCD
北大核心
2011年第13期127-130,共4页
答案抽取是问答系统的关键技术。根据对问题-答案的分析可知,它们之间不仅存在语义上的相似性,而且还有句法上的关联性。提出了一种基于问题-答案之间句法模式和句子语义二元特征融合的答案抽取方法。通过对不同的特征赋予不同的权值来...
答案抽取是问答系统的关键技术。根据对问题-答案的分析可知,它们之间不仅存在语义上的相似性,而且还有句法上的关联性。提出了一种基于问题-答案之间句法模式和句子语义二元特征融合的答案抽取方法。通过对不同的特征赋予不同的权值来调节各特征对答案抽取准确率计算的贡献。与其他方法相比,描述答案的信息更加全面,答案抽取更加准确。
展开更多
关键词
答案抽取
问答系统
特征融合
句义相似
模式匹配
下载PDF
职称材料
视野融合:理解教学对话的解释学维度
被引量:
5
19
作者
张曙光
《山西师大学报(社会科学版)》
2015年第6期134-137,共4页
教学对话是学生、文本与教师之间达成多重"视野融合"的理解性事件,视野融合是检验教学对话有效性的重要维度。依据哲学解释学,教学对话是一种相互理解与自我理解行为,学生的既有经验与意义假设随着对话的展开而不断调节、更新...
教学对话是学生、文本与教师之间达成多重"视野融合"的理解性事件,视野融合是检验教学对话有效性的重要维度。依据哲学解释学,教学对话是一种相互理解与自我理解行为,学生的既有经验与意义假设随着对话的展开而不断调节、更新,进而生成一种新的视野。教学对话是一个无限开放的过程,问答的前后继起性表明了学生、文本、教师各自视野不断开放与彼此交织的状态。教学对话以语言为媒介,语言融合是视野融合的外在显示,学生变换一种言说方式不只是变换了一种理解方式,而且也标志着对话所达到的深度。
展开更多
关键词
视野融合
教学对话
问答结构
语言融合
下载PDF
职称材料
基于特征融合的社区问答问句相似度计算
被引量:
1
20
作者
杨海天
王健
林鸿飞
《江西师范大学学报(自然科学版)》
CAS
北大核心
2013年第2期125-129,共5页
提出了一种基于特征融合的问句匹配框架来解决问句相似度检测方法,利用答案特征、词序特征、统计特征和语义特征相结合来解决问句相似度计算问题.在Yahoo!Answers上抽取的真实标注数据集上进行实验,实验结果表明:该方法在性能上得到了...
提出了一种基于特征融合的问句匹配框架来解决问句相似度检测方法,利用答案特征、词序特征、统计特征和语义特征相结合来解决问句相似度计算问题.在Yahoo!Answers上抽取的真实标注数据集上进行实验,实验结果表明:该方法在性能上得到了较好的结果.
展开更多
关键词
问句相似度
社区问答
相似度计算
特征融合
下载PDF
职称材料
题名
基于多模态知识主动学习的视频问答方案
1
作者
刘明阳
王若梅
周凡
林格
机构
中山大学计算机学院国家数字家庭工程技术研究中心
出处
《计算机研究与发展》
EI
CSCD
北大核心
2024年第4期889-902,共14页
基金
国家重点研发计划项目(2021YFF0900900)。
文摘
视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影响了模型对多模态内容的深度理解.针对这些问题,首先,设计了一种显性多模态特征提取模块,通过获取图像序列中视觉目标的语义关联以及与周围环境的动态关系来建立每个视觉目标的运动轨迹.进一步通过动态内容对静态内容的补充,为数据融合与推理提供了更加精准的视频特征表达.其次,提出了知识自增强多模态数据融合与推理模型,实现了多模态信息理解的自我完善和逻辑思维聚焦,增强了对多模态特征的深度理解,减少了对先验知识的依赖.最后,提出了一种基于多模态知识主动学习的视频问答方案.实验结果表明,该方案的性能优于现有最先进的视频问答算法,大量的消融和可视化实验也验证了方案的合理性.
关键词
视频问答
数据融合与推理
多模态主动学习
视频细节描述提取
深度学习
Keywords
video question
answer
ing
data
fusion
and reasoning
multimodal active learning
video details description extraction
deep learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向遥感视觉问答的尺度引导融合推理网络
2
作者
赵恩源
宋宁
聂婕
王鑫
郑程予
魏志强
机构
中国海洋大学信息科学与工程学部
清华大学计算机科学与技术系
青岛海洋科技中心
出处
《软件学报》
EI
CSCD
北大核心
2024年第5期2133-2149,共17页
基金
国家重点研发计划(2021YFF0704000)
国家自然科学基金(62172376)
+1 种基金
国家自然科学基金区域创新发展联合基金(U22A2068)
中央引导地方科技发展专项资金(YDZX2022028)。
文摘
遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目标中的多尺度特征及其空间位置信息的深度挖掘,又缺乏对尺度特征的建模和推理的研究,导致答案预测不够全面和准确.针对以上问题,提出一种多尺度引导的融合推理网络(multi-scale guided fusion inference network,MGFIN),旨在增强RSVQA系统的视觉空间推理能力.首先,设计基于Swin Transformer的多尺度视觉表征模块,对嵌入空间位置信息的多尺度视觉特征进行编码;其次,在语言线索的引导下,使用多尺度关系推理模块以尺度空间为线索学习跨多个尺度的高阶群内对象关系,并进行空间层次推理;最后,设计基于推理的融合模块来弥合多模态语义鸿沟,在交叉注意力基础上,通过自监督范式、对比学习方法、图文匹配机制等训练目标来自适应地对齐融合多模态特征,并辅助预测最终答案.实验结果表明,所提模型在两个公共RSVQA数据集上具有显著优势.
关键词
遥感视觉问答
多模态智能融合
多模态推理
多尺度表征
Keywords
remote sensing visual question
answer
ing(RSVQA)
multimodal intelligent
fusion
multimodal reasoning
multiscale representation
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
面向小样本抽取式问答的多标签语义校准方法
3
作者
刘青
陈艳平
邹安琪
秦永彬
黄瑞章
机构
贵州大学公共大数据国家重点实验室
贵州大学文本计算与认知智能教育部工程研究中心
出处
《应用科学学报》
CAS
CSCD
北大核心
2024年第1期161-173,共13页
基金
国家自然科学基金(No.62166007)资助。
文摘
小样本抽取式问答任务旨在利用文章给定的上下文片段,抽取出真实的答案片段。其基线模型采用的方法只针对跨度进行学习,缺乏对全局语义信息的利用,在含有多组不同重复跨度的实例中存在着理解偏差等问题。为了解决上述问题,该文利用不同层级的语义提出了一种面向小样本抽取式问答任务的多标签语义校准方法。采用包含全局语义信息的头标签和基线模型中的特殊字符构成多标签进行语义融合,并利用语义融合门来控制全局信息流的引入,将全局语义信息融合到特殊字符的语义信息中。然后,利用语义筛选门对新融入的全局语义信息和该特殊字符的原有语义信息进行保留与更替,实现对标签偏差语义的校准。在8个小样本抽取式问答数据集中的56组实验结果表明:该方法在评价指标F1值上均明显优于基线模型,证明了所提方法的有效性和先进性。
关键词
小样本抽取式问答
跨度抽取式问答
多标签语义融合
双门控机制
机器阅读理解
Keywords
few-shot extraction question
answer
ing
span extraction question
answer
ing
multi-label semantic
fusion
dual gating mechanism
machine reading comprehension
分类号
P751.1 [交通运输工程—港口、海岸及近海工程]
下载PDF
职称材料
题名
融合局部特征的多知识库常识问答模型
4
作者
田雨晴
汪春梅
袁非牛
机构
上海师范大学信息与机电工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2024年第12期129-135,共7页
文摘
当前的多知识库融合常识推理模型的输入和特征组合的方式过于简单,导致模型丢失了一些与问题和答案相关的重要信息,限制了融合外部知识的常识推理模型的效果。另外,在进行常识问答的任务时,预训练语言模型输出的问题和答案表示存在的向量各向异性问题没有得到解决。这些问题都是导致常识问答推理性能不够高的因素。针对以上问题,提出了一种基于局部特征融合的多知识库常识问答模型,改进外部知识库和问答文本的融合方式。模型将局部的问题和答案特征融入预训练语言模型全局特征,以丰富模型的特征信息,并在预测层结合了多种维度的特征进行预测;模型对于待匹配的问题和答案句子表示进行了白化处理,然后执行匹配任务。通过白化操作,模型增强了句子表示的各向同性,提升了句子向量的表征能力;还探索了不同预训练编码器(如:ALBERT、ELECTRA)在模型上的效果,以加强对知识文本的特征抽取能力,并证明了模型的稳定性。实验结果证明,在相同BERT-base编码器的实验下,模型的准确率达到78.6%,相较于基线模型,准确率提升了3.5个百分点;在ELECTRA-base编码器的实验下,模型的准确率达到80.1%。
关键词
常识问答
知识库融合
局部特征融合预测
向量白化
Keywords
common sense question and
answer
ing
knowledge base
fusion
local feature
fusion
prediction
whitening of sentence representations
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
联合知识和视觉信息推理的视觉问答研究
5
作者
苏振强
苟刚
机构
贵州大学计算机科学与技术学院公共大数据国家重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2024年第5期95-102,共8页
基金
国家自然科学基金(62162010)
贵州省科技支撑计划项目(黔科合支撑[2022]一般267)。
文摘
视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答中发挥着重要的作用,能够很好地辅助问答。基于知识的开放性视觉问答需要关联外部知识,才能实现跨模态的场景理解。为了更好地融合视觉信息和相关联的外部知识,提出联合知识和视觉信息推理双线性结构,设计了图像特征联合问题特征,对知识表征进行双引导的注意力模块。该模型利用预训练的视觉-语言模型获取问题和图像的特征表示以及视觉推理信息;利用相似性矩阵计算问题语义对齐下的图像对象区域;问题特征联合对齐后的区域特征,对知识表征进行协同引导获得知识推理信息;视觉推理信息和知识推理信息进行融合得到最终的答案。在开放的OK-VQA数据集上的实验结果表明,该模型的准确率相比两种基线方法分别有1.97个百分点和4.82个百分点的提升,从而验证了该模型的有效性。
关键词
视觉问答
注意力机制
特征融合
多模态对齐
外部知识
Keywords
visual question
answer
ing
attention mechanism
feature
fusion
multimodal alignment
external knowledge
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于跨模态信息过滤的视觉问答网络
6
作者
何世阳
王朝晖
龚声蓉
钟珊
机构
苏州大学计算机科学与技术学院
苏州大学东吴学院
常熟理工学院计算机科学与工程学院
出处
《计算机科学》
CSCD
北大核心
2024年第5期85-91,共7页
基金
国家自然科学基金(61972059,42071438)
江苏省自然科学基金(BK20191474,BK20191475)
吉林大学符号计算与知识工程教育部重点实验室(93K172021K01)。
文摘
视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注意力计算,忽略了图像特征中含有噪声和不正确的信息这一问题,且多数方法局限于模态间的浅层交互,未曾考虑模态间的深层语义信息。为解决这一问题,提出了一个跨模态信息过滤网络,即首先以问题特征为监督信号,通过设计的信息过滤模块来过滤图像特征信息,使之更好地契合问题表征;随后将图像特征和问题特征送入跨模态交互层,在自注意力和引导注意力的作用下分别建模模态内和模态间的关系,以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模块的引入有效提升了模型准确率,在test-std上的整体精度达到了71.51%,相比大多数先进的方法具有良好的性能。
关键词
视觉问答
深度学习
注意力机制
多模态融合
信息过滤
Keywords
Visual question
answer
ing
Deep learning
Attention mechanism
Multi-modal
fusion
Information filtering
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
动态视音场景下问答模型研究
7
作者
段毛毛
连培榆
史海涛
机构
中国石油大学(北京)克拉玛依校区石油学院
出处
《计算机技术与发展》
2024年第3期163-169,共7页
基金
克拉玛依市创新人才专项(XQZX20220047)。
文摘
现实世界由大量不同模态内容构建而成,各种模态的信息相互关联和互补,充分挖掘不同模态之间的关系和特性能够有效弥补单一模态信息的局限性。动态视音场景下的问答模型研究,旨在通过视频中多模态信息回答不同视觉物体、声音及其相互联系的问题,使人工智能获得场景感知和时空推理能力。针对视音问答不准确的问题,提出了一种空间时序问答模型,该模型通过空间融合建模和时序融合建模对多模态特征进行融合,从而提高问答准确率。首先,分别使用Resnet_18,VGGish和Bi-LST对音频、视频和文字进行特征提取;其次,根据声音和视频的关系,在特征融合时对声音和视频两种模态进行早期的空间融合,并使用联合注意力机制在相互辅助学习后进行特征融合,增强特征互补性;最后,在特征融合后添加注意力机制以增强融合特征与文字的相关性。基于MUSIC-AVQA数据集的实验准确率达73.49%,实现了场景感知和时空推理能力的提升。
关键词
视音问答
多模态融合
联合注意力机制
Bi-LSTM
MUSIC-AVQA
Keywords
audio-visual question and
answer
multimodal
fusion
joint attention mechanism
Bi-directional Long Short-Term Memory
MUSIC-AVQA
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
问答模式下结合属性语义的实体属性抽取研究
8
作者
常露予
张晓滨
机构
西安工程大学计算机科学学院
出处
《计算机技术与发展》
2024年第4期174-179,共6页
基金
陕西省自然科学基础研究计划项目(2023-JC-YB-568)。
文摘
实体属性抽取任务中常面临属性标签过多时模型存在爆炸风险的问题,且目前大多数属性抽取模型对文本均分配一致的注意力因子,未将上下文的变化考虑在内。为解决上述问题,提出一种基于问答模式的结合属性语义的实体属性抽取方法。该方法的要点在于,将文本看作上下文,把属性视为查询,从上下文中提取到的答案等同于期望的属性值。文中对文本和属性的语义表示进行建模,并提出一个动态注意力机制用于捕捉二者间的语义交互、实现信息融合,同时自适应地控制属性信息融入文本向量的程度。为了验证该方法的有效性,将模型与目前广泛应用的BiLSTM模型、BiLSTM-CRF模型、OpenTag模型和Open Tagging模型在包含大量属性标签的数据集AE-110K、AE-650K上进行对比实验,结果表明,模型在结合属性语义信息且采用动态Attention的条件下,其预测准确度、召回率和F1值更高。
关键词
问答模式
实体属性抽取
动态注意力
语义交互
信息融合
Keywords
question
answer
ing mode
entity attribute extraction
dynamic attention
semantic interaction
information
fusion
分类号
TP398.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
文本视觉问答综述
9
作者
朱贵德
黄海
机构
浙江理工大学计算机科学与技术学院(人工智能学院)
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第2期1-14,共14页
基金
国家自然科学基金面上项目(62272416)。
文摘
传统视觉问答(VQA)大多只关注图像中的视觉对象信息,忽略了对图像中文本信息的关注。文本视觉问答(TextVQA)除了视觉信息外还关注了图像中的文本信息,能够更加准确并高效地回答问题。近年来,TextVQA已经成为多模态领域的研究热点,在自动驾驶、场景理解等包含文本信息的场景中有重要的应用前景。阐述TextVQA的概念以及存在的问题与挑战,从方法、数据集、未来研究方向等方面对TextVQA任务进行系统性的分析。总结现有的TextVQA研究方法,并将其归纳为3个阶段,分别为特征提取阶段、特征融合阶段和答案预测阶段。根据融合阶段使用方法的不同,从简单注意力方法、基于Transformer方法和基于预训练方法这3个方面对TextVQA方法进行阐述,分析对比不同方法的特点以及在公开数据集中的表现。介绍TextVQA领域4种常用的公共数据集,并对它们的特点和评价指标进行分析。在此基础上,探讨当前TextVQA任务中存在的问题与挑战,并对该领域未来的研究方向进行展望。
关键词
文本视觉问答
文本信息
自然语言处理
计算机视觉
多模态融合
Keywords
Text-based Visual Question
answer
ing(TextVQA)
text information
natural language processing
computer vision
multimodal
fusion
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
一种基于多模态深度特征融合的视觉问答模型
被引量:
3
10
作者
邹芸竹
杜圣东
滕飞
李天瑞
机构
西南交通大学计算机与人工智能学院
综合交通大数据应用技术国家工程实验室
出处
《计算机科学》
CSCD
北大核心
2023年第2期123-129,共7页
基金
国家科技重大专项(2020AAA0105101)。
文摘
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。
关键词
视觉问答
多模态特征融合
注意力机制
深度学习
数据融合
Keywords
Visual question
answer
ing
Multi-modal feature
fusion
Attention mechanism
Deep learning
Data
fusion
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于多路语义图网络的图像自动问答
11
作者
乔有田
张海军
路明
机构
扬州市职业大学电子工程学院
北京物资学院信息学院
北京航空航天大学网络空间安全学院
出处
《计算机应用研究》
CSCD
北大核心
2023年第2期383-387,共5页
基金
北京市自然科学基金资助项目(4182037)
北京社会科学基金资助项目(21XCB005)
北京市教委科技计划资助项目(KM201810037001)。
文摘
基于视觉特征与文本特征融合的图像问答已经成为自动问答的热点研究方向之一。现有的大部分模型都是通过注意力机制来挖掘图像和问题语句之间的关联关系,忽略了图像区域和问题词在同一模态之中以及不同视角的关联关系。针对该问题,提出一种基于多路语义图网络的图像自动问答模型(MSGN),从多个角度挖掘图像和问题之间的语义关联。MSGN利用图神经网络模型挖掘图像区域和问题词细粒度的模态内模态间的关联关系,进而提高答案预测的准确性。模型在公开的图像问答数据集上的实验结果表明,从多个角度挖掘图像和问题之间的语义关联可提高图像问题答案预测的性能。
关键词
图像问答
多头注意力
自动问答
特征融合
跨模态分析
Keywords
image question
answer
ing
multi-head attention model
automatic question
answer
ing
feature
fusion
cross-modal analysis
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于图结构的级联注意力视觉问答模型
被引量:
1
12
作者
张昊雨
张德
机构
北京建筑大学电气与信息工程学院&建筑大数据智能处理方法研究北京市重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2023年第6期155-161,共7页
基金
国家自然科学基金(61871020)。
文摘
视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流方式,先分别计算图像和问题特征,然后再采取不同的技术和策略进行融合。目前,尚缺乏能够直接捕获问题语义和图像空间关系的更高层次的表示方法。提出一种基于图结构的级联注意力学习模型,该模型结合了图学习模块(学习输入图像问题的特定图表示)、图卷积层和级联注意力层,目的是捕捉不同候选框区域图像的空间信息,以及其与问题之间的更高层次的关系。在大规模数据集VQA v2.0上进行了实验,结果表明,跟主流算法相比较,是/否、计数和其他类型问题的回答准确率均有明显提升,总体准确率达到了68.34%,从而验证了提出模型的有效性。
关键词
视觉问答
注意力机制
图卷积神经网络
特征融合
Keywords
visual question
answer
ing
attention mechanism
graph convolutional network
feature
fusion
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
视觉问答技术研究综述
13
作者
王虞
孙海春
机构
中国人民公安大学信息网络安全学院
安全防范技术与风险评估公安部重点实验室
出处
《计算机科学与探索》
CSCD
北大核心
2023年第7期1487-1505,共19页
基金
公安部技术研究计划项目(2020JSYJC22)
北京市自然科学基金(4184099)。
文摘
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。
关键词
视觉问答(VQA)
模态融合
视觉对话
智能问答
跨模态技术
Keywords
visual question
answer
ing(VQA)
modal
fusion
visual dialogue
intelligent question
answer
ing
crossmodal technology
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
融合多头自注意力机制和共同注意的图像问答模型
被引量:
1
14
作者
官巍
张晗
马力
机构
西安邮电大学计算机学院
出处
《计算机与数字工程》
2023年第6期1291-1296,共6页
文摘
为了获取到更加细粒度的图像表示,防止图像特征获取时关键信息的丢失,论文采用融合多头自注意机制的图像特征提取模型,来获取图像特征。通过对问题文本信息使用自注意力机制并用来引导图像注意,增强问题文本特征与图像特征之间的关联性,获取图像特征中与问题文本相关的信息。将最终获取到的图像特征与问题特征进行多模态特征融合,并对融合特征进行分类预测。实验结果表明,论文方法在VQA1.0数据集上,总体准确率为64.6%,在VQA2.0数据集上,总体准确率为63.9%,从而验证了论文方法的有效性,相比一些经典的方法都有较好的提升。
关键词
图像问答
注意力机制
多模态融合
深度神经网络
Keywords
image question
answer
ing
attention mechanism
multi-modal
fusion
deep neural network
分类号
TP751 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于跨模态多维关系增强的多模态模型研究
15
作者
成曦
杨关
刘小明
刘阳
机构
中原工学院计算机学院
中原工学院河南省网络舆情监测与智能分析重点实验室
西安电子科技大学通讯工程学院
出处
《计算机应用研究》
CSCD
北大核心
2023年第8期2367-2374,共8页
基金
国家自然科学基金青年资助项目(61906141)
河南省高等学校重点科研资助项目(23A520022)
东北师范大学应用统计教育部重点实验室资助项目(135131007)。
文摘
针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型(multi-dimensional relationship enhancement model,MRE),用于提取潜层结构下图像各要素之间的空间关系信息,并推理出视觉—语言间的语义相关性。设计了特征多样性模块用于挖掘图像中与显著区域相关的次显著区域特征,从而增强图像空间关系特征表示。同时设计了上下文引导注意模块来引导模型学习语言上下文在图像中的关系,实现跨模态关系对齐。在MSCOCO数据集上的实验表明所提模型获得了更好的性能,其中BLEU-4和CIDEr分数分别提升了0.5%和1.3%。将这种方法应用到视觉问答任务中,在VQA 2.0数据集上性能得到了0.62%的提升,证明了该方法在多模态任务方面的广泛适用性。
关键词
图像描述
视觉问答
特征多样性
空间关系
上下文语义关系
特征融合
多模态编码
Keywords
image description
visual question
answer
ing
feature diversification
spatial relationship
contextual semantic relationship
feature
fusion
multimodal encoding
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
多通道特征融合的实体链接模型泛化性能优化
16
作者
陈阳
万卫兵
机构
上海工程技术大学电子电气工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2023年第16期125-134,共10页
基金
科技创新2030“新一代人工智能”重大项目(2020AAA0109300)。
文摘
实体链接是知识库问答和知识图谱构建的关键环节,中文语料库的语义表达稀疏,存在大量难以区分的相似实体,一般模型过于依赖除原始问答以外的特征信息,很难完全学习文本特征,使得实体链接准确率难以提高,进而限制了问答等上层应用的性能上限。针对这些问题,聚焦问答系统实体链接的候选生成和候选消歧,将实体消歧视为分类任务,构建了一种基于Bi-LSTM和CNN的多通道网络模型,提出阈值权重拼接策略融合CNN和LSTM通道提取的多维特征。引入双向注意力机制,充分挖掘问句提及表征和知识库实体描述之间的深层语义关系,有效降低问答对额外特征规则的依赖,以便应用在多领域知识库中。实验结果表明,在仅依靠问答原始信息的情况下,提出的实体链接模型显著提高了问答系统的整体性能,并具有较强的泛化性,在公开数据集CCKS2019-CKBQA和NLPCC-2016KBQA中取得了最优的Acc@1和F1值。
关键词
知识库问答
实体链接
多通道
特征融合
双向注意力机制
泛化性能
Keywords
knowledge base question
answer
ing(KBQA)
entity link
multi-channel
feature
fusion
bidirectional attention mechanism
generalization performance
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
知识是如何驱动Q/A系统的
被引量:
8
17
作者
李良富
樊孝忠
李宏乔
顾益军
机构
北京理工大学计算机科学与技术系
出处
《计算机工程与应用》
CSCD
北大核心
2004年第20期70-73,98,共5页
文摘
文章探讨了以本体(ontology)为核心,融合多知识源,驱动自动问答系统的技术方法和应用设计策略,简要介绍了知识在答案析取和实例识别中的作用。在银行领域的业务咨询服务中应用表明,融合多种知识驱动的自动问答系统的性能达到令人满意的水平。认为提高自动问答系统可用性,必须综合利用多种知识资源。
关键词
自动问答
本体
知识融合
语义相似
Keywords
question
answer
ing,ontology,knowledge
fusion
,semantic similarity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于答案模式和语义特征融合的答案抽取方法
被引量:
3
18
作者
田卫东
祖永亮
机构
合肥工业大学计算机与信息学院
出处
《计算机工程与应用》
CSCD
北大核心
2011年第13期127-130,共4页
基金
国家自然科学基金 No.60828005~~
文摘
答案抽取是问答系统的关键技术。根据对问题-答案的分析可知,它们之间不仅存在语义上的相似性,而且还有句法上的关联性。提出了一种基于问题-答案之间句法模式和句子语义二元特征融合的答案抽取方法。通过对不同的特征赋予不同的权值来调节各特征对答案抽取准确率计算的贡献。与其他方法相比,描述答案的信息更加全面,答案抽取更加准确。
关键词
答案抽取
问答系统
特征融合
句义相似
模式匹配
Keywords
answer
extraction
question
answer
ing
feature
fusion
sentence similarity
pattern matching
分类号
TP391.2 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
视野融合:理解教学对话的解释学维度
被引量:
5
19
作者
张曙光
机构
山东女子学院教育学院
出处
《山西师大学报(社会科学版)》
2015年第6期134-137,共4页
基金
全国教育科学"十二五"规划度教育部重点课题(DHA130259)
文摘
教学对话是学生、文本与教师之间达成多重"视野融合"的理解性事件,视野融合是检验教学对话有效性的重要维度。依据哲学解释学,教学对话是一种相互理解与自我理解行为,学生的既有经验与意义假设随着对话的展开而不断调节、更新,进而生成一种新的视野。教学对话是一个无限开放的过程,问答的前后继起性表明了学生、文本、教师各自视野不断开放与彼此交织的状态。教学对话以语言为媒介,语言融合是视野融合的外在显示,学生变换一种言说方式不只是变换了一种理解方式,而且也标志着对话所达到的深度。
关键词
视野融合
教学对话
问答结构
语言融合
Keywords
fusion
of horizons
teaching dialogue
the structure of asking--
answer
ing
language
fusion
分类号
G42 [文化科学—课程与教学论]
下载PDF
职称材料
题名
基于特征融合的社区问答问句相似度计算
被引量:
1
20
作者
杨海天
王健
林鸿飞
机构
大连理工大学信息检索研究室
出处
《江西师范大学学报(自然科学版)》
CAS
北大核心
2013年第2期125-129,共5页
基金
国家自然科学基金(61272370
60973068)
辽宁省自然科学基金(201202031)资助项目
文摘
提出了一种基于特征融合的问句匹配框架来解决问句相似度检测方法,利用答案特征、词序特征、统计特征和语义特征相结合来解决问句相似度计算问题.在Yahoo!Answers上抽取的真实标注数据集上进行实验,实验结果表明:该方法在性能上得到了较好的结果.
关键词
问句相似度
社区问答
相似度计算
特征融合
Keywords
questions similarity
community question
answer
ing
similarity calculation
feature
fusion
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于多模态知识主动学习的视频问答方案
刘明阳
王若梅
周凡
林格
《计算机研究与发展》
EI
CSCD
北大核心
2024
0
下载PDF
职称材料
2
面向遥感视觉问答的尺度引导融合推理网络
赵恩源
宋宁
聂婕
王鑫
郑程予
魏志强
《软件学报》
EI
CSCD
北大核心
2024
0
下载PDF
职称材料
3
面向小样本抽取式问答的多标签语义校准方法
刘青
陈艳平
邹安琪
秦永彬
黄瑞章
《应用科学学报》
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
4
融合局部特征的多知识库常识问答模型
田雨晴
汪春梅
袁非牛
《计算机工程与应用》
CSCD
北大核心
2024
0
下载PDF
职称材料
5
联合知识和视觉信息推理的视觉问答研究
苏振强
苟刚
《计算机工程与应用》
CSCD
北大核心
2024
0
下载PDF
职称材料
6
基于跨模态信息过滤的视觉问答网络
何世阳
王朝晖
龚声蓉
钟珊
《计算机科学》
CSCD
北大核心
2024
0
下载PDF
职称材料
7
动态视音场景下问答模型研究
段毛毛
连培榆
史海涛
《计算机技术与发展》
2024
0
下载PDF
职称材料
8
问答模式下结合属性语义的实体属性抽取研究
常露予
张晓滨
《计算机技术与发展》
2024
0
下载PDF
职称材料
9
文本视觉问答综述
朱贵德
黄海
《计算机工程》
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
10
一种基于多模态深度特征融合的视觉问答模型
邹芸竹
杜圣东
滕飞
李天瑞
《计算机科学》
CSCD
北大核心
2023
3
下载PDF
职称材料
11
基于多路语义图网络的图像自动问答
乔有田
张海军
路明
《计算机应用研究》
CSCD
北大核心
2023
0
下载PDF
职称材料
12
基于图结构的级联注意力视觉问答模型
张昊雨
张德
《计算机工程与应用》
CSCD
北大核心
2023
1
下载PDF
职称材料
13
视觉问答技术研究综述
王虞
孙海春
《计算机科学与探索》
CSCD
北大核心
2023
0
下载PDF
职称材料
14
融合多头自注意力机制和共同注意的图像问答模型
官巍
张晗
马力
《计算机与数字工程》
2023
1
下载PDF
职称材料
15
基于跨模态多维关系增强的多模态模型研究
成曦
杨关
刘小明
刘阳
《计算机应用研究》
CSCD
北大核心
2023
0
下载PDF
职称材料
16
多通道特征融合的实体链接模型泛化性能优化
陈阳
万卫兵
《计算机工程与应用》
CSCD
北大核心
2023
0
下载PDF
职称材料
17
知识是如何驱动Q/A系统的
李良富
樊孝忠
李宏乔
顾益军
《计算机工程与应用》
CSCD
北大核心
2004
8
下载PDF
职称材料
18
基于答案模式和语义特征融合的答案抽取方法
田卫东
祖永亮
《计算机工程与应用》
CSCD
北大核心
2011
3
下载PDF
职称材料
19
视野融合:理解教学对话的解释学维度
张曙光
《山西师大学报(社会科学版)》
2015
5
下载PDF
职称材料
20
基于特征融合的社区问答问句相似度计算
杨海天
王健
林鸿飞
《江西师范大学学报(自然科学版)》
CAS
北大核心
2013
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部