期刊文献+
共找到121篇文章
< 1 2 7 >
每页显示 20 50 100
Improved Blending Attention Mechanism in Visual Question Answering
1
作者 Siyu Lu Yueming Ding +4 位作者 Zhengtong Yin Mingzhe Liu Xuan Liu Wenfeng Zheng Lirong Yin 《Computer Systems Science & Engineering》 SCIE EI 2023年第10期1149-1161,共13页
Visual question answering(VQA)has attracted more and more attention in computer vision and natural language processing.Scholars are committed to studying how to better integrate image features and text features to ach... Visual question answering(VQA)has attracted more and more attention in computer vision and natural language processing.Scholars are committed to studying how to better integrate image features and text features to achieve better results in VQA tasks.Analysis of all features may cause information redundancy and heavy computational burden.Attention mechanism is a wise way to solve this problem.However,using single attention mechanism may cause incomplete concern of features.This paper improves the attention mechanism method and proposes a hybrid attention mechanism that combines the spatial attention mechanism method and the channel attention mechanism method.In the case that the attention mechanism will cause the loss of the original features,a small portion of image features were added as compensation.For the attention mechanism of text features,a selfattention mechanism was introduced,and the internal structural features of sentences were strengthened to improve the overall model.The results show that attention mechanism and feature compensation add 6.1%accuracy to multimodal low-rank bilinear pooling network. 展开更多
关键词 Visual question answering spatial attention mechanism channel attention mechanism image feature processing text feature extraction
下载PDF
A Novel Bidirectional LSTM and Attention Mechanism Based Neural Network for Answer Selection in Community Question Answering 被引量:3
2
作者 Bo Zhang Haowen Wang +2 位作者 Longquan Jiang Shuhan Yuan Meizi Li 《Computers, Materials & Continua》 SCIE EI 2020年第3期1273-1288,共16页
Deep learning models have been shown to have great advantages in answer selection tasks.The existing models,which employ encoder-decoder recurrent neural network(RNN),have been demonstrated to be effective.However,the... Deep learning models have been shown to have great advantages in answer selection tasks.The existing models,which employ encoder-decoder recurrent neural network(RNN),have been demonstrated to be effective.However,the traditional RNN-based models still suffer from limitations such as 1)high-dimensional data representation in natural language processing and 2)biased attentive weights for subsequent words in traditional time series models.In this study,a new answer selection model is proposed based on the Bidirectional Long Short-Term Memory(Bi-LSTM)and attention mechanism.The proposed model is able to generate the more effective question-answer pair representation.Experiments on a question answering dataset that includes information from multiple fields show the great advantages of our proposed model.Specifically,we achieve a maximum improvement of 3.8%over the classical LSTM model in terms of mean average precision. 展开更多
关键词 Question answering answer selection deep learning Bi-LSTM attention mechanisms
下载PDF
Superimposed Attention Mechanism-Based CNN Network for Reading Comprehension and Question Answering
3
作者 Mingqi Li Xuefei Hou +1 位作者 Jiaoe Li Kai Gao 《国际计算机前沿大会会议论文集》 2019年第2期35-37,共3页
In recent years, end-to-end models have been widely used in the fields of machine comprehension (MC) and question answering (QA). Recurrent neural network (RNN) or convolutional neural network (CNN) is combined with a... In recent years, end-to-end models have been widely used in the fields of machine comprehension (MC) and question answering (QA). Recurrent neural network (RNN) or convolutional neural network (CNN) is combined with attention mechanism to construct models to improve their accuracy. However, a single attention mechanism does not fully express the meaning of the text. In this paper, recurrent neural network is replaced with the convolutional neural network to process the text, and a superimposed attention mechanism is proposed. The model was constructed by combining a convolutional neural network with a superimposed attention mechanism. It shows that good results are achieved on the Stanford question answering dataset (SQuAD). 展开更多
关键词 Convolutional neural NETWORK ATTENTION mechanism Machine COMPREHENSION QUESTION answering
下载PDF
ACLSTM:A Novel Method for CQA Answer Quality Prediction Based on Question-Answer Joint Learning 被引量:2
4
作者 Weifeng Ma Jiao Lou +1 位作者 Caoting Ji Laibin Ma 《Computers, Materials & Continua》 SCIE EI 2021年第1期179-193,共15页
Given the limitations of the community question answering(CQA)answer quality prediction method in measuring the semantic information of the answer text,this paper proposes an answer quality prediction model based on t... Given the limitations of the community question answering(CQA)answer quality prediction method in measuring the semantic information of the answer text,this paper proposes an answer quality prediction model based on the question-answer joint learning(ACLSTM).The attention mechanism is used to obtain the dependency relationship between the Question-and-Answer(Q&A)pairs.Convolutional Neural Network(CNN)and Long Short-term Memory Network(LSTM)are used to extract semantic features of Q&A pairs and calculate their matching degree.Besides,answer semantic representation is combined with other effective extended features as the input representation of the fully connected layer.Compared with other quality prediction models,the ACLSTM model can effectively improve the prediction effect of answer quality.In particular,the mediumquality answer prediction,and its prediction effect is improved after adding effective extended features.Experiments prove that after the ACLSTM model learning,the Q&A pairs can better measure the semantic match between each other,fully reflecting the model’s superior performance in the semantic information processing of the answer text. 展开更多
关键词 answer quality semantic matching attention mechanism community question answering
下载PDF
融入三维语义特征的常识推理问答方法
5
作者 王红斌 房晓 江虹 《计算机应用》 CSCD 北大核心 2024年第1期138-144,共7页
现有使用预训练语言模型和知识图谱的常识问答方法主要集中于构建知识图谱子图及跨模态信息结合的研究,忽略了知识图谱自身丰富的语义特征,且缺少对不同问答任务的知识图谱子图节点相关性的动态调整,导致预测准确率低。为解决以上问题,... 现有使用预训练语言模型和知识图谱的常识问答方法主要集中于构建知识图谱子图及跨模态信息结合的研究,忽略了知识图谱自身丰富的语义特征,且缺少对不同问答任务的知识图谱子图节点相关性的动态调整,导致预测准确率低。为解决以上问题,提出一种融入三维语义特征的常识推理问答方法。首先提出知识图谱节点的关系层级、实体层级、三元组层级三维语义特征量化指标;其次,通过注意力机制动态计算关系层级、实体层级、三元组层级三种维度的语义特征对不同实体节点间的重要性;最后,通过图神经网络进行多层聚合迭代嵌入三维语义特征,获得更多的外推知识表示,更新知识图谱子图节点表示,提升答案预测精度。与QA-GNN常识问答推理方法相比,所提方法在CommonsenseQA数据集上的验证集和测试集的准确率分别提高了1.70个百分点和0.74个百分点,在OpenBookQA数据集上使用AristoRoBERTa数据处理方法的准确率提高了1.13个百分点。实验结果表明,所提出的融入三维语义特征的常识推理问答方法能够有效提高常识问答任务准确率。 展开更多
关键词 常识问答 知识图谱 图神经网络 语义特征 注意力机制
下载PDF
结合对比学习的图像指导增强视觉问答模型
6
作者 杨有 姚露 《计算机工程与应用》 CSCD 北大核心 2024年第7期157-166,共10页
针对现有的注意力编解码视觉问答模型存在两个问题:单一形态图像特征包含视觉信息不完整,以及对问题指导过度依赖,提出结合对比学习的图像指导增强视觉问答模型。所提模型包含一种双特征视觉解码器,它基于Transformer语言编码器实现,将... 针对现有的注意力编解码视觉问答模型存在两个问题:单一形态图像特征包含视觉信息不完整,以及对问题指导过度依赖,提出结合对比学习的图像指导增强视觉问答模型。所提模型包含一种双特征视觉解码器,它基于Transformer语言编码器实现,将单一的图像特征扩展为区域和网格两种形态,根据不同形态特征的相对位置构建互补的空间关系,以解决第一问题。所提模型包含一种视觉引导的语言解码器,将视觉解码的两种图像特征与问题特征二次匹配,通过平行门控引导注意力,自适应地修正不同视觉信息对问题的引导比例,以解决第二问题。所提模型,在训练过程中,引入对比学习损失函数,通过对比模型推理时不同模态特征在隐空间内的相似度,获取更相近的互信息。所提模型,在VQA 2.0、COCO-QA和GQA数据集上分别取得73.82%、72.49%和57.44%的总体准确率,较MCAN模型分别提高2.92个百分点、4.41个百分点和0.8个百分点。大量消融实验和可视化分析证明了模型的有效性。实验结果表明,所提模型能够获取更相关的语言-视觉信息,并且对不同类型的问题样本具有更强的泛化能力。 展开更多
关键词 视觉问答 注意力机制 相对位置 门控机制 对比学习
下载PDF
一种基于多模态特征提取的医学视觉问答方法 被引量:1
7
作者 吴松泽 刘利军 +3 位作者 黄青松 孔凡彦 刘骊 付晓东 《小型微型计算机系统》 CSCD 北大核心 2024年第3期676-683,共8页
随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对... 随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对特定模态特征提取时引入其它模态的噪声特征,使得模型难以关注到不同模态医学影像中的关键特征.针对上述问题,本文提出一种基于多模态特征提取的医学视觉问答方法.首先,对医学影像进行模态识别,根据模态标签指导输入参数不共享的特征提取网络以获得不同模态影像的差异性特征;然后,设计了一种面向Med-VQA的卷积降噪模块以降低医学影像不同模态特征的噪声信息;最后,采用空间与通道注意力模块进一步增强不同模态差异性特征的关注度.在Med-VQA公共数据集Slake上得到的实验结果表明,本文提出方法能有效提高Med-VQA的准确率. 展开更多
关键词 医学视觉问答 多模态特征提取 卷积神经网络 注意力机制
下载PDF
面向小样本抽取式问答的多标签语义校准方法
8
作者 刘青 陈艳平 +2 位作者 邹安琪 秦永彬 黄瑞章 《应用科学学报》 CAS CSCD 北大核心 2024年第1期161-173,共13页
小样本抽取式问答任务旨在利用文章给定的上下文片段,抽取出真实的答案片段。其基线模型采用的方法只针对跨度进行学习,缺乏对全局语义信息的利用,在含有多组不同重复跨度的实例中存在着理解偏差等问题。为了解决上述问题,该文利用不同... 小样本抽取式问答任务旨在利用文章给定的上下文片段,抽取出真实的答案片段。其基线模型采用的方法只针对跨度进行学习,缺乏对全局语义信息的利用,在含有多组不同重复跨度的实例中存在着理解偏差等问题。为了解决上述问题,该文利用不同层级的语义提出了一种面向小样本抽取式问答任务的多标签语义校准方法。采用包含全局语义信息的头标签和基线模型中的特殊字符构成多标签进行语义融合,并利用语义融合门来控制全局信息流的引入,将全局语义信息融合到特殊字符的语义信息中。然后,利用语义筛选门对新融入的全局语义信息和该特殊字符的原有语义信息进行保留与更替,实现对标签偏差语义的校准。在8个小样本抽取式问答数据集中的56组实验结果表明:该方法在评价指标F1值上均明显优于基线模型,证明了所提方法的有效性和先进性。 展开更多
关键词 小样本抽取式问答 跨度抽取式问答 多标签语义融合 双门控机制 机器阅读理解
下载PDF
基于跨模态信息过滤的视觉问答网络
9
作者 何世阳 王朝晖 +1 位作者 龚声蓉 钟珊 《计算机科学》 CSCD 北大核心 2024年第5期85-91,共7页
视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注... 视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注意力计算,忽略了图像特征中含有噪声和不正确的信息这一问题,且多数方法局限于模态间的浅层交互,未曾考虑模态间的深层语义信息。为解决这一问题,提出了一个跨模态信息过滤网络,即首先以问题特征为监督信号,通过设计的信息过滤模块来过滤图像特征信息,使之更好地契合问题表征;随后将图像特征和问题特征送入跨模态交互层,在自注意力和引导注意力的作用下分别建模模态内和模态间的关系,以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模块的引入有效提升了模型准确率,在test-std上的整体精度达到了71.51%,相比大多数先进的方法具有良好的性能。 展开更多
关键词 视觉问答 深度学习 注意力机制 多模态融合 信息过滤
下载PDF
联合知识和视觉信息推理的视觉问答研究
10
作者 苏振强 苟刚 《计算机工程与应用》 CSCD 北大核心 2024年第5期95-102,共8页
视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答... 视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答中发挥着重要的作用,能够很好地辅助问答。基于知识的开放性视觉问答需要关联外部知识,才能实现跨模态的场景理解。为了更好地融合视觉信息和相关联的外部知识,提出联合知识和视觉信息推理双线性结构,设计了图像特征联合问题特征,对知识表征进行双引导的注意力模块。该模型利用预训练的视觉-语言模型获取问题和图像的特征表示以及视觉推理信息;利用相似性矩阵计算问题语义对齐下的图像对象区域;问题特征联合对齐后的区域特征,对知识表征进行协同引导获得知识推理信息;视觉推理信息和知识推理信息进行融合得到最终的答案。在开放的OK-VQA数据集上的实验结果表明,该模型的准确率相比两种基线方法分别有1.97个百分点和4.82个百分点的提升,从而验证了该模型的有效性。 展开更多
关键词 视觉问答 注意力机制 特征融合 多模态对齐 外部知识
下载PDF
基于IMGRU-Seq2seq的自动问答方法研究
11
作者 姜雨娇 黄铝文 荚子萌 《计算机应用与软件》 北大核心 2024年第6期215-222,256,共9页
针对传统问答模型采用循环神经网络带来的梯度消失和网络退化的问题,提出一种基于IMGRU-Seq2seq(Identity Mapping Gated Recurrent Unit-Sequence to Sequence)的自动问答模型。通过TF-IDF方法对文本进行加权词向量表示;以门控循环单... 针对传统问答模型采用循环神经网络带来的梯度消失和网络退化的问题,提出一种基于IMGRU-Seq2seq(Identity Mapping Gated Recurrent Unit-Sequence to Sequence)的自动问答模型。通过TF-IDF方法对文本进行加权词向量表示;以门控循环单元为基础,将批标准化技术和线性整流激活函数相结合并添加恒等映射,从而构建IMGRU模型;将双向IMGRU作为问答模型的语义抽取单元,引入注意力机制和集束搜索算法,实现自动问答。实验结果表明,所提方法比现有方法BLEU、ROUGE-L分别平均提高18.87%、4.35%。 展开更多
关键词 问答模型 门控循环单元神经网络 恒等映射 注意力机制 集束搜索算法
下载PDF
融合历史答案特征的多粒度语义交互答案排序方法
12
作者 崔伟琪 严馨 +2 位作者 刘艳超 邓忠莹 徐广义 《计算机工程与设计》 北大核心 2024年第7期1989-1996,共8页
为解决只根据单一特征判断答案质量的问题,提出一种结合历史答案特征及多粒度语义交互判断答案质量的排序方法。通过指针网络提取历史答案特征,用动态注意力剔除掉问答对及历史答案的弱相关部分,采用比较聚合池化提取局部语义特征向量,... 为解决只根据单一特征判断答案质量的问题,提出一种结合历史答案特征及多粒度语义交互判断答案质量的排序方法。通过指针网络提取历史答案特征,用动态注意力剔除掉问答对及历史答案的弱相关部分,采用比较聚合池化提取局部语义特征向量,用池化归纳问答对及历史答案句子信息,通过加权求和提取全局语义特征向量。将问答对及历史答案的局部和全局语义特征向量融合,输入到分类器进行打分,按照得分对候选答案排名。实验结果表明,所提方法有效提升了答案选择的正确率。 展开更多
关键词 答案排序 多粒度语义交互 注意力机制 指针神经网络 预训练模型 长短期记忆网络 深度学习
下载PDF
融合视觉定位信息的视觉问答算法研究
13
作者 吴金蔓 车进 +1 位作者 白雪冰 陈玉敏 《长江信息通信》 2024年第5期1-4,共4页
为提高视觉问答模型对图像中相关信息的捕捉,引入了视觉定位信息,以增强模型对完整图像信息的理解。通过将图像语义特征与浅层文本特征一同输入以图像为基础的文本编码器,将文本特征映射到图像空间。随后,将得到的文本特征和图像特征输... 为提高视觉问答模型对图像中相关信息的捕捉,引入了视觉定位信息,以增强模型对完整图像信息的理解。通过将图像语义特征与浅层文本特征一同输入以图像为基础的文本编码器,将文本特征映射到图像空间。随后,将得到的文本特征和图像特征输入以文本为基础的图像解码器,生成视觉定位信息。实验结果显示,模型在Accuracy、Open、Binary、Consistency这四项评价指标上均取得最佳成绩,分别提高了0.84%、0.74%、3.38%、2.95%。其中,Accuracy达到了56.94%。这表明视觉定位信息有效地增强了图像特征中与问题相关部分的信息比例。 展开更多
关键词 视觉问答 视觉定位 门控机制 编码器 解码器
下载PDF
增强问句和文本交互的答案抽取方法
14
作者 邓涵 《现代电子技术》 北大核心 2024年第6期179-186,共8页
答案抽取对提高问答的质量和性能有着重要的作用,但现有的答案抽取方法存在问句和文本信息交互的问题。结合上下文的答案抽取模型虽然可以从文本中抽取出给定问题的答案,但这种抽取方法并未考虑文本和问句的信息交互。而只有问句和文本... 答案抽取对提高问答的质量和性能有着重要的作用,但现有的答案抽取方法存在问句和文本信息交互的问题。结合上下文的答案抽取模型虽然可以从文本中抽取出给定问题的答案,但这种抽取方法并未考虑文本和问句的信息交互。而只有问句和文本数据时,要从文本中获取更加精准的问句答案,可以利用问句和文本之间的语义信息,预测问句与文本实体之间的关联。基于此,使用问句对齐层和多头注意力机制构建一个交互文本和问句之间的信息模型。实验结果表明,相较于BIDAF-INDEPENDENT模型,改进后模型的EM值和F1值分别提高了1.281%和1.296%。 展开更多
关键词 答案抽取 问答系统 信息交互 语义信息 深度学习 多头注意力机制
下载PDF
动态视音场景下问答模型研究
15
作者 段毛毛 连培榆 史海涛 《计算机技术与发展》 2024年第3期163-169,共7页
现实世界由大量不同模态内容构建而成,各种模态的信息相互关联和互补,充分挖掘不同模态之间的关系和特性能够有效弥补单一模态信息的局限性。动态视音场景下的问答模型研究,旨在通过视频中多模态信息回答不同视觉物体、声音及其相互联... 现实世界由大量不同模态内容构建而成,各种模态的信息相互关联和互补,充分挖掘不同模态之间的关系和特性能够有效弥补单一模态信息的局限性。动态视音场景下的问答模型研究,旨在通过视频中多模态信息回答不同视觉物体、声音及其相互联系的问题,使人工智能获得场景感知和时空推理能力。针对视音问答不准确的问题,提出了一种空间时序问答模型,该模型通过空间融合建模和时序融合建模对多模态特征进行融合,从而提高问答准确率。首先,分别使用Resnet_18,VGGish和Bi-LST对音频、视频和文字进行特征提取;其次,根据声音和视频的关系,在特征融合时对声音和视频两种模态进行早期的空间融合,并使用联合注意力机制在相互辅助学习后进行特征融合,增强特征互补性;最后,在特征融合后添加注意力机制以增强融合特征与文字的相关性。基于MUSIC-AVQA数据集的实验准确率达73.49%,实现了场景感知和时空推理能力的提升。 展开更多
关键词 视音问答 多模态融合 联合注意力机制 Bi-LSTM MUSIC-AVQA
下载PDF
基于多注意力机制的机器阅读理解模型
16
作者 梁燕 张文普 +1 位作者 刘超 朱清 《计算机工程与设计》 北大核心 2023年第6期1907-1913,共7页
为解决以往机器阅读理解模型中存在的长距离依赖、特征提取单一、信息冗余等问题,在bi-directional attention flow network(BiDAF)的基础上,提出改进模型。通过引入自注意机制捕获序列的内部特征,进一步融合问题和文档的信息,解决长距... 为解决以往机器阅读理解模型中存在的长距离依赖、特征提取单一、信息冗余等问题,在bi-directional attention flow network(BiDAF)的基础上,提出改进模型。通过引入自注意机制捕获序列的内部特征,进一步融合问题和文档的信息,解决长距离依赖问题;引入位置信息,从多方面提取文档特征;采用余弦相似度的方法,调整文档的嵌入向量,解决信息冗余问题;在SQuAD数据集上进行验证。实验结果表明,与原基准模型BiDAF相比,改进后的模型在精确匹配和模糊匹配两项性能指标上的结果都有提升,验证了所提模型的有效性。 展开更多
关键词 深度学习 机器阅读理解 循环神经网络 特征提取 注意力机制 余弦相似度 答案预测
下载PDF
一种基于多模态深度特征融合的视觉问答模型 被引量:3
17
作者 邹芸竹 杜圣东 +1 位作者 滕飞 李天瑞 《计算机科学》 CSCD 北大核心 2023年第2期123-129,共7页
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推... 大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。 展开更多
关键词 视觉问答 多模态特征融合 注意力机制 深度学习 数据融合
下载PDF
基于空间关系聚合与全局特征注入的视觉问答模型
18
作者 陈巧红 漏杨波 方贤 《浙江理工大学学报(自然科学版)》 2023年第6期764-774,共11页
现有视觉问答模型缺乏视觉对象间关系的理解能力,导致复杂问题的答案预测准确率较差;针对该问题,提出了一种基于空间关系聚合与全局特征注入的视觉问答模型。该模型首先利用空间关系聚合视觉区域特征,将其转换为视觉全局特征,并将这些... 现有视觉问答模型缺乏视觉对象间关系的理解能力,导致复杂问题的答案预测准确率较差;针对该问题,提出了一种基于空间关系聚合与全局特征注入的视觉问答模型。该模型首先利用空间关系聚合视觉区域特征,将其转换为视觉全局特征,并将这些特征注入网络;然后引入双边门控机制进行特征融合,使模型能够根据不同的问题输入,自适应地调整视觉全局特征和视觉区域特征对答案预测的贡献度;最后将融合特征输入分类网络,得到预测结果。在VQA 2.0和GQA公开数据集上进行实验,结果表明:该模型在VQA2.0的测试-开发集、测试-标准集和GQA的数据集上的总准确率分别达到71.12%、71.54%和57.71%,优于MCAN和SCAVQAN等主流模型。该模型由于引入了具有空间关系的视觉全局特征,能够更好地提升视觉对象间关系的理解能力,有效提高了视觉问答模型的准确率。 展开更多
关键词 视觉问答 空间关系聚合 全局特征注入 视觉区域特征 视觉全局特征 双边门控机制
下载PDF
融合场景语义与空间关系的视觉问答 被引量:1
19
作者 邹品荣 肖锋 +2 位作者 张文娟 黄姝娟 张万玉 《西安工业大学学报》 CAS 2023年第1期56-65,共10页
为了捕捉问答场景下更深层次的关系语义与增强网络的可解释性,文中提出一种显式融合场景语义与空间关系的视觉问答模型,利用视觉对象间关系及其属性来生成关系图表示。根据图像中检测到的视觉对象关系和空间位置信息来构建图网络;分别... 为了捕捉问答场景下更深层次的关系语义与增强网络的可解释性,文中提出一种显式融合场景语义与空间关系的视觉问答模型,利用视觉对象间关系及其属性来生成关系图表示。根据图像中检测到的视觉对象关系和空间位置信息来构建图网络;分别通过自适应问题的图注意力机制编码预定义的场景语义关系和空间对象关系,以学习先验知识下的多模特征表示;将两种关系模型进行线性融合来推理问题答案。研究结果表明:在数据集VQA 2.0上进行实验,与视觉问答算法模型BUTD,DA-NTN,ODA-GCN,Scence GCN,VCTREE-HL和MuRel对比,分别提升测试子集test-dev的准确率4.12%,1.88%,2.77%,2.63%,1.25%和1.41%。该模型能在问题引导下对视觉语义关系进行推理,有效提升视觉问答的准确率。 展开更多
关键词 视觉问答 注意力机制 语义关系 空间关系 关系编码
下载PDF
基于多角度交叉注意力机制的知识库问答方法
20
作者 代发扬 符海东 +1 位作者 高峰 顾进广 《计算机应用与软件》 北大核心 2023年第12期33-40,共8页
近些年知识库问答的方法通常利用多视角信息来表示候选答案,忽略了这些信息间的相互影响,将问题的单词与候选答案的多视角信息计算相关性,忽略了二者在整体与细节上的信息。基于上述问题,提出一个多角度交叉注意力模型,通过多视角交叉... 近些年知识库问答的方法通常利用多视角信息来表示候选答案,忽略了这些信息间的相互影响,将问题的单词与候选答案的多视角信息计算相关性,忽略了二者在整体与细节上的信息。基于上述问题,提出一个多角度交叉注意力模型,通过多视角交叉注意力机制获取候选答案多视角信息间的交叉影响;将问题与候选答案信息进行整体表示,运用双向交叉注意力机制来计算其二者在整体级别上的关联性,最终提高获取答案的正确率。利用FreeBase知识库与WebQuestions数据集进行实验,F1值达到55.84%,优于最近表现较好的方法。 展开更多
关键词 知识库问答 多视角信息 多视角交叉注意力机制 双向交叉注意力机制
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部