期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
Deep Multi-Module Based Language Priors Mitigation Model for Visual Question Answering
1
作者 于守健 金学勤 +2 位作者 吴国文 石秀金 张红 《Journal of Donghua University(English Edition)》 CAS 2023年第6期684-694,共11页
The original intention of visual question answering(VQA)models is to infer the answer based on the relevant information of the question text in the visual image,but many VQA models often yield answers that are biased ... The original intention of visual question answering(VQA)models is to infer the answer based on the relevant information of the question text in the visual image,but many VQA models often yield answers that are biased by some prior knowledge,especially the language priors.This paper proposes a mitigation model called language priors mitigation-VQA(LPM-VQA)for the language priors problem in VQA model,which divides language priors into positive and negative language priors.Different network branches are used to capture and process the different priors to achieve the purpose of mitigating language priors.A dynamically-changing language prior feedback objective function is designed with the intermediate results of some modules in the VQA model.The weight of the loss value for each answer is dynamically set according to the strength of its language priors to balance its proportion in the total VQA loss to further mitigate the language priors.This model does not depend on the baseline VQA architectures and can be configured like a plug-in to improve the performance of the model over most existing VQA models.The experimental results show that the proposed model is general and effective,achieving state-of-the-art accuracy in the VQA-CP v2 dataset. 展开更多
关键词 visual question answering(vqa) language priors natural language processing multimodal fusion computer vision
下载PDF
融合跨模态Transformer的外部知识型VQA
2
作者 王虞 李明锋 孙海春 《科学技术与工程》 北大核心 2024年第20期8577-8586,共10页
针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型... 针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型借助双向交叉注意力机制提升文本问题、图像、外接知识的语义交互融合能力,用于优化VQA模型在面对外部知识时普遍存在的推理能力不足的问题。结果表明:与基线模型LXMERT相比,在OK VQA数据集上,本文模型整体性能指标overall提升了15.01%。同时,与已有最新模型相比,在OK VQA数据集上,本文模型整体性能指标overall提升了4.46%。可见本文模型在改进外部知识型VQA任务性能方面有所提升。 展开更多
关键词 视觉问答(vqa) 外部知识 跨模态 知识图谱
下载PDF
视觉问答技术研究综述 被引量:1
3
作者 王虞 孙海春 《计算机科学与探索》 CSCD 北大核心 2023年第7期1487-1505,共19页
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析... 视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。 展开更多
关键词 视觉问答(vqa) 模态融合 视觉对话 智能问答 跨模态技术
下载PDF
基于图像描述和视觉问答的智能盲人辅助系统
4
作者 常波 《信息与电脑》 2023年第3期113-115,共3页
为了解决盲人无法通过眼睛感知周围环境和盲人辅助设备无法提供问答功能的问题,设计了一种智能盲人辅助系统,包含硬件和软件两部分。首先,分别对摄像头、麦克风、全球定位系统(GlobalPositioning System,GPS)模块采集信息进行关键帧抽... 为了解决盲人无法通过眼睛感知周围环境和盲人辅助设备无法提供问答功能的问题,设计了一种智能盲人辅助系统,包含硬件和软件两部分。首先,分别对摄像头、麦克风、全球定位系统(GlobalPositioning System,GPS)模块采集信息进行关键帧抽取、语音转文字、关键数据抽取获得对应的图片、文本、位置信息;其次,核心服务软件利用上述信息进行功能的切换,并将对应图片-文本数据、图片数据、文本-位置数据送入图片描述(Image Caption)模型和视觉问答(Visual Question Answering,VQA)模型处理,得到对应回答信息;最后,语音播报模块利用文字转语音技术将回答信息转成语音信息并反馈。测试结果表明,提出的系统能针对盲人具体的语音问题进行回答,实现特定场景的问答和描述。 展开更多
关键词 视觉问答(vqa) Image Caption 树莓派
下载PDF
面向智能交互的图像识别技术综述与展望 被引量:92
5
作者 蒋树强 闵巍庆 王树徽 《计算机研究与发展》 EI CSCD 北大核心 2016年第1期113-122,共10页
视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题... 视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题不断被提出,面向智能交互的应用呈现出一些新的动态,正在不断刷新人们对此领域的原有认识.从视觉识别、视觉描述和视觉问答3个角度对图像识别技术进行综述,对基于深度学习的图像识别以及场景分类技术进行了具体介绍,对视觉描述和问答技术的最新技术进行了分析和讨论,同时对面向移动终端和机器人的视觉识别和交互应用进行了介绍,最后对该领域的未来研究趋势进行了分析. 展开更多
关键词 图像识别 智能的视觉识别 智能交互 视觉描述 视觉问答 深度学习
下载PDF
基于深度神经网络的图像碎片化信息问答算法 被引量:4
6
作者 王一蕾 卓一帆 +1 位作者 吴英杰 陈铭钦 《计算机研究与发展》 EI CSCD 北大核心 2018年第12期2600-2610,共11页
大量结构无序、内容片面的碎片化信息以文本、图像、视频、网页等不同模态的形式,高度分散存储在不同数据源中,现有的研究通过构建视觉问答系统(visual question answering,VQA),实现对多模态碎片化信息的提取、表达和理解.视觉问答任... 大量结构无序、内容片面的碎片化信息以文本、图像、视频、网页等不同模态的形式,高度分散存储在不同数据源中,现有的研究通过构建视觉问答系统(visual question answering,VQA),实现对多模态碎片化信息的提取、表达和理解.视觉问答任务给定与图像相关的一个问题,推理相应的答案.在视觉问答任务的基本背景下,以设计出完备的图像碎片化信息问答的框架与算法为目标,重点研究包括图像特征提取、问题文本特征提取、多模态特征融合和答案推理的模型与算法.构建深度神经网络模型提取用于表示图像与问题信息的特征,结合注意力机制与变分推断方法关联图像与问题2种模态特征并推理答案.实验结果表明:该模型能够有效提取和理解多模态碎片化信息,并提高视觉问答任务的准确率. 展开更多
关键词 人工智能 碎片化信息 神经网络 深度学习 视觉问答
下载PDF
视觉问答技术研究 被引量:22
7
作者 俞俊 汪亮 余宙 《计算机研究与发展》 EI CSCD 北大核心 2018年第9期1946-1958,共13页
随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.近年来,视觉问答(visual question answering,VQA)是跨媒体表达与交互方向上... 随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.近年来,视觉问答(visual question answering,VQA)是跨媒体表达与交互方向上的研究热点问题.视觉问答旨在让计算机理解图像内容后根据自然语言输入的查询进行自动回答.围绕视觉问答问题,从概念、模型、数据集等方面对近年来的研究进展进行综述,同时探讨现有工作存在的不足;最后从方法论、应用和平台等多方面对视觉问答未来的研究方向进行了展望. 展开更多
关键词 视觉问答 见觉推理 见频问答 深度学习 知识网络
下载PDF
面向视觉问答的多模块协同注意模型 被引量:6
8
作者 邹品荣 肖锋 +2 位作者 张文娟 张万玉 王晨阳 《计算机工程》 CAS CSCD 北大核心 2022年第2期250-260,共11页
视觉问答(VQA)是计算机视觉和自然语言处理领域中典型的多模态问题,然而传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。提出一种新的多模块协同注意力模型,对视觉场景中对象间关系的动态交互和文本上下文表... 视觉问答(VQA)是计算机视觉和自然语言处理领域中典型的多模态问题,然而传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。提出一种新的多模块协同注意力模型,对视觉场景中对象间关系的动态交互和文本上下文表示进行充分理解,根据图注意力机制建模不同类型对象间关系,学习问题的自适应关系表示,将问题特征和带关系属性的视觉关系通过协同注意编码,加强问题词与对应图像区域间的依赖性,通过注意力增强模块提升模型的拟合能力。在开放数据集VQA 2.0和VQA-CP v2上的实验结果表明,该模型在"总体"、"是/否"、"计数"和"其他"类别问题上的精确度明显优于DA-NTN、ReGAT和ODA-GCN等对比方法,可有效提升视觉问答的准确率。 展开更多
关键词 视觉问答 注意力机制 图注意网络 关系推理 多模态学习 特征融合
下载PDF
基于空间注意力推理机制的视觉问答算法研究 被引量:1
9
作者 李智涛 周之平 叶琴 《计算机应用研究》 CSCD 北大核心 2021年第3期952-955,共4页
针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning atten... 针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出。相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域。模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率。 展开更多
关键词 视觉问答 注意力机制 多模态学习 自注意力 空间推理注意力
下载PDF
基于对称注意力机制的视觉问答系统
10
作者 路静 吴春雷 王雷全 《计算机系统应用》 2021年第5期114-119,共6页
近年来,基于图像视觉特征与问题文本特征融合的视觉问答(VQA)引起了研究者们的广泛关注.现有的大部分模型都是通过聚集图像区域和疑问词对的相似性,采用注意力机制和密集迭代操作进行细粒度交互和匹配,忽略了图像区域和问题词的自相关信... 近年来,基于图像视觉特征与问题文本特征融合的视觉问答(VQA)引起了研究者们的广泛关注.现有的大部分模型都是通过聚集图像区域和疑问词对的相似性,采用注意力机制和密集迭代操作进行细粒度交互和匹配,忽略了图像区域和问题词的自相关信息.本文提出了一种基于对称注意力机制的模型架构,能够有效利用图片和问题之间具有的语义关联,进而减少整体语义理解上的偏差,以提高答案预测的准确性.本文在VQA2.0数据集上进行了实验,实验结果表明基于对称注意力机制的模型与基线模型相比具有明显的优越性. 展开更多
关键词 视觉问答 注意力机制 对称注意力 卷积神经网络 特征提取
下载PDF
面向跨模态数据协同分析的视觉问答方法综述 被引量:1
11
作者 崔政 胡永利 +1 位作者 孙艳丰 尹宝才 《北京工业大学学报》 CAS CSCD 北大核心 2022年第10期1088-1099,共12页
协同分析和处理跨模态数据一直是现代人工智能领域的难点和热点,其主要挑战是跨模态数据具有语义和异构鸿沟.近年来,随着深度学习理论和技术的快速发展,基于深度学习的算法在图像和文本处理领域取得了极大的进步,进而产生了视觉问答(vis... 协同分析和处理跨模态数据一直是现代人工智能领域的难点和热点,其主要挑战是跨模态数据具有语义和异构鸿沟.近年来,随着深度学习理论和技术的快速发展,基于深度学习的算法在图像和文本处理领域取得了极大的进步,进而产生了视觉问答(visual question answering,VQA)这一课题.VQA系统利用视觉信息和文本形式的问题作为输入,得出对应的答案,核心在于协同理解和处理视觉、文本信息.因此,对VQA方法进行了详细综述,按照方法原理将现有的VQA方法分为数据融合、跨模态注意力和知识推理3类方法,全面总结分析了VQA方法的最新进展,介绍了常用的VQA数据集,并对未来的研究方向进行了展望. 展开更多
关键词 跨模态数据 深度学习 视觉问答 数据融合 跨模态注意力 知识推理
下载PDF
基于关系推理与门控机制的视觉问答方法
12
作者 王鑫 陈巧红 +1 位作者 孙麒 贾宇波 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第1期36-46,共11页
针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关... 针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关系推理加强视觉区域间的联系.将分别得到的视觉注意力特征与视觉关系特征输入到自适应门控中,动态控制2种特征对预测答案的贡献.在VQA1.0及VQA2.0数据集上的实验结果表明:该模型与DCN、MFB、MFH及MCB等先进模型相比,在总体精度上均有约2%的提升;利用基于关系推理与门控机制的模型能够更好地理解图像内容,有效地提升视觉问答的准确率. 展开更多
关键词 视觉问答(vqa) 注意力机制 视觉区域 关系推理 自适应门控
下载PDF
融合答案掩码的视觉问答模型
13
作者 王峰 石方宇 +2 位作者 赵佳 张雪松 王雪枫 《中国图象图形学报》 CSCD 北大核心 2023年第11期3562-3574,共13页
目的现有的视觉问答模型由于受到语言先验的影响,预测准确率不高。虽然模型能够根据数据集中问题和答案的统计规律学习到它们之间简单的对应关系,但无法学习到问题和答案类型之间深层次的对应关系,容易出现答非所问的现象。为此,提出了... 目的现有的视觉问答模型由于受到语言先验的影响,预测准确率不高。虽然模型能够根据数据集中问题和答案的统计规律学习到它们之间简单的对应关系,但无法学习到问题和答案类型之间深层次的对应关系,容易出现答非所问的现象。为此,提出了一种使用答案掩码对预测结果中的无关答案进行遮盖的方法,迫使模型关注问题和答案类型之间的对应关系,提高模型的预测准确率。方法首先对数据集中的答案进行聚类并为每一类答案生成不同的答案掩码,然后使用预训练的答案类型识别模型预测问题对应的答案类型,并根据该模型的预测结果选择相应的答案掩码对基线模型的预测结果进行遮盖,最终得到正确答案。结果提出的方法使用UpDn(bottom-up and top-down)、RUBi(reducing unimodal biases)、LMH(learned-mixin+h)和CSS(counterfactual samples synthesizing)4种模型作为基线模型,在3个大型公开数据集上进行实验。在VQA(visual question answer)-CP v2.0数据集上的实验结果表明,本文方法使UpDn模型的准确率提高了2.15%,LMH模型的准确率提高了2.29%,融合本方法的CSS模型的准确率达到了60.14%,较原模型提升了2.02%,达到了目前较高的水平。在VQA v2.0和VQA-CP v1.0数据集上的结果也显示本文方法提高了大多数模型的准确率,具有良好的泛化性。此外,在VQA-CP v2.0上的消融实验证明了本文方法的有效性。结论提出的方法通过答案掩码对视觉问答模型的预测结果进行遮盖,减少无关答案对最终结果的影响,使模型学习到问题和答案类型之间的对应关系,有效改善了视觉问答模型答非所问的现象,提高了模型的预测准确率。 展开更多
关键词 视觉问答 语言先验 答案聚类 答案掩码 答案类型识别
原文传递
问题引导的空间关系图推理视觉问答模型 被引量:4
14
作者 兰红 张蒲芬 《中国图象图形学报》 CSCD 北大核心 2022年第7期2274-2286,共13页
目的现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳。对此,本文针对需要空间关系推理的视觉问答问题,提出利用视... 目的现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳。对此,本文针对需要空间关系推理的视觉问答问题,提出利用视觉对象之间空间关系属性结构化建模图像,构建问题引导的空间关系图推理视觉问答模型。方法利用显著性注意力,用Faster R-CNN(region-based convolutional neural network)提取图像中显著的视觉对象和视觉特征;对图像中的视觉对象及其空间关系结构化建模为空间关系图;利用问题引导的聚焦式注意力进行基于问题的空间关系推理。聚焦式注意力分为节点注意力和边注意力,分别用于发现与问题相关的视觉对象和空间关系;利用节点注意力和边注意力权重构造门控图推理网络,通过门控图推理网络的信息传递机制和控制特征信息的聚合,获得节点的深度交互信息,学习得到具有空间感知的视觉特征表示,达到基于问题的空间关系推理;将具有空间关系感知的图像特征和问题特征进行多模态融合,预测出正确答案。结果模型在VQA(visual question answering)v2数据集上进行训练、验证和测试。实验结果表明,本文模型相比于Prior、Language only、MCB(multimodal compact bilinear)、ReasonNet和Bottom-Up等模型,在各项准确率方面有明显提升。相比于Reason Net模型,本文模型总体的回答准确率提升2.73%,是否问题准确率提升4.41%,计数问题准确率提升5.37%,其他问题准确率提升0.65%。本文还进行了消融实验,验证了方法的有效性。结论提出的问题引导的空间关系图推理视觉问答模型能够较好地将问题文本信息和图像目标区域及对象关系进行匹配,特别是对于需要空间关系推理的问题,模型展现出较强的推理能力。 展开更多
关键词 视觉问答(vqa) 图卷积神经网络(GCN) 注意力机制 空间关系推理 多模态学习
原文传递
结合自底向上注意力机制和记忆网络的视觉问答模型 被引量:14
15
作者 闫茹玉 刘学亮 《中国图象图形学报》 CSCD 北大核心 2020年第5期993-1006,共14页
目的 现有大多数视觉问答模型均采用自上而下的视觉注意力机制,对图像内容无加权统一处理,无法更好地表征图像信息,且因为缺乏长期记忆模块,无法对信息进行长时间记忆存储,在推理答案过程中会造成有效信息丢失,从而预测出错误答案.为此... 目的 现有大多数视觉问答模型均采用自上而下的视觉注意力机制,对图像内容无加权统一处理,无法更好地表征图像信息,且因为缺乏长期记忆模块,无法对信息进行长时间记忆存储,在推理答案过程中会造成有效信息丢失,从而预测出错误答案.为此,提出一种结合自底向上注意力机制和记忆网络的视觉问答模型,通过增强对图像内容的表示和记忆,提高视觉问答的准确率.方法 预训练一个目标检测模型提取图像中的目标和显著性区域作为图像特征,联合问题表示输入到记忆网络,记忆网络根据问题检索输入图像特征中的有用信息,并结合输入图像信息和问题表示进行多次迭代、更新,以生成最终的信息表示,最后融合记忆网络记忆的最终信息和问题表示,推测出正确答案.结果 在公开的大规模数据集VQA(visual question answering) v2.0上与现有主流算法进行比较实验和消融实验,结果表明,提出的模型在视觉问答任务中的准确率有显著提升,总体准确率为64.0%.与MCB(multimodal compact bilinear)算法相比,总体准确率提升了1.7%;与性能较好的VQA machine算法相比,总体准确率提升了1%,其中回答是/否、计数和其他类型问题的准确率分别提升了1.1%、3.4%和0.6%.整体性能优于其他对比算法,验证了提出算法的有效性.结论 本文提出的结合自底向上注意力机制和记忆网络的视觉问答模型,更符合人类的视觉注意力机制,并且在推理答案的过程中减少了信息丢失,有效提升了视觉问答的准确率. 展开更多
关键词 视觉问答 自底向上 注意力机制 记忆网络 多模态融合 多分类
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部