期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
融合跨模态Transformer的外部知识型VQA
1
作者 王虞 李明锋 孙海春 《科学技术与工程》 北大核心 2024年第20期8577-8586,共10页
针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型... 针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型借助双向交叉注意力机制提升文本问题、图像、外接知识的语义交互融合能力,用于优化VQA模型在面对外部知识时普遍存在的推理能力不足的问题。结果表明:与基线模型LXMERT相比,在OK VQA数据集上,本文模型整体性能指标overall提升了15.01%。同时,与已有最新模型相比,在OK VQA数据集上,本文模型整体性能指标overall提升了4.46%。可见本文模型在改进外部知识型VQA任务性能方面有所提升。 展开更多
关键词 视觉问答(vqa) 外部知识 跨模态 知识图谱
下载PDF
PDID:视觉离散化智能问答模型——基于图像像素离散化和图像语义离散化的VQA模型
2
作者 陈页名 张思禹 孙杳如 《计算机科学与应用》 2023年第12期2432-2446,共15页
视觉问答是一项具有挑战性的多模态任务,它连接了计算机视觉和自然语言处理两个领域。在这项任务中,模型需要根据给定的图片和相关问题,有效地提取信息并给出正确答案。然而,由于图像和文本属于不同的模态,存在着严重的语义差异,因此如... 视觉问答是一项具有挑战性的多模态任务,它连接了计算机视觉和自然语言处理两个领域。在这项任务中,模型需要根据给定的图片和相关问题,有效地提取信息并给出正确答案。然而,由于图像和文本属于不同的模态,存在着严重的语义差异,因此如何有效地将不同模态的信息对齐并减少语义差异,是当前视觉问答领域的重点关注问题。本文针对当前视觉问答方法在多模态对齐阶段图像和文本信息颗粒度的巨大差异,提出了基于视觉离散化(PDID: Pixel Discretization and Instance Discretization)的智能问答模型并辅助以模态注意力机制完成跨模态信息和语义对齐。图像以像素为最小单位的特征数据与文本以单词为最小单位的特征数据,它们在数据的信息颗粒度上存在巨大的差异,即语言通过至多数万单词即可完成整个文本语义空间的构建,而图像则是通过亿级的RGB三原色数组构建而成。这说明了直接建模以像素为单位的图像是很难和文本做好对齐的。本文通过了多种图像离散化的方式,一方面通过离散化图像像素,以颜色离散化、强度离散化、纹理离散化、空间离散化四种形式将图像像素完成离散化,在数量级上逼近文本特征的最小基元数量;另一方面通过图像语义特征的软编码,离散化图像深层次的语义特征,将图像的语义特征与文本的单词语义对齐,在语义层面上逼近文本特征的单词语义信息量。除此以外,本文提出了一种新型的视觉关系融合模块,视觉关系融合模块用来捕获同种模态内离散化特征和连续特征的交互信息,为模型提供丰富的视觉特征。本文先使用自注意力方法提取模态内特征之间的相关性,即提取视觉全局关系,再使用通道空间分离注意力进行跨模态结合,为局部引导的全局特征提供更大的表示空间和更多的补充信息。为了验证本方法的有效性,在VQA-v2,COCO-QA,VQA-CP v2数据集上进行了广泛实验,充分验证了该方法在视觉问答任务中的基于离散机制的视觉问答研究有效性。同时也体现了该模型在其他跨模态任务(图像文本匹配、指示表达)中仍有很强的泛化能力。 展开更多
关键词 vqa 像素离散化 语义离散化 自注意力 跨模态融合
下载PDF
WMA:A Multi-Scale Self-Attention Feature Extraction Network Based on Weight Sharing for VQA 被引量:1
3
作者 Yue Li Jin Liu Shengjie Shang 《Journal on Big Data》 2021年第3期111-118,共8页
Visual Question Answering(VQA)has attracted extensive research focus and has become a hot topic in deep learning recently.The development of computer vision and natural language processing technology has contributed t... Visual Question Answering(VQA)has attracted extensive research focus and has become a hot topic in deep learning recently.The development of computer vision and natural language processing technology has contributed to the advancement of this research area.Key solutions to improve the performance of VQA system exist in feature extraction,multimodal fusion,and answer prediction modules.There exists an unsolved issue in the popular VQA image feature extraction module that extracts the fine-grained features from objects of different scale difficultly.In this paper,a novel feature extraction network that combines multi-scale convolution and self-attention branches to solve the above problem is designed.Our approach achieves the state-of-the-art performance of a single model on Pascal VOC 2012,VQA 1.0,and VQA 2.0 datasets. 展开更多
关键词 vqa feature extraction self-attention FINE-GRAINED
下载PDF
基于深度学习的视频质量评价方法研究综述
4
作者 杨文兵 邱天 +2 位作者 张志鹏 施博凯 张明威 《现代信息科技》 2024年第7期73-80,85,共9页
互联网时代充斥着海量的质量参差不齐的视频,低质量的视频极大地削弱人的视觉感官体验同时对储存设备造成极大压力,进行视频质量评价(VQA)势在必行。深度学习理论的发展为视频质量评价提供了新的思路,首先简单介绍视频质量评价理论知识... 互联网时代充斥着海量的质量参差不齐的视频,低质量的视频极大地削弱人的视觉感官体验同时对储存设备造成极大压力,进行视频质量评价(VQA)势在必行。深度学习理论的发展为视频质量评价提供了新的思路,首先简单介绍视频质量评价理论知识和传统的评价方法,其次对基于深度学习的评价模型进行神经网络分类——2D-CNN和3D-CNN,并分析模型的优缺点,再次在公开数据集上分析经典模型的性能表现,最后对该领域存在的缺点和不足进行总结,并展望未来的发展趋势。研究表明:公开的数据集仍不充足;无参考的评价方法最具发展潜力,但其在公开数据集上的性能表现一般,仍有很大的提升空间。 展开更多
关键词 深度学习 视频质量评价 2D-CNN 3D-CNN
下载PDF
视觉问答技术研究综述
5
作者 王虞 孙海春 《计算机科学与探索》 CSCD 北大核心 2023年第7期1487-1505,共19页
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析... 视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。 展开更多
关键词 视觉问答(vqa) 模态融合 视觉对话 智能问答 跨模态技术
下载PDF
Deep Multi-Module Based Language Priors Mitigation Model for Visual Question Answering
6
作者 于守健 金学勤 +2 位作者 吴国文 石秀金 张红 《Journal of Donghua University(English Edition)》 CAS 2023年第6期684-694,共11页
The original intention of visual question answering(VQA)models is to infer the answer based on the relevant information of the question text in the visual image,but many VQA models often yield answers that are biased ... The original intention of visual question answering(VQA)models is to infer the answer based on the relevant information of the question text in the visual image,but many VQA models often yield answers that are biased by some prior knowledge,especially the language priors.This paper proposes a mitigation model called language priors mitigation-VQA(LPM-VQA)for the language priors problem in VQA model,which divides language priors into positive and negative language priors.Different network branches are used to capture and process the different priors to achieve the purpose of mitigating language priors.A dynamically-changing language prior feedback objective function is designed with the intermediate results of some modules in the VQA model.The weight of the loss value for each answer is dynamically set according to the strength of its language priors to balance its proportion in the total VQA loss to further mitigate the language priors.This model does not depend on the baseline VQA architectures and can be configured like a plug-in to improve the performance of the model over most existing VQA models.The experimental results show that the proposed model is general and effective,achieving state-of-the-art accuracy in the VQA-CP v2 dataset. 展开更多
关键词 visual question answering(vqa) language priors natural language processing multimodal fusion computer vision
下载PDF
基于图像描述和视觉问答的智能盲人辅助系统
7
作者 常波 《信息与电脑》 2023年第3期113-115,共3页
为了解决盲人无法通过眼睛感知周围环境和盲人辅助设备无法提供问答功能的问题,设计了一种智能盲人辅助系统,包含硬件和软件两部分。首先,分别对摄像头、麦克风、全球定位系统(GlobalPositioning System,GPS)模块采集信息进行关键帧抽... 为了解决盲人无法通过眼睛感知周围环境和盲人辅助设备无法提供问答功能的问题,设计了一种智能盲人辅助系统,包含硬件和软件两部分。首先,分别对摄像头、麦克风、全球定位系统(GlobalPositioning System,GPS)模块采集信息进行关键帧抽取、语音转文字、关键数据抽取获得对应的图片、文本、位置信息;其次,核心服务软件利用上述信息进行功能的切换,并将对应图片-文本数据、图片数据、文本-位置数据送入图片描述(Image Caption)模型和视觉问答(Visual Question Answering,VQA)模型处理,得到对应回答信息;最后,语音播报模块利用文字转语音技术将回答信息转成语音信息并反馈。测试结果表明,提出的系统能针对盲人具体的语音问题进行回答,实现特定场景的问答和描述。 展开更多
关键词 视觉问答(vqa) Image Caption 树莓派
下载PDF
视觉问答任务中GQA数据集的可视化分析与研究
8
作者 郭晨靓 王峰 +3 位作者 余正涛 周彤 孙崇翔 赵佳 《阜阳师范大学学报(自然科学版)》 2023年第4期61-68,共8页
GQA(Grouped Query Attention,GQA)数据集是一个包含图像、问题和答案的大规模视觉问答数据集,其中问题涉及图像中的物体、场景和关系等各个方面。通过对GQA数据集以及一些基线模型进行深入的可视化分析,展示了该数据集中问题的多样性... GQA(Grouped Query Attention,GQA)数据集是一个包含图像、问题和答案的大规模视觉问答数据集,其中问题涉及图像中的物体、场景和关系等各个方面。通过对GQA数据集以及一些基线模型进行深入的可视化分析,展示了该数据集中问题的多样性、图像内容的分布以及问题之间的关联性,揭示了其在视觉问答领域的优点。通过深入理解数据集的特点和结构,可以更好地利用其中的信息,从而推动视觉问答领域的发展。对于改进和优化现有模型、提出新的解决方案以应对数据集中的挑战具有重要意义。 展开更多
关键词 视觉问答 GQA 可视化 基线模型
下载PDF
基于深度学习的视频质量评价研究综述 被引量:4
9
作者 谭娅娅 孔广黔 《计算机科学与探索》 CSCD 北大核心 2021年第3期423-437,共15页
视频质量评价(VQA)是以人眼的主观质量评估结果为依据,使用算法模型对失真视频进行评估。传统的评估方法难以做到主观评价结果与客观评价结果相一致。基于深度学习的视频质量评价方法无需加入手工特征,通过模型自主学习即可进行评估,对... 视频质量评价(VQA)是以人眼的主观质量评估结果为依据,使用算法模型对失真视频进行评估。传统的评估方法难以做到主观评价结果与客观评价结果相一致。基于深度学习的视频质量评价方法无需加入手工特征,通过模型自主学习即可进行评估,对视频质量的监控和评价有重要意义,已成为计算机视觉领域的研究热点之一。首先对视频质量评价的研究背景和主要研究方法进行介绍;其次从全参考型和无参考型两方面介绍基于深度学习的客观质量评价方法,并且从所用的卷积神经网络模型对无参考型评价方法进行了分类比较;接着介绍视频质量评价算法的相关数据库和评价算法性能指标,并对算法性能进行比较;最后对目前视频质量评价研究存在的问题进行总结,并展望了该领域面临的挑战和未来发展方向。 展开更多
关键词 深度学习 视频质量评价(vqa) 客观评价 无参考 卷积神经网络(CNN)
下载PDF
基于视频质量评价的时域失真测量 被引量:1
10
作者 谭晶晶 殷海兵 《电视技术》 北大核心 2013年第8期86-89,共4页
视频质量评价(VQA)对于视频处理应用有着重要影响。人眼视觉特性的时域掩蔽效应和时域失真波动是视频质量感知评价的关键因子。在已有的视频质量评价研究中,很少有考虑到时域失真波动对视频主观感知质量的影响。改进了传统的时域分析算... 视频质量评价(VQA)对于视频处理应用有着重要影响。人眼视觉特性的时域掩蔽效应和时域失真波动是视频质量感知评价的关键因子。在已有的视频质量评价研究中,很少有考虑到时域失真波动对视频主观感知质量的影响。改进了传统的时域分析算法,并证明了视频质量评价算法中时域失真的有效性。 展开更多
关键词 vqa 时域失真评价 时域失真波动
下载PDF
面向智能交互的图像识别技术综述与展望 被引量:92
11
作者 蒋树强 闵巍庆 王树徽 《计算机研究与发展》 EI CSCD 北大核心 2016年第1期113-122,共10页
视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题... 视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题不断被提出,面向智能交互的应用呈现出一些新的动态,正在不断刷新人们对此领域的原有认识.从视觉识别、视觉描述和视觉问答3个角度对图像识别技术进行综述,对基于深度学习的图像识别以及场景分类技术进行了具体介绍,对视觉描述和问答技术的最新技术进行了分析和讨论,同时对面向移动终端和机器人的视觉识别和交互应用进行了介绍,最后对该领域的未来研究趋势进行了分析. 展开更多
关键词 图像识别 智能的视觉识别 智能交互 视觉描述 视觉问答 深度学习
下载PDF
视频质量的主客观评估方法研究 被引量:20
12
作者 王新岱 杨付正 《电视技术》 北大核心 2003年第8期81-84,共4页
介绍了目前存在的各种视频质量的主、客观评估方法,并分析了其各自的优缺点和应用环境,最后展望了视频质量评估的研究热点。
关键词 视频质量 视觉系统 质量评估 数字视频压缩技术
下载PDF
基于深度神经网络的图像碎片化信息问答算法 被引量:4
13
作者 王一蕾 卓一帆 +1 位作者 吴英杰 陈铭钦 《计算机研究与发展》 EI CSCD 北大核心 2018年第12期2600-2610,共11页
大量结构无序、内容片面的碎片化信息以文本、图像、视频、网页等不同模态的形式,高度分散存储在不同数据源中,现有的研究通过构建视觉问答系统(visual question answering,VQA),实现对多模态碎片化信息的提取、表达和理解.视觉问答任... 大量结构无序、内容片面的碎片化信息以文本、图像、视频、网页等不同模态的形式,高度分散存储在不同数据源中,现有的研究通过构建视觉问答系统(visual question answering,VQA),实现对多模态碎片化信息的提取、表达和理解.视觉问答任务给定与图像相关的一个问题,推理相应的答案.在视觉问答任务的基本背景下,以设计出完备的图像碎片化信息问答的框架与算法为目标,重点研究包括图像特征提取、问题文本特征提取、多模态特征融合和答案推理的模型与算法.构建深度神经网络模型提取用于表示图像与问题信息的特征,结合注意力机制与变分推断方法关联图像与问题2种模态特征并推理答案.实验结果表明:该模型能够有效提取和理解多模态碎片化信息,并提高视觉问答任务的准确率. 展开更多
关键词 人工智能 碎片化信息 神经网络 深度学习 视觉问答
下载PDF
基于小波的视频质量评价模型 被引量:2
14
作者 郑江云 刘全金 《计算机工程》 CAS CSCD 2012年第20期275-277,共3页
为提高客观视频质量评价算法与主观评价间的相关性,提出一种基于小波的视频质量评价模型。根据人眼对图像高低频失真的敏感度不同,利用小波变换的近似系数和细节系数,采用不同方法计算各帧图像的高频和低频失真量,将2种失真量相乘得到... 为提高客观视频质量评价算法与主观评价间的相关性,提出一种基于小波的视频质量评价模型。根据人眼对图像高低频失真的敏感度不同,利用小波变换的近似系数和细节系数,采用不同方法计算各帧图像的高频和低频失真量,将2种失真量相乘得到帧度量,所有帧结果的平均值作为客观视频质量评价值。实验结果表明,该模型结果与主观评价结果具有较好的相关性。 展开更多
关键词 视频质量评价 小波变换 感觉容量 近似系数误差 细节系数误差
下载PDF
Recent Advances and Challenges in Video Quality Assessment 被引量:1
15
作者 LI Dingquan JIANG Tingting JIANG Ming 《ZTE Communications》 2019年第1期3-11,共9页
Video quality assessment(VQA) plays a vital role in the field of video processing, including areas of video acquisition, video filtering in retrieval, video compression, video restoration, and video enhancement. Since... Video quality assessment(VQA) plays a vital role in the field of video processing, including areas of video acquisition, video filtering in retrieval, video compression, video restoration, and video enhancement. Since VQA has gained much attention in recent years, this paper gives an up-to-date review of VQA research and highlights current challenges in this filed. The subjective study and common VQA databases are first reviewed.Then, a survey on the objective VQA methods, including full-reference, reduced-reference,and no-reference VQA, is reported. Last but most importantly, the key limitations of current research and several challenges in the field of VQA are discussed, which include the impact of video content, memory effects, computational efficiency, personalized video quality prediction, and quality assessment of newly emerged videos. 展开更多
关键词 DATABASES perceptual OPTIMIZATION PERSONALIZATION VIDEO CONTENT vqa
下载PDF
基于关系推理与门控机制的视觉问答方法
16
作者 王鑫 陈巧红 +1 位作者 孙麒 贾宇波 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第1期36-46,共11页
针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关... 针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关系推理加强视觉区域间的联系.将分别得到的视觉注意力特征与视觉关系特征输入到自适应门控中,动态控制2种特征对预测答案的贡献.在VQA1.0及VQA2.0数据集上的实验结果表明:该模型与DCN、MFB、MFH及MCB等先进模型相比,在总体精度上均有约2%的提升;利用基于关系推理与门控机制的模型能够更好地理解图像内容,有效地提升视觉问答的准确率. 展开更多
关键词 视觉问答(vqa) 注意力机制 视觉区域 关系推理 自适应门控
下载PDF
VR全景视频传输研究进展 被引量:7
17
作者 叶成英 李建微 陈思喜 《计算机应用研究》 CSCD 北大核心 2022年第6期1601-1607,1621,共8页
VR全景视频作为一种沉浸式虚拟现实技术,其高分辨率及低延迟的严格要求为视频传输带来了严峻挑战。全景视频传输在全景视频的系统构建中起到了关键作用,并与其他重要技术紧密衔接。为了分析全景视频传输的研究现状和发展趋势,首先对映... VR全景视频作为一种沉浸式虚拟现实技术,其高分辨率及低延迟的严格要求为视频传输带来了严峻挑战。全景视频传输在全景视频的系统构建中起到了关键作用,并与其他重要技术紧密衔接。为了分析全景视频传输的研究现状和发展趋势,首先对映射格式、视频编码、质量评估等全景视频传输相关技术进行阐述,从不同视角对相关研究领域和方法进行分类归纳。而后详细探讨了全景视频传输技术的传输协议、三类主要传输方法及视口预测,并对各部分梳理了一些比较具有代表性的研究方法。最后就关键性技术对全景视频传输的未来研究进行展望,旨在为研究人员快速全面了解该领域提供帮助。 展开更多
关键词 虚拟现实 全景视频传输 映射 视频质量评估 视口预测
下载PDF
视觉问答技术研究 被引量:22
18
作者 俞俊 汪亮 余宙 《计算机研究与发展》 EI CSCD 北大核心 2018年第9期1946-1958,共13页
随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.近年来,视觉问答(visual question answering,VQA)是跨媒体表达与交互方向上... 随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.近年来,视觉问答(visual question answering,VQA)是跨媒体表达与交互方向上的研究热点问题.视觉问答旨在让计算机理解图像内容后根据自然语言输入的查询进行自动回答.围绕视觉问答问题,从概念、模型、数据集等方面对近年来的研究进展进行综述,同时探讨现有工作存在的不足;最后从方法论、应用和平台等多方面对视觉问答未来的研究方向进行了展望. 展开更多
关键词 视觉问答 见觉推理 见频问答 深度学习 知识网络
下载PDF
加拿大葡萄酒鉴定标准介绍
19
《福建质量信息》 1998年第5期10-10,共1页
加拿大酿造葡萄酒品质同盟会(VQA)是加拿大葡萄酒的酿造商和消费者之间的一种合约。VQA的标志代表最高品质的保证,也体现了葡萄酒酿造商对技巧的最高水准。
关键词 葡萄酒 鉴定 标准 加拿大 vqa
下载PDF
面向视觉问答的多模块协同注意模型 被引量:6
20
作者 邹品荣 肖锋 +2 位作者 张文娟 张万玉 王晨阳 《计算机工程》 CAS CSCD 北大核心 2022年第2期250-260,共11页
视觉问答(VQA)是计算机视觉和自然语言处理领域中典型的多模态问题,然而传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。提出一种新的多模块协同注意力模型,对视觉场景中对象间关系的动态交互和文本上下文表... 视觉问答(VQA)是计算机视觉和自然语言处理领域中典型的多模态问题,然而传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。提出一种新的多模块协同注意力模型,对视觉场景中对象间关系的动态交互和文本上下文表示进行充分理解,根据图注意力机制建模不同类型对象间关系,学习问题的自适应关系表示,将问题特征和带关系属性的视觉关系通过协同注意编码,加强问题词与对应图像区域间的依赖性,通过注意力增强模块提升模型的拟合能力。在开放数据集VQA 2.0和VQA-CP v2上的实验结果表明,该模型在"总体"、"是/否"、"计数"和"其他"类别问题上的精确度明显优于DA-NTN、ReGAT和ODA-GCN等对比方法,可有效提升视觉问答的准确率。 展开更多
关键词 视觉问答 注意力机制 图注意网络 关系推理 多模态学习 特征融合
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部