期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于多模态推理图神经网络的场景文本视觉问答模型

Visual question answering model of vision and scene text based on multi-modal reasoning graph neural network

下载PDF

导出

摘要文本阅读能力差和视觉推理能力不足是现有视觉问答(visual question answering,VQA)模型效果不好的主要原因,针对以上问题,设计了一个基于图神经网络的多模态推理(multi-modal reasoning graph neural network,MRGNN)模型。利用图像中多种形式的信息帮助理解场景文本内容,将场景文本图片分别预处理成视觉对象图和文本图的形式,并且在问题自注意力模块下过滤多余的信息;使用加入注意力的聚合器完善子图之间相互的节点特征,从而融合不同模态之间的信息,更新后的节点利用不同模态的上下文信息为答疑模块提供了更好的功能。在ST-VQA和TextVQA数据集上验证了有效性,实验结果表明,相比较此任务的一些其他模型,MRGNN模型在此任务上有明显的提升。 Poor text reading ability and inadequate visual reasoning were the main reasons for the insufficient effect of existing visual question answering models.To solve the above problems,this paper designed a MRGNN model.It used various forms of information in images to help understanding the scene text content,preprocessed the scene text image into the visual object graph and text graph respectively,and filtered the redundant information in the question self-attention module.It used an aggregator with attention to perfect the node features between subgraphs and fuse different modality information.The updated nodes used the context information of different modules to provide a better function for answering module.This paper verified the validity of MRGNN model on ST-VQA and TextVQA datasets.The experimental results show that MRGNN model achieves good results compared with some classical models for this task.

作者张海涛郭欣雨 Zhang Haitao;Guo Xinyu(School of Software,Liaoning Technical University,Huludao Liaoning 125105,China)

机构地区辽宁工程技术大学软件学院

出处《计算机应用研究》 CSCD 北大核心 2022年第1期280-284,302,共6页 Application Research of Computers

基金辽宁省自然科学基金面上项目中国人民解放军总装备部装备预研基金项目。

关键词视觉问答图神经网络多模态推理问题自注意力 visual question answering graph neural network multi-modal reasoning question self-attention

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1吝博强,田文洪.基于层次注意力机制的高效视觉问答模型[J].计算机应用研究,2021,38(2):636-640. 被引量：9

二级参考文献2

1杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：367
2陈超,齐峰.卷积神经网络的发展及其在计算机视觉领域中的应用综述[J].计算机科学,2019,46(3):63-73. 被引量：136

共引文献8

1邱南,顾玉宛,石林,李宁,庄丽华,徐守坤.基于复合图文特征的视觉问答模型研究[J].计算机应用研究,2021,38(8):2293-2298.
2张宇,郭文忠,林森,文朝武,龙洁花.深度学习与知识推理相结合的研究综述[J].计算机工程与应用,2022,58(1):56-69. 被引量：5
3李艳,金小峰.基于综合几何关系稀疏自注意力机制的图像标注方法研究[J].计算机应用研究,2022,39(4):1132-1136. 被引量：2
4张昊雨,张德.基于图结构的级联注意力视觉问答模型[J].计算机工程与应用,2023,59(6):155-161. 被引量：1
5李长健,杨昱威,肖枭,雷印杰.基于子问题渐进式推理的3D视觉问答[J].计算机应用研究,2023,40(4):987-990.
6张岱松,盛文婷,谷峥,刘静.基于多模块深度神经网络的陶瓷图像视觉问答方法[J].南京理工大学学报,2023,47(2):192-198.
7成曦,杨关,刘小明,刘阳.基于跨模态多维关系增强的多模态模型研究[J].计算机应用研究,2023,40(8):2367-2374.
8袁琨鹏,米金鹏,陈智谦.基于模态预融合的三维指称表达理解[J].计算机应用研究,2023,40(12):3666-3671.

1段荧,龙华,瞿于荃.中文文字图片同色长干扰线的去除算法[J].数据通信,2021(4):42-46. 被引量：2
2田耿.高校图书馆图书资料破损的人为因素与对策[J].知识经济,2021(13):116-117. 被引量：1
3王飞跃.计算知识视觉:迈向智能视觉推理的新范式[J].智能系统学报,2021,16(3). 被引量：2
4倪宣明,沈鑫圆,张海.基于联合分布核适配的迁移学习及其隐私保护[J].中国科学：信息科学,2021,51(10):1609-1624.
5易梦馨,吴江,蔡婧璇,高嘉慧.信任视角下基于文本图片多源信息的在线择医行为研究[J].情报科学,2021,39(9):84-93. 被引量：10
6姜建浩.基于情绪识别的远程老年人看护系统[J].医疗装备,2021,34(21):19-20. 被引量：1
7傅佩华.浅论在教学中非连续性文本阅读和综合性学习的有机结合——以统编版五下“遨游汉字王国”为例[J].读与写（中旬）,2022(4):105-107.
8毛刚飞.评点与批注:模仿传统的鉴赏方式[J].语文教学通讯,2022(1):87-89.
9郜舒竹,冯林.例说“数学的眼光”[J].教学月刊（小学版）（数学）,2022(1):4-9. 被引量：3
10王鑫,陈巧红,孙麒,贾宇波.基于关系推理与门控机制的视觉问答方法[J].浙江大学学报（工学版）,2022,56(1):36-46.

计算机应用研究

2022年第1期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部