基于空间注意力推理机制的视觉问答算法研究被引量：1

Algorithm of visual question answering based on spatial attention reasoning mechanism

下载PDF

导出

摘要针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出。相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域。模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率。 Aiming at the existing multi-modal learning which based on attention mechanism,this paper studied the self-association between the context of the text and the spatial positional relationship of the object area of the image.Based on the analysis of existing attention networks,this paper proposed to use SA and SRA to map the text information to the image object,and finally obtained the fusion feature output.Compared with other attention mechanisms,SA and SRA can better match text information to the image object area.The model is trained and verified on the VQAv2 dataset and achieves an accuracy of 64.01%on the VQAv2 dataset.

作者李智涛周之平叶琴 Li Zhitao;Zhou Zhiping;Ye Qin(School of Information Engineering,Nanchang Hangkong University,Nanchang 330063,China)

机构地区南昌航空大学信息工程学院

出处《计算机应用研究》 CSCD 北大核心 2021年第3期952-955,共4页 Application Research of Computers

基金国家自然科学基金资助项目(71761028)。

关键词视觉问答注意力机制多模态学习自注意力空间推理注意力 visual question answering(VQA) attention mechanism multimodal learning self-attention spatial reasoning attention

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1白林亭,文鹏程,李亚晖.基于深度学习的视觉问答技术研究[J].航空计算技术,2018,48(5):334-338. 被引量：8

共引文献7

1杨永耀.野生甜茶的开发与利用[J].茶叶机械杂志,2000(2):23-23. 被引量：3
2秦淑婧,杨关.增强视觉特征的视觉问答任务研究[J].中原工学院学报,2020,31(1):56-61.
3王青青,郭星晨,王亚.面向深度学习的视觉问答技术的分析[J].阜阳师范大学学报（自然科学版）,2020,37(4):71-76. 被引量：1
4文鹏程,白林亭,高泽,邹昌昊.机载智能计算技术工程实践思考[J].航空计算技术,2021,51(2):130-134. 被引量：2
5胡锦祥,孟朝晖.基于视频描述和阅读理解的视频问答研究[J].计算机应用研究,2021,38(12):3781-3785.
6孙红梅.统计图问答任务的神经网络算法研究[J].福建电脑,2022,38(3):5-9.
7胡婷,何利力.基于门控机制的联合关系推理视觉问答模型[J].智能计算机与应用,2023,13(12):138-143.

同被引文献11

1屠睿博,陈中华,王洪凯.基于随机森林算法的小鼠micro-CT影像中骨骼关节特征点定位[J].中国生物医学工程学报,2017,36(3):257-266. 被引量：7
2刘卓,马婧,洪楠,陈雷,陈尘.金属伪影削减算法在双能量CT引导肺结节微弹簧圈定位中的应用价值[J].临床放射学杂志,2018,37(9):1576-1579. 被引量：4
3吴晓元,常海涛,苟军年.Faster R-CNN定位后的工业CT图像缺陷分割算法研究[J].电子技术应用,2019,45(1):76-80. 被引量：8
4王保茎,秦全波,毛怡盛,孔玲,丁丹卉,张国富.基于深度协作表达的CT图像特征关联定位算法[J].生物医学工程研究,2019,38(4):426-428. 被引量：2
5吴军,崔玥,赵雪梅,陈睿星,徐刚.SSA-PointNet++:空间自注意力机制下的3D点云语义分割网络[J].计算机辅助设计与图形学学报,2022,34(3):437-448. 被引量：15
6黄柳婷,刘可欣,牛凯,常春,贺志强.基于深度学习的哮喘患者CT影像黏液栓自动识别[J].北京邮电大学学报,2022,45(4):58-63. 被引量：1
7郭艺,杜秋晨,吴朦朦,马鹏涛,李冠华.基于轻量级神经网络的新冠肺炎CT新型识别技术[J].中国医学物理学杂志,2022,39(10):1263-1269. 被引量：1
8陈曦,赵红东,杨东旭,徐柯南,任星霖,封慧杰.基于线性注意力机制的单样本生成对抗网络研究[J].计算机工程与科学,2022,44(11):2056-2063. 被引量：1
9王玲,周磊,王鹏,白燕娥.基于注意力机制和孪生网络的跟踪算法研究[J].计算机工程与应用,2022,58(23):161-168. 被引量：4
10魏颖,林子涵,齐林,李伯群.基于空间自注意力机制和深度特征重建的脑MR图像分割方法[J].东北大学学报（自然科学版）,2023,44(2):177-185. 被引量：3

引证文献1

1裴莉敏.基于空间自注意力机制的CT传播模型的感知定位算法研究[J].影像研究与医学应用,2023,7(14):145-147.

1康淑荷,苏琼,王欣.民族院校制药工程专业有机化学在线教学设计和实践[J].卫生职业教育,2021,39(3):44-46. 被引量：1
2毛正欢,杜瑜,王慧,朱佳雯,李海峰,丁利.Griffiths发育评估量表-中文版在注意缺陷多动障碍儿童中的发展水平结构模式分析[J].中国实用儿科杂志,2020,35(11):896-900. 被引量：8
3曾婷婷,宫阿都,陈艳玲,杨雨晴.基于历史相似案例空间推演的地震伤亡人口评估方法研究[J].地球信息科学学报,2020,22(11):2166-2176. 被引量：8

计算机应用研究

2021年第3期

浏览历史

内容加载中请稍等...

基于空间注意力推理机制的视觉问答算法研究被引量：1

参考文献1

共引文献7

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于空间注意力推理机制的视觉问答算法研究 被引量：1

参考文献1

共引文献7

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于空间注意力推理机制的视觉问答算法研究被引量：1