基于空间关系聚合与全局特征注入的视觉问答模型

A visual question answering model based on spatial relationship aggregation and global feature injection

下载PDF

导出

摘要现有视觉问答模型缺乏视觉对象间关系的理解能力,导致复杂问题的答案预测准确率较差;针对该问题,提出了一种基于空间关系聚合与全局特征注入的视觉问答模型。该模型首先利用空间关系聚合视觉区域特征,将其转换为视觉全局特征,并将这些特征注入网络;然后引入双边门控机制进行特征融合,使模型能够根据不同的问题输入,自适应地调整视觉全局特征和视觉区域特征对答案预测的贡献度;最后将融合特征输入分类网络,得到预测结果。在VQA 2.0和GQA公开数据集上进行实验,结果表明:该模型在VQA2.0的测试-开发集、测试-标准集和GQA的数据集上的总准确率分别达到71.12%、71.54%和57.71%,优于MCAN和SCAVQAN等主流模型。该模型由于引入了具有空间关系的视觉全局特征,能够更好地提升视觉对象间关系的理解能力,有效提高了视觉问答模型的准确率。 A visual question answering model based on spatial relationship aggregation and global feature injection was proposed aiming at the problem that the existing visual question answering models lack understanding of the relationship between visual objects and have low forecast accuracy.First,spatial relations were used for the model to aggregate visual regional features,which were subsequently transformed into visual global features,and injected into the network;then,by introducing a bilateral gating mechanism for feature fusion,the model could control the contribution of visual global features and visual regional features to answer prediction in an adaptive manner according to different question inputs;finally,the fusion features were input into the classification network to obtain the prediction results.Experiments were conducted on VQA 2.0 and GQA public datasets,and the results showed that the model achieved overall accuracy of 71.12%,71.54%,and 57.71%on VQA 2.0 test subsets Test-dev,Test-std,and GQA,superior to mainstream models MCAN and SCAVQAN.The model introduces visual global features with spatial relationships,which can better enhance the understanding ability of relationships between visual objects and effectively improve the accuracy of the visual question answering model.

作者陈巧红漏杨波方贤 CHEN Qiaohong;LOU Yangbo;FANG Xian(School of Computer Science and Technology,Zhejiang Sci-Tech University,Hangzhou 310018,China)

机构地区浙江理工大学计算机科学与技术学院

出处《浙江理工大学学报（自然科学版）》 2023年第6期764-774,共11页 Journal of Zhejiang Sci-Tech University(Natural Sciences)

基金浙江省自然科学基金项目(LQ23F020021) 浙江理工大学科研启动项目(22232262-Y)。

关键词视觉问答空间关系聚合全局特征注入视觉区域特征视觉全局特征双边门控机制 visual question answering spatial relationship aggregation global feature injection visual regional feature visual global feature bilateral gating mechanism

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1王源顺,段迅,吴云.一种新的seq2seq的可控图像字幕的生成方法[J].计算机应用研究,2021,38(11):3510-3516. 被引量：2
2陈巧红,孙佳锦,孙麒,贾宇波.基于多层跨模态注意力融合的图文情感分析[J].浙江理工大学学报（自然科学版）,2022,47(1):85-94. 被引量：3
3鲜荣,何小海,吴晓红,卿粼波.基于多模态双向导向注意的视觉问答[J].太赫兹科学与电子信息学报,2021,19(1):156-161. 被引量：1
4陈巧红,漏杨波,孙麒,贾宇波.基于多模态门控自注意力机制的视觉问答模型[J].浙江理工大学学报（自然科学版）,2022,47(3):413-423. 被引量：2

二级参考文献14

1杜海骏,刘学亮.融合约束学习的图像字幕生成方法[J].中国图象图形学报,2020,0(2):333-342. 被引量：4
2于进勇,丁鹏程,王超.卷积神经网络在目标检测中的应用综述[J].计算机科学,2018,45(B11):17-26. 被引量：37
3杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：309
4张凯,李军辉,周国栋.基于枢轴语言的图像描述生成研究[J].中文信息学报,2019,33(3):110-117. 被引量：3
5林景栋,吴欣怡,柴毅,尹宏鹏.卷积神经网络结构优化综述[J].自动化学报,2020,46(1):24-37. 被引量：113
6范涛,吴鹏,曹琪.基于深度学习的多模态融合网民情感识别研究[J].信息资源管理学报,2020,10(1):39-48. 被引量：19
7闫茹玉,刘学亮.结合自底向上注意力机制和记忆网络的视觉问答模型[J].中国图象图形学报,2020,25(5):993-1006. 被引量：13
8凌海彬,缪裕青,张万桢,周明,武继刚.多特征融合的图文微博情感分析[J].计算机应用研究,2020,37(7):1935-1939. 被引量：9
9林敏鸿,蒙祖强.基于注意力神经网络的多模态情感分析[J].计算机科学,2020,47(S02):508-514. 被引量：15
10谢豪,毛进,李纲.基于多层语义融合的图文信息情感分类研究[J].数据分析与知识发现,2021,5(6):103-114. 被引量：14

共引文献4

1陈潇艺.基于Seq2Seq的英语聊天机器人构建[J].自动化与仪器仪表,2022(7):242-246. 被引量：3
2祁铧颖,贺萍.跨模态数据融合综述[J].软件工程,2022,25(10):1-7. 被引量：4
3白如江,鞠孜涵,张玉洁,张亚辉,冯梦莹.面向情报感知的多源多模态数据融合方法研究[J].情报杂志,2023,42(10):124-131. 被引量：2
4侯倩,郝晓光,金飞,李剑锋.基于混合深度学习的风电功率预测及一次调频应用[J].热能动力工程,2023,38(10):167-175.

1武桐言,霍梦真,段海滨,邓亦敏.仿鹰眼-中脑机制的无人机空中加油显著性检测[J].航空学报,2023,44(20):161-172.
2谈伟.论康德对形而上学的实践转化——基于对哲学“哥白尼革命”意义之重释的探究[J].山东科技大学学报（社会科学版）,2023,25(5):14-26.

浙江理工大学学报（自然科学版）

2023年第6期

浏览历史

内容加载中请稍等...

基于空间关系聚合与全局特征注入的视觉问答模型

参考文献4

二级参考文献14

共引文献4

相关作者

相关机构

相关主题

浏览历史