基于关系感知双重注意力融合的视觉问答技术

Visual Question-answer Technology of Dual Attention Fusion Based on Relational Perception

下载PDF

导出

摘要传统视觉问答技术仅采用简单的位置注意力,缺乏语义注意力,从而引起问题推理错误.本文采用双重注意力机制从图像获取位置信息和语义信息,以外积形式进行融合,获得文本也采用双重注意力融合实体和对应关系的信息,帮助理解问题.双重注意力动态方式可以实现关系融合、动态学习,改变传统静态学习方式.以多标签分类器实现答案推理,减少传统二分类带来的偶然性.将视觉问答技术模型在数据集上进行验证,结果表明,本文方法有效提高了答案推理的准确性. Errors of problem reasoning related to traditional visual question-answer technology arise from the lack of semantic attention due to application of simple positional attention.Location information and semantic information are obtained from images by using dual attention form,and then fused in the form of outer product.Dual attention form is also adopted to fuse entity and the corresponding information of texts,which help to understand problems.The dual-attention dynamic method,therefore,can be used to complete relationship fusion,dynamic learning,thus improving the traditional static learning method.Then a multi-label classifier is used to reduce the contingency caused by traditional two-class classification.The VQA model is validated in the data set VQA 2.0,VQ-CP V2 and Visual Genome,improving the accuracy of answer inference.

作者张伟 ZHANG Wei(Institute of Science and Technology, Changzhou Open University, Changzhou 213000, China)

机构地区常州开放大学理工学院

出处《南京工程学院学报（自然科学版）》 2021年第3期80-84,共5页 Journal of Nanjing Institute of Technology(Natural Science Edition)

关键词关系感知双重注意力视觉问答 relationship perception dual attention visual question and answer

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1王青青,郭星晨,王亚.面向深度学习的视觉问答技术的分析[J].阜阳师范大学学报（自然科学版）,2020,37(4):71-76. 被引量：1
2谭娅娅,孔广黔.基于深度学习的视频质量评价研究综述[J].计算机科学与探索,2021,15(3):423-437. 被引量：4
3高鸿斌,毛金莹,王会勇.K-VQA:一种知识图谱辅助下的视觉问答方法[J].河北科技大学学报,2020,41(4):315-326. 被引量：3
4闫茹玉,刘学亮.结合自底向上注意力机制和记忆网络的视觉问答模型[J].中国图象图形学报,2020,25(5):993-1006. 被引量：14
5许振雷,董洪伟.基于先验MASK注意力机制的视频问答方案[J].计算机工程,2021,47(2):52-59. 被引量：2
6胡向阳,孙宪坤,尹玲,李世玺,张仕森.基于多变量LSTM的GPS坐标时间序列预测模型[J].传感器与微系统,2021,40(3):40-43. 被引量：9

二级参考文献23

1魏二虎,柴华.GPS精密星历插值方法的比较研究[J].全球定位系统,2006,31(5):13-15. 被引量：60
2夏显峰,王姮,张华,熊伟.基于微机械惯性器件的GPS实时姿态测量系统[J].传感器与微系统,2010,29(8):141-144. 被引量：4
3赵亮,兰孝奇,盛建岳.ARIMA模型在卫星钟差预报中的应用[J].水利与建筑工程学报,2012,10(1):135-137. 被引量：12
4张勇,金伟其.小波域结构相似度融合图像质量评价方法[J].中国激光,2012,39(B06):355-359. 被引量：8
5祝燕华,蔡体菁,李春.提高GPS精度的差分定位定速算法[J].传感器与微系统,2012,31(11):122-124. 被引量：13
6王志明.无参考图像质量评价综述[J].自动化学报,2015,41(6):1062-1079. 被引量：111
7常远,林伟华,徐战亚,刘福江,张宏强,刘超群.滑动Neville插值算法在GPS精密星历插值中的应用研究[J].测绘地理信息,2017,42(1):53-56. 被引量：8
8杨观赐,杨静,李少波,胡建军.基于Dopout与ADAM优化器的改进CNN算法[J].华中科技大学学报（自然科学版）,2018,46(7):122-127. 被引量：111
9余昉恒,沈海斌.一种跨层连接的循环神经网络门结构设计[J].传感器与微系统,2018,37(8):91-93. 被引量：3
10易利容,王绍宇,殷丽丽,杨青,顾欣.基于多变量LSTM的工业传感器时序数据预测[J].智能计算机与应用,2018,8(5):13-16. 被引量：40

共引文献26

1孙广路,吴猛,邱景,梁丽丽.针对长视频问答的深度记忆融合模型[J].哈尔滨理工大学学报,2021,26(1):1-8. 被引量：1
2王雷全,候文艳,袁韶祖,赵欣,林瑶,吴春雷.利用全局与局部帧级特征进行基于共享注意力的视频问答[J].计算机科学,2021,48(8):145-149. 被引量：1
3邱南,顾玉宛,石林,李宁,庄丽华,徐守坤.基于复合图文特征的视觉问答模型研究[J].计算机应用研究,2021,38(8):2293-2298.
4赵启承,虞雁凌.基于长短期记忆神经网络的生命体触电电流检测[J].传感器与微系统,2022,41(1):142-145. 被引量：4
5邹品荣,肖锋,张文娟,张万玉,王晨阳.面向视觉问答的多模块协同注意模型[J].计算机工程,2022,48(2):250-260. 被引量：6
6李磊,李晓猛,付一博,焦瑞华.数据驱动的故障预测方法研究[J].测控技术,2022,41(5):66-74. 被引量：6
7陈巧红,漏杨波,孙麒,贾宇波.基于多模态门控自注意力机制的视觉问答模型[J].浙江理工大学学报（自然科学版）,2022,47(3):413-423. 被引量：2
8兰红,张蒲芬.问题引导的空间关系图推理视觉问答模型[J].中国图象图形学报,2022,27(7):2274-2286. 被引量：4
9董锐.基于光流法和结构相似度的无线视频质量评价方法[J].河南工程学院学报（自然科学版）,2022,34(3):65-68. 被引量：2
10丁凯旋,陈雁翔,赵鹏铖,朱玉鹏,盛振涛.多负例对比机制下的跨模态表示学习[J].计算机工程与应用,2022,58(19):184-192. 被引量：1

1蔡菡,许亚军,黄书才,刘伟,王小泉.尼古丁对男性精神分裂症患者认知功能的影响[J].皖南医学院学报,2021,40(3):268-271.
2资讯[J].健与美,2021(8):128-128.
3刘昕,白婷婷,张淯舒,钱茛南,何旭莉,席永轲.基于EA-LDA算法的领域知识图谱潜在关系扩展[J].计算机工程,2021,47(10):89-96. 被引量：1
4吴芸,刘璐.三位一体导向:慧劳动课程设计与实施[J].中小学班主任,2021(18):56-57.
5姜剑,孙聂枫,孙同年,王书杰,邵会民,刘惠生.InP籽晶表面处理的装置设计与工艺优化[J].半导体技术,2021,46(8):658-662.
6钱鹤轩.基于建筑信息模型(BIM)的三维协同设计在施工组织设计中的应用[J].河南科技,2021,40(13):70-72. 被引量：4
7何晓龙,胡明政.浅谈物联网技术在智慧消防中的应用[J].商业2.0（经济管理）,2021(15):0268-0268.
8张洪.图像处理系统的设计与实现[J].电子乐园,2021(5):13-13.
9樊海玮,史双,蔺琪,孙欢,秦佳杰.复杂背景下SAR图像船舶目标检测算法研究[J].计算机技术与发展,2021,31(10):49-55. 被引量：3
10周嘉儒,卢鹏,王庆凯,解飞,李润玲.基于视频图像获取冰面特征的自动检测算法研究[J].水利科学与寒区工程,2021,4(5):60-65. 被引量：1

南京工程学院学报（自然科学版）

2021年第3期

浏览历史

内容加载中请稍等...

基于关系感知双重注意力融合的视觉问答技术

参考文献6

二级参考文献23

共引文献26

相关作者

相关机构

相关主题

浏览历史