利用图像描述与知识图谱增强表示的视觉问答被引量：4

Exploiting image captions and external knowledge as representation enhancement for VQA

导出

摘要视觉问答作为多模态任务,需要深度理解图像和文本问题从而推理出答案。然而在许多情况下,仅在图像和问题上进行简单推理难以得到正确的答案,事实上还有其他有效的信息如图像描述、外部知识等可以被利用。该文提出了利用图像描述和外部知识增强表示的视觉问答模型。该模型以问题为导向,基于协同注意力机制分别在图像和其描述上进行编码,并且利用知识图谱嵌入,将外部知识编码到模型当中,丰富了模型的特征表示,增强了模型的推理能力。在OKVQA数据集上的实验结果表明,该方法相比基线方法有1.71%的准确率提升,与已有的主流模型相比也有1.88%的准确率提升,证明了该方法的有效性。 As a multimodal task, visual question answering(VQA) requires a comprehensive understanding of images and questions. However, conducting reasoning simply on images and questions may fail in some cases. Other information that can be used for the task, such as image captions and external knowledge base, exists. A novel approach is proposed in this paper to incorporate information on image captions and external knowledge into VQA models. The proposed approach adopts the co-attention mechanism and encodes image captions with the guidance from the question to utilize image captions. Moreover, the approach incorporates external knowledge by using knowledge graph embedding as the initialization of word embeddings. The above methods enrich the capability of feature representation and model reasoning. Experimental results on the OKVQA dataset show that the proposed method achieves an improvement of 1.71% and 1.88% over the baseline and best-reported previous systems, respectively, which proved the effectiveness of this method.

作者王屹超朱慕华许晨张琰王会珍朱靖波 WANG Yichao;ZHU Muhua;XU Chen;ZHANG Yan;WANG Huizhen;ZHU Jingbo(Natural Language Processing Lab,School of Computer Science and Engineering,Northeastern University,Shenyang 110000,China)

机构地区东北大学计算机科学与工程学院

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2022年第5期900-907,共8页 Journal of Tsinghua University(Science and Technology)

基金国家自然科学基金重点项目(61732005) 国家自然科学基金面上项目(61876035)。

关键词视觉问答多模态融合知识图谱图像描述 visual question answering multimodal fusion knowledge graph image captioning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献14

1曾志强,吴群,廖备水,高济.一种基于核SMOTE的非平衡数据集分类方法[J].电子学报,2009,37(11):2489-2495. 被引量：49
2李勇,成红红,梁新彦,郭倩,钱宇华.CNN图像标题生成[J].西安电子科技大学学报,2019,46(2):152-157. 被引量：7
3顾迎捷,桂小林,李德福,沈毅,廖东.基于神经网络的机器阅读理解综述[J].软件学报,2020,31(7):2095-2126. 被引量：40
4樊湘鹏,许燕,周建平,李志磊,彭炫,王小荣.基于迁移学习和改进CNN的葡萄叶部病害检测系统[J].农业工程学报,2021,37(6):151-159. 被引量：33
5张俊三,程俏俏,万瑶,朱杰,张世栋.MIRGAN:一种基于GAN的医学影像报告生成模型[J].山东大学学报（工学版）,2021,51(2):9-18. 被引量：4
6程换新,张志浩,刘文翰,郭占广.基于生成对抗网络的图像识别[J].计算机技术与发展,2021,31(6):175-180. 被引量：2
7李永,成梦雅.LSTM船舶航迹预测模型[J].计算机技术与发展,2021,31(9):149-154. 被引量：11
8ZHAO Dexin,YANG Ruixue,GUO Shutao.A lightweight convolutional neural network for large-scale Chinese image caption[J].Optoelectronics Letters,2021,17(6):361-366. 被引量：1
9贾伟宽,孟虎,马晓慧,赵艳娜,Ji Ze,郑元杰.基于优化Transformer网络的绿色目标果实高效检测模型[J].农业工程学报,2021,37(14):163-170. 被引量：15
10彭宁,陈爱斌,周国雄,陈文洁,刘晶.基于正弦注意力表征网络的环境声音识别[J].应用科学学报,2021,39(4):641-649. 被引量：5

引证文献4

1谢州益,冯亚枝,胡彦蓉,刘洪久.基于ResNet18特征编码器的水稻病虫害图像描述生成[J].农业工程学报,2022,38(12):197-206. 被引量：12
2陆以勤,潘周双,张洋,覃健诚,黄方.基于交互式连接图注意力网络的知识图谱补全方法[J].华南理工大学学报（自然科学版）,2022,50(12):13-19. 被引量：2
3施峰,周坤晓.基于注意力机制的双打分式机器阅读理解模型[J].信息技术与信息化,2023(1):167-171.
4苏振强,苟刚.联合知识和视觉信息推理的视觉问答研究[J].计算机工程与应用,2024,60(5):95-102.

二级引证文献14

1袁嘉辉,刘蕊,梁虹,周祥.基于SE-ResNet34的红火蚁巢穴判别模型[J].电子测量技术,2023,46(23):97-104. 被引量：2
2李志臣,凌秀军,李鸿秋,李志军.基于改进ShuffleNet的板栗分级方法[J].山东农业大学学报（自然科学版）,2023,54(2):299-307. 被引量：3
3张国忠,吕紫薇,刘浩蓬,刘婉茹,龙长江,黄成龙.基于改进DenseNet和迁移学习的荷叶病虫害识别模型[J].农业工程学报,2023,39(8):188-196. 被引量：8
4钱建煜,沈利,沈纪约,姜志锋,林泽钰,倪瑜那.基于人机交互的发电知识图谱动态更新研究与应用[J].电力大数据,2023,26(10):58-66. 被引量：1
5陈远哲,王巧华,范维,刘世伟,林卫国.二维相关光谱图像结合深度学习用于皮蛋成熟度的高光谱无损检测[J].食品科学,2023,44(24):286-296.
6朱志平,杨燕,王杰.基于场景图感知的跨模态图像描述模型[J].计算机应用,2024,44(1):58-64.
7宋文韬,姜茹月,舒欣.基于零样本学习的枸杞虫害识别[J].江苏农业学报,2024,40(2):320-330.
8郭惠萍,曹亚州,王晨思,荣麟瑞,李怡,王霆伟,杨福增.基于迁移学习的苹果落叶病识别与应用[J].农业工程学报,2024,40(3):184-192. 被引量：4
9吴越,孙海春.基于图神经网络的知识图谱补全研究综述[J].数据分析与知识发现,2024,8(3):10-28. 被引量：2
10朱波,胡朋,刘宇晨,张冀武.基于CSS-Cascade Mask R-CNN的有遮挡多片烟叶部位识别[J].农业工程学报,2024,40(9):271-280.

1杨有,方小龙,邓毅,吴春燕,姚露.融入视觉常识和注意力的图像描述[J].微电子学与计算机,2022,39(6):51-59.
2景全亮,范鑫鑫,王保利,毕经平,谭海宁.基于多模态深度融合的假消息检测[J].高技术通讯,2022,32(4):392-403.
3杨驰,王建标,杨思明,洪文明,王斌.实践性多模态融合教学法在神经外科培训中的运用[J].中华全科医学,2022,20(6):1049-1051. 被引量：6
4潘高威,史晋芳,邱荣,王慧丽,万情,张志威,王凯.一种针对激光诱导击穿光谱技术的基线校正方法[J].应用光学,2022,43(3):538-543. 被引量：3
5于敬,石京京,刘文海.基于文本语义匹配的物品相关推荐算法[J].电子技术与软件工程,2022(7):206-211. 被引量：1
6李云龙,余正涛,高盛祥,郭军军,彭仁杰.基于案件要素指导及深度聚类的新闻与案件相关性分析[J].中文信息学报,2021,35(11):60-69. 被引量：1
7苏玉兰,陈鑫,洪宇,朱朦朦,张民.基于语义空间距离的相似问句识别方法研究[J].中文信息学报,2021,35(12):36-46.

清华大学学报（自然科学版）

2022年第5期

浏览历史

内容加载中请稍等...

利用图像描述与知识图谱增强表示的视觉问答被引量：4

同被引文献14

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

利用图像描述与知识图谱增强表示的视觉问答 被引量：4

同被引文献14

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

利用图像描述与知识图谱增强表示的视觉问答被引量：4