一种基于多模态深度特征融合的视觉问答模型被引量：3

Visual Question Answering Model Based on Multi-modal Deep Feature Fusion

下载PDF

导出

摘要大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。 In the era of big data,with the explosive growth of multi-source heterogeneous data,multi-modal data fusion has attracted much attention of researchers,and visual question answering(VQA)has become a hot topic in multi-modal data fusion due to its image and text fusion processing characteristics.Visual Q&A task is mainly based on the deep feature fusion association and representation of image and text multi-modal data,and inference learning of the fusion feature results,so as to get the conclusion.Traditional visual question answering models tend to miss key information and mostly focus on the superficial modal feature association representation learning between data,but less on the deep semantic feature fusion.To solve the above pro-blems,this paper proposes a visual question answering model based on cross-modal deep interaction of of graphic features.The proposed method uses convolutional neural network and LSTM network to obtain the data features of image and text modes respectively,and builds a novel deep attention learning network based on combination of meta-attention units,to realize interactive learning of attention features within or between modes of image and text.At last,we represent the learning features so as to output the results.The model is tested and evaluated on VQA-v2.0 dataset.Compared with the traditional baseline model,the expe-rimental results show that the performance of the proposed model is significantly improved.

作者邹芸竹杜圣东滕飞李天瑞 ZOU Yunzhu;DU Shengdong;TENG Fei;LI Tianrui(Institute of Computer and Artificial Intelligence,Southwest Jiaotong University,Chengdu 611756,China;National Engineering Laboratory of Integrated Transportation Big Data Application Technology,Chengdu 611756,China)

机构地区西南交通大学计算机与人工智能学院综合交通大数据应用技术国家工程实验室

出处《计算机科学》 CSCD 北大核心 2023年第2期123-129,共7页 Computer Science

基金国家科技重大专项(2020AAA0105101)。

关键词视觉问答多模态特征融合注意力机制深度学习数据融合 Visual question answering Multi-modal feature fusion Attention mechanism Deep learning Data fusion

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1武阿明,姜品,韩亚洪.基于视觉和语言的跨媒体问答与推理研究综述[J].计算机科学,2021,48(3):71-78. 被引量：3
2杜海骏,刘学亮.融合约束学习的图像字幕生成方法[J].中国图象图形学报,2020,0(2):333-342. 被引量：5
3徐守坤,倪楚涵,吉晨晨,李宁.基于YOLOv3的施工场景安全帽佩戴的图像描述[J].计算机科学,2020,47(8):233-240. 被引量：20
4周远侠,于津.基于深度学习的图片问答系统设计研究[J].计算机应用与软件,2018,35(12):199-208. 被引量：4
5庄美琪,谭小慧,樊亚春,程厚森.基于卷积神经网络的三维动画表情生成及情感监督方法[J].重庆理工大学学报（自然科学）,2022,36(1):151-158. 被引量：5
6徐胜,祝永新.视觉问答中问题处理算法研究[J].计算机科学,2020,47(11):226-230. 被引量：2
7孟祥申,江爱文,刘长红,叶继华,王明文.基于Spatial-DCTHash动态参数网络的视觉问答算法[J].中国科学：信息科学,2017,47(8):1008-1022. 被引量：3
8顾砾,季怡,刘纯平.基于多模态特征融合的三维点云分类方法[J].计算机工程,2021,47(2):279-284. 被引量：15
9付鹏程,杨关,刘小明,刘阳,张紫明,成曦.基于空间关系与频率特征的视觉问答模型[J].计算机工程,2022,48(9):96-104. 被引量：4
10邹品荣,肖锋,张文娟,张万玉,王晨阳.面向视觉问答的多模块协同注意模型[J].计算机工程,2022,48(2):250-260. 被引量：6

二级参考文献14

1刘彬,戴桂平.基于白化检验和3σ准则的小波阈值去噪算法[J].传感技术学报,2005,18(3):473-476. 被引量：20
2范雪莉,冯海泓,原猛.基于互信息的主成分分析特征选择算法[J].控制与决策,2013,28(6):915-919. 被引量：103
3王晋疆,陈阳,田庆国,常天宇.一种基于点签名的散乱点云特征点检测方法[J].计算机工程,2014,40(7):174-178. 被引量：6
4蒋树强,闵巍庆,王树徽.面向智能交互的图像识别技术综述与展望[J].计算机研究与发展,2016,53(1):113-122. 被引量：92
5沈超.移动终端交互行为分析的身份主动认证与安全感知[J].中国教育网络,2016(11):37-37. 被引量：1
6刘礼才,李锐光,殷丽华,郭云川,项菲.面向移动智能设备的多特征融合隐式鉴别机制研究[J].电子学报,2016,44(11):2713-2719. 被引量：4
7俞俊,汪亮,余宙.视觉问答技术研究[J].计算机研究与发展,2018,55(9):1946-1958. 被引量：21
8周远侠,于津.基于深度学习的图片问答系统设计研究[J].计算机应用与软件,2018,35(12):199-208. 被引量：4
9赵中阳,程英蕾,释小松,秦先祥,李鑫.基于多尺度特征和PointNet的LiDAR点云地物分类方法[J].激光与光电子学进展,2019,56(5):243-250. 被引量：37
10张璐,沈忱林,李寿山.基于情绪特定词向量的情绪分类算法[J].计算机科学,2019,46(B06):93-97. 被引量：6

共引文献81

1刘浩,刘海滨,孙宇,王竞陶,黄辉.煤矿井下员工不安全行为智能识别系统[J].煤炭学报,2021,46(S02):1159-1169. 被引量：26
2周华平,郭依文,孙克雷.基于改进YOLOv5的安全帽佩戴检测算法[J].安徽理工大学学报（自然科学版）,2022,42(3):99-108.
3赵梓杉,桑海峰.基于改进的YOLOv5的交通锥标检测系统[J].电子测量与仪器学报,2023,37(2):56-64. 被引量：3
4陶友山.姚桥矿井改扩建工程移交生产[J].煤矿设计,2000(5):11-12.
5石乐义,朱红强,刘祎豪,刘佳.基于相关信息熵和CNN-BiLSTM的工业控制系统入侵检测[J].计算机研究与发展,2019,56(11):2330-2338. 被引量：46
6闫茹玉,刘学亮.结合自底向上注意力机制和记忆网络的视觉问答模型[J].中国图象图形学报,2020,25(5):993-1006. 被引量：13
7邓硙,汪剑鸣,金光浩.基于Yes/No反馈的视觉问答方法[J].模式识别与人工智能,2020,33(11):1043-1053.
8王孟,李伟,高荣,王飒.基于三维点云深度学习的路面异物检测[J].计算机系统应用,2021,30(2):160-165. 被引量：1
9沈佳敏,鲍秉坤.基于深度学习的广告布局图片美学属性评价[J].计算机技术与发展,2021,31(3):39-44. 被引量：1
10邱一城,杨立身.结合残差学习和双模态CAE的图像描述方法[J].光学技术,2021,47(1):93-100.

同被引文献8

1薛艳飞,毛启容,张建明.基于多任务学习的多语言语音情感识别方法[J].计算机应用研究,2021,38(4):1069-1073. 被引量：5
2陈婷,王玉德,任志伟.基于问题增强的问题引导图像视觉问答算法[J].通信技术,2022,55(2):166-173. 被引量：1
3兰红,张蒲芬.问题引导的空间关系图推理视觉问答模型[J].中国图象图形学报,2022,27(7):2274-2286. 被引量：4
4邹品荣,肖锋,张文娟,黄姝娟,张万玉.融合场景语义与空间关系的视觉问答[J].西安工业大学学报,2023,43(1):56-65. 被引量：1
5张昊雨,张德.基于图结构的级联注意力视觉问答模型[J].计算机工程与应用,2023,59(6):155-161. 被引量：1
6刘潇,刘书洋,庄韫恺,高阳.强化学习可解释性基础问题探索和方法综述[J].软件学报,2023,34(5):2300-2316. 被引量：12
7赵延玉,赵晓永,王磊,王宁宁.可解释人工智能研究综述[J].计算机工程与应用,2023,59(14):1-14. 被引量：6
8张一飞,孟春运,蒋洲,栾力,Ernest Domanaanmwi Ganaa.可解释的视觉问答研究进展[J].计算机应用研究,2024,41(1):10-20. 被引量：1

引证文献3

1张一飞,孟春运,蒋洲,栾力,Ernest Domanaanmwi Ganaa.可解释的视觉问答研究进展[J].计算机应用研究,2024,41(1):10-20. 被引量：1
2李健,张倩,陈海丰,李晶,王丽燕,裴二成.基于感知重采样和多模态融合的连续情感识别[J].计算机应用研究,2023,40(12):3816-3820.
3唐蕾,牛园园,王瑞杰,行本贝,王一婷.强化学习的可解释方法分类研究[J].计算机应用研究,2024,41(6):1601-1609.

二级引证文献1

1唐蕾,牛园园,王瑞杰,行本贝,王一婷.强化学习的可解释方法分类研究[J].计算机应用研究,2024,41(6):1601-1609.

1王靖豪,刘箴,刘婷婷,王媛怡,柴艳杰.基于多层次特征融合注意力网络的多模态情感分析[J].中文信息学报,2022,36(10):145-154. 被引量：6
2陈丹.水的组成探究[J].科学大众（科学中考）,2022(10):55-57.
3魏小莉.“对分课堂”模式在中学课堂教学中的应用探研[J].成才之路,2023(6):121-124. 被引量：2
4刘沛然.基于智能教育领域的多模态数据融合应用研究[J].智能城市,2022,8(11):13-15.
5孟晓静,康思远,曹莹雪.太阳能驱动的无动力风帽作用下工业厂房通风量研究[J].工业安全与环保,2023,49(2):98-101.
6陈月月,李燕,帅亚琦,徐丽娜,钟昕妤.基于BERT-CRF的中文分词模型设计[J].电脑知识与技术,2022,18(35):4-6. 被引量：2
7郭春,龙开天,杨璐.城市综合管廊通风摩阻系数实验设计[J].实验技术与管理,2023,40(1):56-61. 被引量：2
8贺亚运,彭俊清,王健宗,肖京.节奏舞者:基于关键动作转换图和有条件姿态插值网络的3D舞蹈生成方法研究[J].大数据,2023,9(1):23-37.
9贡力,贾治元,王鸿,李义强,宫雪磊.冰-砼碰撞在输水隧洞中的力学特性机理[J].振动．测试与诊断,2023,43(1):16-23.
10高梦璇,沈颖.英国《早期基础阶段法定框架》关于幼儿有效学习特征的解读与启示[J].幼儿教育,2023(3):93-96.

计算机科学

2023年第2期

浏览历史

内容加载中请稍等...

一种基于多模态深度特征融合的视觉问答模型被引量：3

参考文献14

二级参考文献14

共引文献81

同被引文献8

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于多模态深度特征融合的视觉问答模型 被引量：3

参考文献14

二级参考文献14

共引文献81

同被引文献8

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于多模态深度特征融合的视觉问答模型被引量：3