MSAM:针对视频问答的多阶段注意力模型被引量：1

MSAM:Video Question Answering Based on Multi-Stage Attention Model

下载PDF

导出

摘要视频问答(VideoQA)任务需要理解视频和问题中的语义信息生成答案。目前,基于注意力模型的VideoQA方法很难完全理解和准确定位与问题相关的视频信息。为解决上述问题,提出一种基于注意力机制的多阶段注意力模型网络(MSAMN)。该网络将视频、音频以及文本等多模态特征输入到多阶段注意力模型(MSAM)中,通过逐阶段的定位方式精准找到与回答问题相关的视频信息,用于答案生成。为了提高特征融合的有效性,提出一种三模态压缩级联双线性(TCCB)算法计算不同模态特征之间的相关性。MASMN在ZJL数据集上进行实验,平均准确率均为54.3%,比传统方法提高了近15%,比现有方法提高了近7%。 The video question answering(VideoQA)task requires understanding of semantic information of both the video and question to generate the answer.At present,it is difficult for VideoQA methods that are based on attention model to fully understand and accurately locate video information related to the question.To solve this problem,a multi-stage attention model network(MSAMN)is proposed.This network extracts multi-modal features such as video,audio and text and feeds these features into the multi-stage attention model(MSAM),which is able to accurately locate the video information through a stage-by-stage localization method.In order to improve the effectiveness of feature fusion,a triple-modal compact concat bilinear(TCCB)algorithm is proposed to calculate the correlation between different modal features.This network is tested on the ZJL dataset.The average accuracy rate is 54.3%,which is nearly 15%higher than the traditional method and nearly 7%higher than the exist method.

作者梁丽丽刘昕雨孙广路朱素霞 LIANG Li-li;LIU Xin-yu;SUN Guang-lu;ZHU Su-xia(School of Computer Science and Technology,Harbin University of Science and Technology,Harbin 150080,China)

机构地区哈尔滨理工大学计算机科学与技术学院

出处《哈尔滨理工大学学报》 CAS 北大核心 2022年第4期107-117,共11页 Journal of Harbin University of Science and Technology

基金黑龙江省高等学校教学改革项目(SJGY20200320) 国家自然科学基金(60903083) (61702140) 黑龙江省留学归国人员科学基金(LC2018030) 黑龙江省普通高校基本科研业务费专项资金(JMRH2018XM04) 黑龙江省自然科学基金(LH2021F032).

关键词视频问答多阶段注意力模型多模态特征融合 video question answering multi-stage attention model multi-modal feature fusion

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1刘建伟,丁熙浩,罗雄麟.多模态深度学习综述[J].计算机应用研究,2020,37(6):1601-1614. 被引量：39

二级参考文献3

1刘宇鹏,马春光,张亚楠.深度递归的层次化机器翻译模型[J].计算机学报,2017,40(4):861-871. 被引量：28
2侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：78
3梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(8):1724-1735. 被引量：134

共引文献38

1陆芳,魏李婷.大数据背景下大学生学习状态研究的方法探析[J].黑龙江高教研究,2019,37(12):143-148. 被引量：10
2孙影影,贾振堂,朱昊宇.多模态深度学习综述[J].计算机工程与应用,2020,56(21):1-10. 被引量：30
3董国亚,宋立明,李雅芬,李文,谢耀钦.基于深度学习的跨模态医学图像转换[J].中国医学物理学杂志,2020,37(10):1335-1339. 被引量：2
4钟连超,魏鸿瞻,董心,彭晓静,郑洁皎.步态适应性训练在脑卒中康复中应用的研究进展[J].中国康复理论与实践,2021,27(1):54-59. 被引量：13
5张乐华.近十年宣传片的多模态研究综述[J].江西电力职业技术学院学报,2021,34(3):136-137. 被引量：2
6吕露露,黄毅,高君宇,杨小汕,徐常胜.多模态零样本人体动作识别[J].中国图象图形学报,2021,26(7):1658-1667. 被引量：3
7陈烨,周刚,卢记仓.多模态知识图谱构建与应用研究综述[J].计算机应用研究,2021,38(12):3535-3543. 被引量：34
8任鑫伟,江先亮.面向MOOC平台的课程推荐研究综述[J].宁波大学学报（理工版）,2022,35(1):48-56. 被引量：3
9宋云峰,任鸽,杨勇,樊小超.基于注意力的多层次混合融合的多任务多模态情感分析[J].计算机应用研究,2022,39(3):716-720. 被引量：17
10欧阳淑冰,陈伟涛,李显巨,董玉森,王力哲.植被覆盖区高精度遥感地貌场景分类数据集[J].遥感学报,2022,26(4):606-619. 被引量：3

同被引文献4

1杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：25
2杨清溪,张丽红.基于语义信息的场景识别方法研究[J].测试技术学报,2021,35(6):521-528. 被引量：2
3余宙,俞俊,朱俊杰,匡振中.融合知识表征的多模态Transformer场景文本视觉问答[J].中国图象图形学报,2022,27(9):2761-2774. 被引量：1
4闫悦,郭晓然,王铁君,饶强,王铠杰.问答系统研究综述[J].计算机系统应用,2023,32(8):1-18. 被引量：2

引证文献1

1段毛毛,连培榆,史海涛.动态视音场景下问答模型研究[J].计算机技术与发展,2024,34(3):163-169.

1东海炭素美国工厂环保项目取得重大进展[J].聚合物与助剂,2020(5):63-63.
2东海炭素上调美国产炭黑价格并加收环保附加费[J].聚合物与助剂,2019,0(5):66-66.
3王瑞平,吴士泓,张美航,王小平.视觉问答语言处理方法综述[J].计算机工程与应用,2022,58(17):50-60. 被引量：3
4付雷,秦一杰,何顶新,刘智伟.基于改进人工势场法的多机器人编队避障[J].控制工程,2022,29(3):388-396. 被引量：11
5徐静.计算机类专业PBL教学法的教学策略探究与实践[J].无线互联科技,2022,19(11):163-165. 被引量：1
6张醒醒.基于不规则棱柱网络的低碳多式联运路径研究[J].中国物流与采购,2022(17):110-111.
7Maduike C. O. Ezeibe,Favour Onyeachonam,Mary E. Sanda,Ijeoma J. Ogbonna,Ekenma Kalu,Njoku U. Njoku,Munachi Udobi.Electrostatic Mopping of Viruses with Medicinal Synthetic Aluminum-Magnesium Silicate {Al4(SiO4)3+ 3Mg2SiO4→ 2Al2Mg3(SiO4)3}, for Quick Cure of COVID-19: A Better Control Measure[J].Open Journal of Epidemiology,2021,11(3):278-283.
8朱省委,宋玥,郑栋梁,熊光磊,梁君威.基于神经网络的垃圾分类箱系统设计[J].电子制作,2022,30(16):32-35.
9Maduike C. O. Ezeibe,Ijeoma J. Ogbonna.Medicinal Synthetic Aluminum-Magnesium Silicate {Al4(SiO4)3 + 3Mg2SiO4 → 2Al2Mg3(SiO4)3} —A Highly Active Anti-Retroviral Medicine[J].World Journal of AIDS,2016,6(2):42-46. 被引量：2
10刘卫平.转言:古诗词高效备考之路[J].中学语文教学参考,2022(19):71-73.

哈尔滨理工大学学报

2022年第4期

浏览历史

内容加载中请稍等...

MSAM:针对视频问答的多阶段注意力模型被引量：1

参考文献1

二级参考文献3

共引文献38

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

MSAM:针对视频问答的多阶段注意力模型 被引量：1

参考文献1

二级参考文献3

共引文献38

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

MSAM:针对视频问答的多阶段注意力模型被引量：1