利用全局与局部帧级特征进行基于共享注意力的视频问答被引量：1

Multi-Shared Attention with Global and Local Pathways for Video Question Answering

下载PDF

导出

摘要视频问答是视觉理解领域中非常重要且具有挑战性的任务。目前的视觉问答(VQA)方法主要关注单个静态图片的问答,而现实生活中的数据是立体动态的视频。此外,由于问题的复杂性,视频问答任务必须根据问答问题恰当地处理多种视觉特征才能获得高质量的答案。文中提出了一个通过利用局部和全局帧级别的视觉信息来进行视频问答的多共享注意力网络。具体来说,以不同帧率提取视频帧,并以此提取帧级的全局与局部视觉特征,这两种特征包含了多个帧级别特征,用于对视频时间动态建模,再以共享注意力的形式建模全局与局部视觉特征的相关性,然后结合文本问题来推断答案。在天池视频问答数据集上进行了大量的实验,验证了所提方法的有效性。 Video question answering is a challenging task of significant importance toward visual understanding.However,current visual question answering(VQA)methods mainly focus on a single static image,which is distinct from the sequential visual data we faced in the real world.In addition,due to the diversity of textual questions,the VideoQA task has to deal with various visual features to obtain the answers.This paper presents a multi-shared attention network by utilizing local and global frame-level visual information for video question answering(VideoQA).Specifically,a two-pathway model is proposed to capture the global and local frame-level features with different frame rates.The two pathways are fused together with the multi-shared attention by sharing the same attention funtion.Extensive experiments are conducted on Tianchi VideoQA dataset to validate the effectiveness of the proposed method.

作者王雷全候文艳袁韶祖赵欣林瑶吴春雷 WANG Lei-quan;HOU Wen-yan;YUAN Shao-zu;ZHAO Xin;LIN Yao;WU Chun-lei(College of Computer Science and Technology,China University of Petroleum,Qingdao,Shandong 266555,China;College of Oceanography and Space Informatics,China University of Petroleum,Qingdao,Shandong 266555,China)

机构地区中国石油大学(华东)计算机科学与技术学院中国石油大学(华东)海洋与空间信息学院

出处《计算机科学》 CSCD 北大核心 2021年第8期145-149,共5页 Computer Science

基金科技部重点研发计划(2018YFC1406204),中央高校基本科研业务费专项资金(19CX05003A-11)。

关键词视频问答共享注意力机制全局和局部帧级特征 Video question answering Shared attention mechanism Global and local pathways

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1许振雷,董洪伟.基于先验MASK注意力机制的视频问答方案[J].计算机工程,2021,47(2):52-59. 被引量：2

二级参考文献2

1李亚超,熊德意,张民.神经机器翻译综述[J].计算机学报,2018,41(12):2734-2755. 被引量：106
2张菁,陈庆奎.基于注意力机制的狭小空间人群拥挤度分析[J].计算机工程,2020,46(9):254-260. 被引量：4

共引文献1

1张伟.基于关系感知双重注意力融合的视觉问答技术[J].南京工程学院学报（自然科学版）,2021,19(3):80-84.

同被引文献10

1魏江平,林家骏,陈宁.多特征非接触式测谎技术[J].华东理工大学学报（自然科学版）,2020,46(4):556-563. 被引量：1
2花明,李冬冬,王喆,高大启.基于帧级特征的端到端说话人识别[J].计算机科学,2020,47(10):169-173. 被引量：2
3何章锦,陈晨,张金,黎峰,张家琦,蓝文威,高军峰.多通道EEG信号小波相干分析的测谎研究[J].电子测量与仪器学报,2020,32(10):156-162. 被引量：3
4邢红涛,郭江龙,张颖,刘书安,刘波,常志伟.基于变量选择和XGBoost组合模型的NOx排放预测[J].自动化与仪器仪表,2021(7):21-25. 被引量：7
5Xing Zhu,Jian Chu,Kangda Wang,Shifan Wu,Wei Yan,Kiefer Chiam.Prediction of rockhead using a hybrid N-XGBoost machine learning framework[J].Journal of Rock Mechanics and Geotechnical Engineering,2021,13(6):1231-1245. 被引量：7
6张中沉,张军.基于STM32单片机的大学生体能监测仪设计与实现[J].计算机测量与控制,2022,30(2):292-298. 被引量：7
7曹鹏飞,肖志飞,文建博,郭青盛,秦立静,刘欢.基于STM32的节水灌溉系统设计[J].电子设计工程,2022,30(6):16-19. 被引量：7
8聂子轩.心理学脑电技术在刑侦测谎中的应用[J].广东公安科技,2022,30(2):49-51. 被引量：1
9徐端倪,胡智林.基于多模态融合的心理测试仪自动评估系统检测研究[J].自动化与仪器仪表,2022(9):156-160. 被引量：4
10黄耀,雷景生.基于帧级骨架拓展类特征的人体动作实时检测技术[J].计算机应用与软件,2022,39(10):175-183. 被引量：1

引证文献1

1童欢欢.基于XGBoost算法的多参数心理测试仪优化研究[J].自动化与仪器仪表,2023(10):218-222.

1田枫,孙小强,刘芳,李婷玉,张蕾,刘志刚.融合双注意力与多标签的图像中文描述生成方法[J].计算机系统应用,2021,30(7):32-40. 被引量：3
2欣风.货架奇观[J].上海轻工业,2020(3):4-7.
3朱玉俊,武亚南,赵宇培.Gaussian软件在波谱分析教学中的应用[J].广州化工,2021,49(13):151-153. 被引量：4

计算机科学

2021年第8期

浏览历史

内容加载中请稍等...

利用全局与局部帧级特征进行基于共享注意力的视频问答被引量：1

参考文献1

二级参考文献2

共引文献1

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

利用全局与局部帧级特征进行基于共享注意力的视频问答 被引量：1

参考文献1

二级参考文献2

共引文献1

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

利用全局与局部帧级特征进行基于共享注意力的视频问答被引量：1