基于多模态特征的视频密集描述生成方法被引量：1

A Dense Video Captioning Method Based on Multi-modal Features

下载PDF

导出

摘要根据视频内容自动生成文本序列的密集描述生成融合了计算机视觉与自然语言处理技术。现有密集描述生成方法多强调视频中的视觉与运动信息而忽略了其中的音频信息,关注事件的局部信息或简单的事件级上下文信息而忽略了事件间的时序结构和语义关系。为此,该文提出一种基于多模态特征的视频密集描述生成方法。该方法首先在动作提议生成阶段使用Timeception层作为基础模块以更好适应动作片段时间跨度的多样性,其次在动作提议生成和描述生成两阶段均利用音频特征增强提议和描述生成效果,最后使用时序语义关系模块建模事件间的时序结构和语义信息以进一步增强描述生成的准确性。特别地,该文还构建了一个基于学习场景的视频密集描述数据集SDVC以探究该文所提方法在学习场景现实应用中的有效性。在ActivityNet Captions和SDVC数据集上的实验结果表明,动作提议生成AUC值分别提升0.8%和6.7%;使用真实动作提议进行描述生成时,BLEU_3值分别提升1.4%和4.7%,BLEU_4值分别提升0.9%和5.3%;使用生成的动作提议进行描述生成时,SDVC数据集BLEU_3、BLEU_4值分别提升2.3%和2.2%。 Dense video captioning can automatically generate sentence sequence corresponding to video content,involving issues in both computer vision and natural language processing.To capture the audio information as well as the temporal structure and semantic relationship between events,this paper proposes a dense video captioning method based on multi-modal features.Firstly,Timeception layer is used as basic module in action proposal generation stage to better adapt various time span of action segments.Secondly,audio features are used to enhance the effect of proposal and description generation stages.Finally,the temporal semantic relation module models the temporal structure and semantic information between events to further enhance the accuracy of description generation.In addition,this paper also constructs a dataset named SDVC to explore the effectiveness of this method in application of real learning scene.The experimental results on ActivityNet Captions and SDVC datasets show that the AUC of action proposal generation increases by 0.8%and 6.7%,respectively;and in turn,using generated action proposals for description generation,BLEU_3 and BLEU_4 of SDVC dataset increased by 2.3%and 2.2%,respectively.

作者马苗陈小秋田卓钰 MA Miao;CHEN Xiaoqiu;TIAN Zhuoyu(School of Computer Science,Shaanxi Normal University,Xi'an,Shaanxi 710119,China;Key Laboratory of Modern Teaching Technology of Ministry of Education(Shaanxi Normal University),Xi'an,Shaanxi 710062,China)

机构地区陕西师范大学计算机科学学院现代教学技术教育部重点实验室(陕西师范大学)

出处《中文信息学报》 CSCD 北大核心 2022年第11期156-168,共13页 Journal of Chinese Information Processing

基金国家自然科学基金(61877038,U2001205) 陕西师范大学研究生创新团队项目课题(TD2020044Y)。

关键词密集描述生成多模态特征时序结构语义关系 dense video captioning multi-modal features temporal structure semantic relationship

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1汤鹏杰,王瀚漓.从视频到语言:视频标题生成与描述研究综述[J].自动化学报,2022,48(2):375-397. 被引量：11
2王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：26
3马苗,王伯龙,吴琦,武杰,郭敏.视觉场景描述及其效果评价[J].软件学报,2019,30(4):867-883. 被引量：5

二级参考文献8

1王洁.计算机识别汉语语法偏误的可行性分析[J].语言文字应用,2011(1):135-142. 被引量：4
2李学龙,史建华,董永生,陶大程.场景图像分类技术综述[J].中国科学：信息科学,2015,45(7):827-848. 被引量：30
3汤鹏杰,谭云兰,李金忠,谭彬.密集帧率采样的视频标题生成[J].计算机科学与探索,2018,12(6):981-993. 被引量：2
4汤鹏杰,王瀚漓,许恺晟.LSTM逐层多目标优化及多层概率融合的图像描述[J].自动化学报,2018,44(7):1237-1249. 被引量：27
5谭咏梅,杨一枭,杨林,刘姝雯.基于LSTM和N-gram的ESL文章的语法错误自动纠正方法[J].中文信息学报,2018,32(6):19-27. 被引量：8
6胡建芳,王熊辉,郑伟诗,赖剑煌.RGB-D行为识别研究进展及展望[J].自动化学报,2019,45(5):829-840. 被引量：13
7周波,李俊峰.结合目标检测的人体行为识别[J].自动化学报,2020,46(9):1961-1970. 被引量：18
8龚小谨,罗振声,骆卫华.中文文本自动校对中的语法错误检查[J].计算机工程与应用,2003,39(8):98-100. 被引量：13

共引文献39

1张生盛,庞桂娜,杨麟儿,王辰成,杜永萍,杨尔弘,黄雅平.面向汉语作为第二语言学习的个性化语法纠错[J].中文信息学报,2021,35(12):28-35. 被引量：3
2王子斌,张全,谢聪,余沛,余泓江,李沣庭.基于知识图谱与BERT的安全领域汉字文本纠错模型[J].计算机应用,2023,43(S01):75-80.
3魏强.债转股运作过程中应当注意的问题[J].金融理论与实践,2000(3):30-32. 被引量：3
4高逸凡,王勇.一种基于目标检测与词性分析的图像描述算法[J].计算机与现代化,2021(3):108-114.
5段建勇,袁阳,王昊.基于Transformer局部信息及语法增强架构的中文拼写纠错方法[J].北京大学学报（自然科学版）,2021,57(1):61-67. 被引量：10
6郭琰,张矛.基于深度学习的语法纠错算法建模研究[J].信息技术,2021,45(4):148-152. 被引量：7
7曹磊,万旺根.基于动态视觉注意的多语言视频描述算法[J].工业控制计算机,2021,34(7):62-64.
8孙劭芃,汪颢懿,左敏,张青川.基于深度学习的食品安全领域实体关系抽取研究[J].中国酿造,2021,40(7):231-236. 被引量：1
9赵国红.中文语法纠错方法的研究综述[J].现代计算机,2021,27(28):65-69. 被引量：5
10王志强.多媒体课件的视觉传播效果评价系统设计[J].济源职业技术学院学报,2022,21(1):51-57. 被引量：1

引证文献1

1陈劭武,胡慧君,刘茂福.基于事件最大边界的密集视频描述方法[J].中国科技论文,2024,19(2):169-177.

1司马双霖,黄岩,何科技,安东,袁辉,王亮.视觉语言导航研究进展[J].自动化学报,2023,49(1):1-14. 被引量：1
2徐文文,王裴岩,张桂平,蔡东风.基于深度学习的制造工艺过程自动生成方法研究[J].计算机应用与软件,2022,39(12):96-101.
3刘江鹏,牛群峰,靳毅,陈霞,王莉,袁强.基于高效通道注意力机制与多尺度特征融合的烟丝图像识别方法研究[J].河南农业科学,2022,51(11):145-154. 被引量：1
4潘梦竹,李千目,邱天.深度多模态表示学习的研究综述[J].计算机工程与应用,2023,59(2):48-64. 被引量：3
5颜秀芳,陈基明,黄后宝,万强,朱浩雨,刘厚军,梅光宝.多参数磁共振定性及定量评估前列腺癌包膜外侵犯的价值[J].皖南医学院学报,2022,41(6):577-580. 被引量：2
6翁小英.任务群视域下沉浸式阅读教学策略探究——以统编版小学语文六年级下册《奋斗的历程》教学为例[J].福建基础教育研究,2022(12):37-39. 被引量：1
7刘爽.浅谈高中数学生活化教学策略[J].散文选刊（中旬刊）,2023(2):134-135.
8王美楠.数字教育+人文行走,推动黄浦终身教育发展[J].康复,2022(12):56-56.
9夏雪强,杨军平,任伟,黄菊花,罗后根,郭毅.基于不同附着系数的电动汽车再生制动策略[J].南昌大学学报（工科版）,2022,44(4):373-380. 被引量：1
10叶凡,王丙雨,韩勇,叶赛峰,余意.正碰下6岁儿童乘员的胸部运动学方程与损伤风险分析[J].汽车安全与节能学报,2022,13(4):617-624.

中文信息学报

2022年第11期

浏览历史

内容加载中请稍等...

基于多模态特征的视频密集描述生成方法被引量：1

参考文献3

二级参考文献8

共引文献39

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多模态特征的视频密集描述生成方法 被引量：1

参考文献3

二级参考文献8

共引文献39

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多模态特征的视频密集描述生成方法被引量：1