基于潜在特征增强网络的视频描述生成方法

Video Description Generation Method Based on Latent Feature Augmented Network

下载PDF

导出

摘要视频描述生成旨在用自然语言描述视频中的物体及其相互作用。现有方法未充分利用视频中的时空语义信息,限制了模型生成准确描述语句的能力。为此,提出一种用于视频描述生成的潜在特征增强网络(LFAN)模型。利用不同的特征提取器提取外观特征、运动特征和目标特征,将对象级的目标特征分别和帧级的外观特征与运动特征融合,同时对融合后的不同特征进行增强,在生成描述前利用图神经网络和长短时记忆网络推理对象之间的时空关系,从而得到具有时空信息和语义信息的潜在特征,同时使用长短时记忆网络和门控循环单元的解码器生成视频的描述语句。该网络模型能够准确地学习到对象特征,进而引导生成更准确的词汇及与对象之间的关系。在MSVD和MSR-VTT数据集上的实验结果表明,LFAN模型可以显著提高生成描述语句的准确性,并与视频中的内容呈现出更好的语义一致性,在MSVD数据集上的BLEU@4和ROUGE-L分数分别为57.0和74.1,在MSRVTT数据集上分别为43.8和62.1。 Video description generation aims to use natural language to describe objects and their interactions in videos.The existing methods do not fully utilize the spatio-temporal semantic information in videos,which limits the model's ability to generate accurate descriptive statements.To this end,a Latent Feature Augmented Network(LFAN)model is proposed for video description generation.Different feature extractors are used to extract appearance,motion,and target features,thereby fusing object level target features with frame level appearance and motion features.Concurrently,the fused different features are enhanced.Before generating descriptions,graph neural and long short-term memory networks are used to infer the spatio-temporal relationships between objects,thereby obtaining potential features with spatio-temporal and semantic information.Finally,a decoder using both a long short-term memory network and a gated loop unit is used to generate a description statement for the video.This network model can accurately learn object features and guide the generation of more accurate vocabulary and relationships with objects.The experimental results on MSVD and MSR-VTT datasets show that the LFAN model can significantly improve the accuracy of generating descriptive statements,exhibiting better semantic consistency with the content in the video.The BLEU@4 and ROUGE-L scores are 57.0 and 74.1 on MSVD,respectively,and 43.8 and 62.1 on the MSR-VTT dataset.

作者李伟健胡慧君 LI Weijian;HU Huijun(School of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan 430065,Hubei,China)

机构地区武汉科技大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 北大核心 2024年第2期266-272,共7页 Computer Engineering

基金国家自然科学基金(62271359)。

关键词视频描述生成潜在特征增强网络时空语义信息图神经网络特征融合 video description generation latent feature augmented network spatio-temporal semantic information graph neural networks feature fusion

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1付燕,马钰,叶鸥.融合深度学习和视觉文本的视频描述方法[J].科学技术与工程,2021,21(14):5855-5861. 被引量：3
2汤鹏杰,王瀚漓.从视频到语言:视频标题生成与描述研究综述[J].自动化学报,2022,48(2):375-397. 被引量：11
3侯静怡,齐雅昀,吴心筱,贾云得.跨语言知识蒸馏的视频中文字幕生成[J].计算机学报,2021,44(9):1907-1921. 被引量：3

二级参考文献7

1汤鹏杰,谭云兰,李金忠,谭彬.密集帧率采样的视频标题生成[J].计算机科学与探索,2018,12(6):981-993. 被引量：2
2汤鹏杰,王瀚漓,许恺晟.LSTM逐层多目标优化及多层概率融合的图像描述[J].自动化学报,2018,44(7):1237-1249. 被引量：27
3彭宇新,綦金玮,黄鑫.多媒体内容理解的研究现状与展望[J].计算机研究与发展,2019,56(1):183-208. 被引量：32
4胡建芳,王熊辉,郑伟诗,赖剑煌.RGB-D行为识别研究进展及展望[J].自动化学报,2019,45(5):829-840. 被引量：13
5程秋菊,陈国平,王璐,管春.基于卷积神经网络的毫米波图像目标检测[J].科学技术与工程,2020,20(13):5224-5229. 被引量：6
6蔡凯,李新福,田学东.基于时空显著性检测的3D视频生成方法[J].科学技术与工程,2020,20(21):8709-8715. 被引量：1
7周波,李俊峰.结合目标检测的人体行为识别[J].自动化学报,2020,46(9):1961-1970. 被引量：18

共引文献12

1曹磊,万旺根.基于动态视觉注意的多语言视频描述算法[J].工业控制计算机,2021,34(7):62-64.
2盘晓芳,杨大伟,毛琳.密集视频描述中单词级遗忘度优化算法[J].大连民族大学学报,2022,24(3):218-225.
3王小银,吕硕,孙家泽,杨宜康.基于生成对抗网络的医学诊断模型知识蒸馏对抗攻击方法[J].西安交通大学学报,2022,56(7):76-85. 被引量：1
4阮杰,蒋畅,朱静洁,戴玲娜,李荣生,高飞,李鹏.轻量型简约人脸线条画生成方法[J].西安工程大学学报,2022,36(5):45-52.
5马苗,陈小秋,田卓钰.基于多模态特征的视频密集描述生成方法[J].中文信息学报,2022,36(11):156-168. 被引量：1
6李公全,李智国,李卫星,高栋.自然语言生成技术及其在军事领域应用[J].中国电子科学研究院学报,2022,17(10):935-942. 被引量：1
7毛琳,高航,杨大伟,张汝波.视频描述中链式语义生成网络[J].光学精密工程,2022,30(24):3198-3209.
8郭丹,姚沈涛,王辉,汪萌.嵌入局部聚类描述符的视频问答Transformer模型[J].计算机学报,2023,46(4):671-689. 被引量：1
9赵宏,陈志文,郭岚,安冬.基于ViT与语义引导的视频内容描述生成[J].计算机工程,2023,49(5):247-254.
10黄先开,张佳玉,王馨宇,王晓川,刘瑞军.密集视频描述研究方法综述[J].计算机工程与应用,2023,59(12):28-48. 被引量：2

1任剑洪,曾勍炜,李向军,龚政,刘方.融合语义增强与多注意力机制的视频描述方法[J].南昌大学学报（理科版）,2023,47(6):548-555.
2陈淑琴,钟忺,黄文心,卢炎生.基于混合训练与语义关联的视频描述算法[J].华中科技大学学报（自然科学版）,2023,51(11):67-74.
3杜娟.基于改进CNN嵌入注意力的多因素心理问题智能化评估系统设计[J].自动化与仪器仪表,2023(10):131-134.
4郝旭光.基于注意力特征融合网络的DGA恶意域名检测方法[J].网络安全与数据治理,2024,43(1):19-27.
5朱慧斌,何章鸣,王炯琦,王宇昂,周海银.基于MSVD-AE的航天器电源系统故障检测方法[J].空间控制技术与应用,2023,49(5):80-88.
6阳帆,魏宪,郭杰龙,郑建漳,兰海.基于生成式自监督学习的对抗样本分类算法[J].微电子学与计算机,2024,41(2):11-18.
7李冠彬,张锐斐,刘梦梦,刘劲,林倞.语言结构引导的可解释视频语义描述[J].软件学报,2023,34(12):5905-5920.
8晏远翔,曹国,张友强.基于 Wasserstein 距离与生成对抗网络的高光谱图像分类[J].计算机系统应用,2024,33(2):13-22.
9喻婷,刘珊珊,赵静,蒋艳,邓蓉.4种肌少症筛查工具在慢性肝病患者中应用的性能比较[J].International Journal of Nursing Sciences,2024,11(1):3-10.
10蒲清昕,刘明顺,朱煜昆,朱益华,贺先强,朱灵子.基于改进粒子群算法优化长短时记忆神经网络的孤网电压控制方法[J].自动化与仪器仪表,2023(12):247-251. 被引量：1

计算机工程

2024年第2期

浏览历史

内容加载中请稍等...

基于潜在特征增强网络的视频描述生成方法

参考文献3

二级参考文献7

共引文献12

相关作者

相关机构

相关主题

浏览历史