基于动态视觉注意的多语言视频描述算法

Multilingual Video Captioning Algorithm Based on Dynamic Attention

下载PDF

导出

摘要针对视频描述任务,提出一种基于动态视觉注意的多语言视频描述算法。基于基础编解码结构,提取视频片段的时空特征信息和语义属性信息,用以视频表达。在解码阶段,两层长短期记忆网络构成的解码框架分别处理时空和语义信息,并通过嵌入注意力模块和动态选择模块,使得整个模型在有能力关注最重要信息出现时刻的同时,还能动态选择当前时刻最佳信息用以生成描述词。基于整个网络实现,通过共享编解码器的方式,在公开大型视频描述数据集VATEX上实现多语言描述生成方法,并测试提出方法生成描述语句的准确度,与基准方法相比,取得较好效果。 A multilingual video captioning algorithm based on dynamic visual attention is proposed for video captioning task in this paper.Based on the basic encoder-decoder structure,the spatiotemporal feature information and semantic attribute information of video clips are extracted for video expression.In the decoder,the decoder composed of two layers of long short term memory deals with spatiotemporal and semantic information respectively.By embedding an attention module and a dynamic selection module,the whole model can pay attention to the moment when the most important information appears,and dynamically select the best information at the current moment to generate words.Based on the whole network implementation,a multilingual video captioning method is implemented on a large public video captioning data set VATEX by sharing encoder-decoder,and the accuracy of the proposed method is tested in this paper.Compared with the benchmark method,a better result is achieved.

作者曹磊万旺根

机构地区上海大学通信与信息工程学院上海大学智慧城市研究院

出处《工业控制计算机》 2021年第7期62-64,共3页 Industrial Control Computer

基金上海市科委港澳台科技合作项目(18510760300) 中国博士后基金项目(2020M681264)。

关键词视频描述语义属性长短期记忆网络动态注意力多语言 video captioning semantic attribute long short term memory dynamic attention multilingual

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1汤鹏杰,王瀚漓.从视频到语言:视频标题生成与描述研究综述[J].自动化学报,2022,48(2):375-397. 被引量：11
2常志,赵德新.基于深度学习的视频描述方法研究综述[J].天津理工大学学报,2020,36(6):17-23. 被引量：8

二级参考文献4

1汤鹏杰,谭云兰,李金忠,谭彬.密集帧率采样的视频标题生成[J].计算机科学与探索,2018,12(6):981-993. 被引量：2
2汤鹏杰,王瀚漓,许恺晟.LSTM逐层多目标优化及多层概率融合的图像描述[J].自动化学报,2018,44(7):1237-1249. 被引量：27
3胡建芳,王熊辉,郑伟诗,赖剑煌.RGB-D行为识别研究进展及展望[J].自动化学报,2019,45(5):829-840. 被引量：13
4周波,李俊峰.结合目标检测的人体行为识别[J].自动化学报,2020,46(9):1961-1970. 被引量：18

共引文献17

1祁冰.视频检索技术的关键问题研究[J].信息记录材料,2021,22(8):66-68. 被引量：1
2盘晓芳,杨大伟,毛琳.密集视频描述中单词级遗忘度优化算法[J].大连民族大学学报,2022,24(3):218-225.
3石驰宇,周冕.基于检测、重识别和社会长短型记忆网络的多目标行人跟踪[J].天津理工大学学报,2022,38(2):23-28. 被引量：3
4吴佩伦,蒋勇,高琳.融合视觉特征和语义关系特征的视觉故事生成方法[J].西南科技大学学报,2022,37(3):44-51.
5马苗,陈小秋,田卓钰.基于多模态特征的视频密集描述生成方法[J].中文信息学报,2022,36(11):156-168. 被引量：1
6李公全,李智国,李卫星,高栋.自然语言生成技术及其在军事领域应用[J].中国电子科学研究院学报,2022,17(10):935-942. 被引量：1
7毛琳,高航,杨大伟,张汝波.视频描述中链式语义生成网络[J].光学精密工程,2022,30(24):3198-3209.
8郭丹,姚沈涛,王辉,汪萌.嵌入局部聚类描述符的视频问答Transformer模型[J].计算机学报,2023,46(4):671-689. 被引量：1
9赵宏,陈志文,郭岚,安冬.基于ViT与语义引导的视频内容描述生成[J].计算机工程,2023,49(5):247-254.
10黄先开,张佳玉,王馨宇,王晓川,刘瑞军.密集视频描述研究方法综述[J].计算机工程与应用,2023,59(12):28-48. 被引量：2

1赵幸辉.“互联网+”智能化商业空间的使用意向因素研究[J].宿州学院学报,2021,36(4):73-76. 被引量：1
2付燕,马钰,叶鸥.融合深度学习和视觉文本的视频描述方法[J].科学技术与工程,2021,21(14):5855-5861. 被引量：3
3喻国明,杨雅,陈雪娇.平台视域下全国居民疫苗接种的认知、意愿及影响要素——基于五大互联网平台的舆情大数据分析[J].新闻界,2021(7):64-72. 被引量：14
4吴三美,田良苏,陈家侨,陈广耀,王敬欣.中文阅读中无关言语效应的认知机制探究:眼动证据[J].心理学报,2021,53(7):729-745. 被引量：3
5张璇.浅议短视频新闻的叙事与表达策略[J].新闻世界,2021(7):42-44. 被引量：4
6徐金鹏,刘宜成,涂海燕,成鸿群.基于System Generator的稀疏编码算法设计及硬件实现[J].实验技术与管理,2021,38(5):42-49.
7谢堂,沈瑞雪,梁浩,吴居豪,陶建华.基于特征参数化的木工CAD/CAM系统[J].装备制造技术,2021(4):165-169.

工业控制计算机

2021年第7期

浏览历史

内容加载中请稍等...

基于动态视觉注意的多语言视频描述算法

参考文献2

二级参考文献4

共引文献17

相关作者

相关机构

相关主题

浏览历史