基于深度学习的视频描述方法研究综述被引量：8

An overview of video captioning method base on deep learning

下载PDF

导出

摘要随着深度学习技术在计算机视觉领域与自然语言处理领域的突破性进展,图像描述和视频描述的跨模态研究不断涌现.由于视频的时序特征以及视频内容的多样性与复杂性,视频描述相对于图像描述来说具有更大的挑战.视频描述的方法可以归纳为两类:基于模板的方法和基于编码-解码的方法.本文将着重介绍采用深度学习技术的编码-解码方法,文章首先对模型结构的发展做了分析与比较,其次对现有的方法做了归纳与总结.接着,介绍了一些比较有影响力的数据集和评测标准,最后对尚未解决的关键问题与研究难点做了总结与介绍. As a new cross-model task which connects computer vision and natural language processing,video captioning has drawn wide attention from the research because of the breakthrough of deep learning technology.Due to the temporal characteristics of video and the diversity and complexity of video content,video description is more challenging than image description.Video captioning methods can be classified into two categories:generation-based method and encoder-decoder method.This survey focuses on the method of using the encoder-decoder framework based on deep learning approaches to generate the natural language description for video sequences.Firstly,this paper analyzes the model structure and summarizes existing methods;also introduces some the different dataset used for video captioning and various evaluation parameters used for measuring the performance of different video captioning models.Finally,the key technical problems in video captioning task are analyzed and prospected.

作者常志赵德新 CHANG Zhi;ZHAO De-xin(School of Computer Science and Engineering,Tianjin Key Laboratory of Intelligence Computing and Novel Software Technology,Tianjin University of Technology,Tianjin 300384,China)

机构地区天津理工大学

出处《天津理工大学学报》 2020年第6期17-23,共7页 Journal of Tianjin University of Technology

基金国家自然科学基金(61202169).

关键词深度学习视频描述编码-解码 deep learning video captioning encode-decode

分类号 TP37 [自动化与计算机技术—计算机系统结构] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献21

1魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁.从视觉到文本:图像描述生成的研究进展综述[J].中文信息学报,2020(7):19-29. 被引量：14
2王大伟,陈章玲.基于LBP与卷积神经网络的人脸识别[J].天津理工大学学报,2017,33(6):41-45. 被引量：10
3陈星.基于机器视觉的电解电容器外观检测系统设计[J].制造技术与机床,2018(8):144-148. 被引量：5
4朱晓凡,严国平,钟飞,黄振.电解电容视觉定位算法研究[J].湖北工业大学学报,2020,35(2):18-21. 被引量：1
5杨锋,许玉,尹梦晓,符嘉成,黄冰,梁芳烜.基于深度学习的行人重识别综述[J].计算机应用,2020,40(5):1243-1252. 被引量：11
6郭淑涛,赵德新.一种基于深度学习的中文图像描述模型[J].天津理工大学学报,2020,36(3):30-35. 被引量：4
7包晓敏,王志豪,杨旭.基于机器视觉的PCB板电解电容极性检测[J].测控技术,2020,39(10):62-66. 被引量：4
8万家山,吴云志.基于深度学习的文本分类方法研究综述[J].天津理工大学学报,2021,37(2):41-47. 被引量：22
9吴杰,段锦,董锁芹,李英超.DFM-GAN网络在跨年龄模拟的人脸识别技术研究[J].计算机工程与应用,2021,57(10):117-124. 被引量：3
10毋琳,白澜,孙梦伟,郭拯危.基于特征优化的SAR图像水华识别方法[J].计算机科学,2021,48(9):194-199. 被引量：3

引证文献8

1曹磊,万旺根.基于动态视觉注意的多语言视频描述算法[J].工业控制计算机,2021,34(7):62-64.
2祁冰.视频检索技术的关键问题研究[J].信息记录材料,2021,22(8):66-68. 被引量：1
3石驰宇,周冕.基于检测、重识别和社会长短型记忆网络的多目标行人跟踪[J].天津理工大学学报,2022,38(2):23-28. 被引量：4
4吴佩伦,蒋勇,高琳.融合视觉特征和语义关系特征的视觉故事生成方法[J].西南科技大学学报,2022,37(3):44-51.
5贾岩松,温显斌.面向姿势多样性问题的行人重识别方法[J].天津理工大学学报,2023,39(4):46-52.
6王权,温显斌.基于注意力胶囊网络的合成孔径雷达图像分类模型研究[J].天津理工大学学报,2023,39(6):42-48.
7刘宏利,于斌.基于深度学习的电解电容表面视觉检测[J].天津理工大学学报,2024,40(1):77-83.
8靳若华,白凡,张洪豪.基于多任务学习的特征融合跨年龄人脸识别研究[J].天津理工大学学报,2024,40(1):84-91. 被引量：1

二级引证文献6

1渠波洋.视频检索技术在广播电视监管中的应用研究[J].电声技术,2021,45(12):67-69.
2贾岩松,温显斌.面向姿势多样性问题的行人重识别方法[J].天津理工大学学报,2023,39(4):46-52.
3梁懿,张双根.基于韦布尔分布下改进型恒虚警检测器的检测性能分析[J].天津理工大学学报,2024,40(2):54-62.
4李亚飞,刘娜,周惠,杨雷.运动场景下小目标检测算法设计[J].仪表技术,2024(3):1-6. 被引量：1
5颜德彪,黄婧.基于深度学习的人脸识别算法改进与实践[J].电脑编程技巧与维护,2024(9):100-102.
6孙娜,李毅.基于时间卷积脉冲神经网络的超表面信号识别[J].天津理工大学学报,2024,40(6):87-93.

1夏全洲,于国亮.兆瓦级风力发电机组机舱罩振动模态研究[J].装备维修技术,2020(9):0079-0079.
2魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁.从视觉到文本:图像描述生成的研究进展综述[J].中文信息学报,2020(7):19-29. 被引量：14
3赵瑞,严昊,席柯,温志湧.声学超表面抑制第一模态研究[J].航空科学技术,2020,31(11):104-112. 被引量：7
4朱耀麟,胡向东,武桐.STM32F429的红外遥控信号解码方法[J].单片机与嵌入式系统应用,2020,20(12):70-74.
5徐长英,赖伟财,陈英.基于深度学习的印刷体文档字符识别的研究[J].现代电子技术,2020,43(23):72-75. 被引量：8

天津理工大学学报

2020年第6期

浏览历史

内容加载中请稍等...

基于深度学习的视频描述方法研究综述被引量：8

同被引文献21

引证文献8

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于深度学习的视频描述方法研究综述 被引量：8

同被引文献21

引证文献8

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于深度学习的视频描述方法研究综述被引量：8