从视频到语言:视频标题生成与描述研究综述被引量：11

From Video to Language:Survey of Video Captioning and Description

下载PDF

导出

摘要视频标题生成与描述是使用自然语言对视频进行总结与重新表达.由于视频与语言之间存在异构特性,其数据处理过程较为复杂.本文主要对基于“编码−解码”架构的模型做了详细阐述,以视频特征编码与使用方式为依据,将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法,并对各类模型进行了归纳与总结.最后,对当前存在的问题及可能趋势进行了总结与展望,指出需要生成融合情感、逻辑等信息的结构化语段,并在模型优化、数据集构建、评价指标等方面进行更为深入的研究. The task of video captioning and description is to summarize and re-express the visual content of video with natural language/text.It is challenging because it involves the transformation of different modal information,and there exists heterogeneity between the visual data and language.In this work,the models based on the“encoder-decoder”pipeline are mainly elaborated in detail.According to the encoding and usage of visual features,the current models are classified into four types:the models based on mean/max pooling feature,the models based on video sequential memory,the models based on 3D CNN feature,and the models based on hybrid features.A number of popular works of each type are described and analyzed.Finally,the existing problems and possible trends worth studying are summarized.It is pointed out that the prior knowledge including emotion and logical semantics in complex videos should be further mined and embedded for the generation of logical paragraph description.Moreover,it is still desired to further investigate the techniques of model optimization,dataset construction and evaluation metrics for video captioning and description.

作者汤鹏杰王瀚漓 TANG Peng-Jie;WANG Han-Li(College of Electronics and Information Engineering,Jing-gangshan University,Ji'an 343009;Department of Com-puter Science and Technology,Tongji University,Shanghai 201804;Key Laboratory of Embedded System and Service Computing(Ministry of Education),Tongji University,Shang-hai 200092;Shanghai Institute of Intelligent Science and Technology,Tongji University,Shanghai 200092)

机构地区井冈山大学电子与信息工程学院同济大学计算机科学与技术系嵌入式系统与服务计算教育部重点实验室(同济大学) 同济大学上海智能科学与技术研究院

出处《自动化学报》 EI CAS CSCD 北大核心 2022年第2期375-397,共23页 Acta Automatica Sinica

基金国家自然科学基金(62062041,61976159,61962003) 上海市科技创新行动计划项目(20511100700) 江西省自然科学基金(20202BAB202017,20202BABL202007) 井冈山大学博士启动基金(JZB1923)资助。

关键词视频描述卷积神经网络循环神经网络语段生成情感表达逻辑语义 Video description convolutional neural network recurrent neural network paragraph generation emotion expression logical semantics

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1胡建芳,王熊辉,郑伟诗,赖剑煌.RGB-D行为识别研究进展及展望[J].自动化学报,2019,45(5):829-840. 被引量：13
2周波,李俊峰.结合目标检测的人体行为识别[J].自动化学报,2020,46(9):1961-1970. 被引量：18
3汤鹏杰,谭云兰,李金忠,谭彬.密集帧率采样的视频标题生成[J].计算机科学与探索,2018,12(6):981-993. 被引量：2
4汤鹏杰,王瀚漓,许恺晟.LSTM逐层多目标优化及多层概率融合的图像描述[J].自动化学报,2018,44(7):1237-1249. 被引量：27

二级参考文献13

1刘鑫,许华荣,胡占义.基于GPU和Kinect的快速物体重建[J].自动化学报,2012,38(8):1288-1297. 被引量：48
2王鑫,沃波海,管秋,陈胜勇.基于流形学习的人体动作识别[J].中国图象图形学报,2014,19(6):914-923. 被引量：30
3王亮,胡卫明,谭铁牛.人运动的视觉分析综述[J].计算机学报,2002,25(3):225-237. 被引量：276
4蒋树强,闵巍庆,王树徽.面向智能交互的图像识别技术综述与展望[J].计算机研究与发展,2016,53(1):113-122. 被引量：92
5段艳杰,吕宜生,张杰,赵学亮,王飞跃.深度学习在控制领域的研究现状与展望[J].自动化学报,2016,42(5):643-654. 被引量：146
6郭潇逍,李程,梅俏竹.深度学习在游戏中的应用[J].自动化学报,2016,42(5):676-684. 被引量：22
7张红斌,姬东鸿,尹兰,任亚峰.基于梯度核特征及N-gram模型的商品图像句子标注[J].计算机科学,2016,43(5):269-273. 被引量：5
8朱煜,赵江坤,王逸宁,郑兵兵.基于深度学习的人体行为识别算法综述[J].自动化学报,2016,42(6):848-857. 被引量：130
9王伟凝,王励,赵明权,蔡成加,师婷婷,徐向民.基于并行深度卷积神经网络的图像美感分类[J].自动化学报,2016,42(6):904-914. 被引量：53
10奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：220

共引文献56

1李卉,何晶,程富强,王晓薇,詹炳光.基于LSTM模型的卫星电源系统异常检测方法[J].装甲兵工程学院学报,2019,33(3):90-96. 被引量：3
2王立刚,张志佳,李晋,范莹莹,刘立强.基于卷积神经网络的LED灯类字体数字识别[J].电子测量与仪器学报,2020(11):148-154. 被引量：8
3陈威,祁伟彦,袁福香,李哲敏.基于时间序列与横截面数据的吉林省水稻产量预测对比分析[J].中国农业信息,2018,30(5):91-101. 被引量：5
4王星峰.基于CNN和LSTM的智能文本分类[J].辽东学院学报（自然科学版）,2019,26(2):126-132. 被引量：2
5巫红霞,谢强.基于加权社区检测与增强人工蚁群算法的高维数据特征选择[J].计算机应用与软件,2019,36(9):285-292. 被引量：7
6刘昊俣,贺诗波,陈积明.数据驱动的高速铁路强风报警自适应解除策略[J].自动化学报,2019,45(12):2242-2250. 被引量：3
7黄友文,游亚东,赵朋.融合卷积注意力机制的图像描述生成模型[J].计算机应用,2020,40(1):23-27. 被引量：12
8柳锋,李俊峰,戴文战.基于深度学习语义分割的导光板缺陷检测方法[J].计算机系统应用,2020,29(6):29-38. 被引量：10
9季秀怡,李建华.基于双路注意力机制的化学结构图像识别[J].计算机工程,2020,46(9):213-220. 被引量：4
10黄晴晴,周风余,刘美珍.基于视频的人体动作识别算法综述[J].计算机应用研究,2020,37(11):3213-3219. 被引量：17

同被引文献28

1王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：26
2张宁.基于内容的多媒体检索的研究现状和应用前景[J].上饶师范学院学报,2006,26(3):79-83. 被引量：2
3李熙利.数字档案馆多媒体检索系统实现分析[J].北京档案,2012(12):30-31. 被引量：2
4庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：458
5张凤,高航.自然语言处理技术在西方国家军事领域的应用现状[J].国防科技,2014,35(6):75-82. 被引量：2
6赵其鲁,李宗民.跨模态社交图像聚类[J].计算机学报,2018,41(1):98-111. 被引量：4
7葛运东,陈洪梅,姚建民.自然语言处理的技术和产业应用现状与趋势分析[J].产业与科技论坛,2019,0(17):113-114. 被引量：6
8董震,裴明涛.基于异构哈希网络的跨模态人脸检索方法[J].计算机学报,2019,42(1):73-84. 被引量：11
9严双咏,刘长红,江爱文,叶继华,王明文.语义耦合相关的判别式跨模态哈希学习算法[J].计算机学报,2019,42(1):164-175. 被引量：13
10曹娟,龚隽鹏,张鹏洲.数据到文本生成研究综述[J].计算机技术与发展,2019,29(1):80-84. 被引量：12

引证文献11

1曹磊,万旺根.基于动态视觉注意的多语言视频描述算法[J].工业控制计算机,2021,34(7):62-64.
2盘晓芳,杨大伟,毛琳.密集视频描述中单词级遗忘度优化算法[J].大连民族大学学报,2022,24(3):218-225.
3马苗,陈小秋,田卓钰.基于多模态特征的视频密集描述生成方法[J].中文信息学报,2022,36(11):156-168. 被引量：1
4李公全,李智国,李卫星,高栋.自然语言生成技术及其在军事领域应用[J].中国电子科学研究院学报,2022,17(10):935-942. 被引量：1
5毛琳,高航,杨大伟,张汝波.视频描述中链式语义生成网络[J].光学精密工程,2022,30(24):3198-3209.
6郭丹,姚沈涛,王辉,汪萌.嵌入局部聚类描述符的视频问答Transformer模型[J].计算机学报,2023,46(4):671-689. 被引量：1
7赵宏,陈志文,郭岚,安冬.基于ViT与语义引导的视频内容描述生成[J].计算机工程,2023,49(5):247-254.
8黄先开,张佳玉,王馨宇,王晓川,刘瑞军.密集视频描述研究方法综述[J].计算机工程与应用,2023,59(12):28-48. 被引量：2
9李伟健,胡慧君.基于潜在特征增强网络的视频描述生成方法[J].计算机工程,2024,50(2):266-272.
10张煜杨,刘茂福.基于双向特征金字塔的密集视频描述生成方法[J].中国科技论文,2024,19(2):200-208.

二级引证文献5

1张宇峰.基于改进Transformer的时序数据预测方法[J].电脑编程技巧与维护,2023(9):84-86. 被引量：1
2瞿崇晓,郑寄平,张永晋,范长军,刘硕.GPT技术原理及其潜在军事应用研究[J].中国电子科学研究院学报,2023,18(7):624-633. 被引量：2
3陈劭武,胡慧君,刘茂福.基于事件最大边界的密集视频描述方法[J].中国科技论文,2024,19(2):169-177.
4王小荷,刘浩敏,程德斌,党竞医,李睿敏,缑水平,付军,范宏斌.密集视频描述的软组织肿瘤切除手术记录自动生成系统的研发与临床应用[J].中华创伤骨科杂志,2024,26(1):43-49.
5黄飞燕,曾上游,邱泓语.基于增强全局-局部特征融合的视频描述生成方法[J].国外电子测量技术,2024,43(1):1-9.

1李硕,卢华明.基于数据湖的环境大数据存储模型[J].北京信息科技大学学报（自然科学版）,2021,36(6):81-86. 被引量：3
2龚锦道.人工智能在医保防欺诈智能审核中应用[J].经济技术协作信息,2022(5):0037-0039.
3潘玉亮,关佶红,姚恒,石运佳,周水庚.基于计算的蛋白质复合物预测方法综述[J].计算机科学与探索,2022,16(1):1-20. 被引量：1
4张曼婷,张立德,王建波,曲怡,马永钢,李秀灵,蔡昀潞,张晨新,王洪薇.针灸治疗高血压病作用机制研究进展[J].辽宁中医药大学学报,2021,23(10):155-159. 被引量：6
5潘毅刚.发展要思考基本问题[J].浙江经济,2022(1):79-79.
6易伟,陈刚,李德伟.无轨智能巡检机器人在国内某海上平台首次应用[J].石油和化工设备,2022,25(2):10-12. 被引量：1
7张天平,张雪儿,赵志伟,冉文亮,李璇.离子推力器寿命试验总结与展望[J].真空与低温,2022,28(1):1-13. 被引量：1
8周雨珺,吉庆华,胡承志,曲久辉.电化学氧化水处理技术研究进展[J].土木与环境工程学报（中英文）,2022,44(3):104-118. 被引量：15
9黄纪翀,刘春宇,宋少忠,谭勇,韩宇,徐立君,刘君玲.光谱技术在玉米品种品质检测中的研究进展[J].农业与技术,2022,42(2):5-8. 被引量：1
10蔡炜,徐圣兵,周颖彤,韦塬瀚.基于模糊聚类的羊群效应检测方法[J].建模与仿真,2021,10(4):1043-1053.

自动化学报

2022年第2期

浏览历史

内容加载中请稍等...

从视频到语言:视频标题生成与描述研究综述被引量：11

参考文献4

二级参考文献13

共引文献56

同被引文献28

引证文献11

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

从视频到语言:视频标题生成与描述研究综述 被引量：11

参考文献4

二级参考文献13

共引文献56

同被引文献28

引证文献11

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

从视频到语言:视频标题生成与描述研究综述被引量：11