基于空时变换网络的视频摘要生成被引量：2

Video Summarization Based on Spacial-temporal Transform Network

下载PDF

导出

摘要生成是计算机视觉领域必不可少的关键任务,这一任务的目标是通过选择视频内容中信息最丰富的部分来生成一段简洁又完整的视频摘要,从而对视频内容进行总结.所生成的视频摘要通常为一组有代表性的视频帧(如视频关键帧)或按时间顺序将关键视频片段缝合所形成的一个较短的视频.虽然视频摘要生成方法的研究已经取得了相当大的进展,但现有的方法存在缺乏时序信息和特征表示不完备的问题,很容易影响视频摘要的正确性和完整性.为了解决视频摘要生成问题,提出一种空时变换网络模型,该模型包括3大模块,分别为:嵌入层、特征变换与融合层、输出层.其中,嵌入层可同时嵌入空间特征和时序特征,特征变换与融合层可实现多模态特征的变换和融合,最后输出层通过分段预测和关键镜头选择完成视频摘要的生成.通过空间特征和时序特征的分别嵌入,以弥补现有模型对时序信息表示的不足;通过多模态特征的变换和融合,以解决特征表示不完备的问题.在两个基准数据集上做了充分的实验和分析,验证了所提模型的有效性. Video summarization is an indispensable and critical task in computer vision, the goal of which is to generate a concise and complete video summary by selecting the most informative part of a video. A generated video summary is a set of representative video frames(such as video keyframes) or a short video formed by stitching key video segments in time sequence. Although the study on video summarization has made considerable progress, the existing methods have the problems of deficient temporal information and incomplete feature representation, which can easily affect the correctness and completeness of a video summary. To solve the problems, this study proposes a model based on a spatiotemporal transform network, which includes three modules, i.e., the embedding layer, the feature transformation and fusion layer, and the output layer. Specifically, the embedding layer can simultaneously embed spatial and temporal features, and the feature transformation and fusion layer can realize the transformation and fusion of multi-modal features;finally, the output layer generates the video summary by segment prediction and key shot selection. The spatial and temporal features are embedded separately to fix the problem of deficient temporal information in existing models, and the transformation and fusion of multi-modal features can solve the problem of incomplete feature representation. Sufficient experiments and analyses on two benchmark datasets are conducted, and the results verify the effectiveness of the proposed model.

作者李群肖甫张子屹张锋李延超 LI Qun;XIAO Fu;ZHANG Zi-Yi;ZHANG Feng;LI Yan-Chao(School of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)

机构地区南京邮电大学计算机学院、软件学院、网络空间安全学院

出处《软件学报》 EI CSCD 北大核心 2022年第9期3195-3209,共15页 Journal of Software

基金国家自然科学基金(61906099,61906098)。

关键词视频摘要生成空时变换网络 ViLBERT 特征融合多模态 video summarization spacial-temporal transform network ViLBERT feature fusion multi-modal

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献8

1胡水星.教育数据挖掘及其教学应用实证分析[J].现代远距离教育,2017(4):29-37. 被引量：11
2况姗芸,黄润梅,卢昀,何爽.基础教育信息化教学实践现状分析与推进建议——基于“部级优课”视频课例的调查[J].中国电化教育,2018(9):61-68. 被引量：25
3胡志军,徐勇.基于内容的视频检索综述[J].计算机科学,2020,47(1):117-123. 被引量：15
4王萍.人工智能在教育视频中的应用分析与设计[J].电化教育研究,2020,41(3):93-100. 被引量：14
5欧阳元新,王乐天,李想,蒲菊华,熊璋.教育领域反馈文本情感分析方法及应用研究[J].计算机教育,2020(6):80-84. 被引量：4
6吴璠,王中卿,周夏冰,周国栋.基于用户和产品表示的情感分析和评论质量检测联合模型[J].软件学报,2020,31(8):2492-2507. 被引量：7
7黄欢,孙力娟,曹莹,郭剑,任恒毅.基于注意力的短视频多模态情感分析[J].图学学报,2021,42(1):8-14. 被引量：9
8Meng-Hao Guo,Tian-Xing Xu,Jiang-Jiang Liu,Zheng-Ning Liu,Peng-Tao Jiang,Tai-Jiang Mu,Song-Hai Zhang,Ralph R.Martin,Ming-Ming Cheng,Shi-Min Hu.Attention mechanisms in computer vision:A survey[J].Computational Visual Media,2022,8(3):331-368. 被引量：120

引证文献2

1刘立,丰洪才.基于视频内容检索技术及其教学应用初探[J].中国新通信,2024,26(2):65-68. 被引量：1
2罗渊贻,吴锐,刘家锋,唐降龙.基于自适应权值融合的多模态情感分析方法[J].软件学报,2024,35(10):4781-4793.

二级引证文献1

1张丽香.基于计算机视觉技术的网页检索系统设计与实现[J].电脑编程技巧与维护,2024(9):142-144.

1叶晓辉,杨欣,李涛.基于多模态语义分组的视频摘要模型[J].云南民族大学学报（自然科学版）,2022,31(4):445-449.
2张勃兴,马敬奇,张寿明,李辰潼,钟震宇.利用全局与局部关联特征的行人重识别方法[J].电子测量与仪器学报,2022,36(6):205-212. 被引量：6
3符超,潘灵(摄).你不曾见过的海底美到窒息[J].绿色中国,2022(7):66-69.
4张雅丽,方全,王允鑫,胡骏,钱胜胜,徐常胜.基于图对比的上下位关系检测[J].北京航空航天大学学报,2022,48(8):1480-1486.
5侯加文,王海宇,杨龙飞,李超,汪冬冬.基于分段预测前馈与EWMA反馈整合的松散回潮加水控制系统[J].中国烟草学报,2022,28(4):25-30. 被引量：3
6赵蕊蕊,孙建彬,游雅倩,于海跃,姜江.动态ER Rule分类器构建与应用[J].系统工程理论与实践,2022,42(8):2258-2276.
7张亚国,王幼博,李同录,郭松峰,张勋,梁伟.考虑温度效应的延安新区压实黄土全吸力范围持水和渗透特性研究[J].工程地质学报,2022,30(4):1148-1156. 被引量：2
8王勤凡,翟江涛,陈伟,孙浩翔.一种基于图卷积神经网络的加密流量分类方法[J].电子测量技术,2022,45(14):109-115. 被引量：7
9孙启超,恩擎,段立娟,乔元华.基于多模态自适应卷积的RGB-D图像语义分割[J].计算机辅助设计与图形学学报,2022,34(8):1272-1282. 被引量：1
10程小勇.水文地质试验在隧道工程地质勘察中的应用及涌水量预测[J].公路交通技术,2022,38(4):128-135. 被引量：5

软件学报

2022年第9期

浏览历史

内容加载中请稍等...

基于空时变换网络的视频摘要生成被引量：2

同被引文献8

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于空时变换网络的视频摘要生成 被引量：2

同被引文献8

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于空时变换网络的视频摘要生成被引量：2