融合语义信息的视频摘要生成被引量：2

Video summarization by learning semantic information

下载PDF

导出

摘要任务旨在通过生成简短的视频片段来表示原视频的主要内容,针对现有方法缺乏对语义信息探索的问题,提出了一种融合语义信息的视频摘要生成模型,学习视频特征使其包含丰富的语义信息,进而同时生成描述原始视频内容的视频摘要和文本摘要。该模型分为3个模块:帧级分数加权模块、视觉-语义嵌入模块、视频文本描述生成模块。帧级分数加权模块结合卷积网络与全连接层以获取帧级重要性分数;视觉-语义嵌入模块将视觉特征与文本特征映射到同一空间,以使2种特征相互靠近;视频文本描述生成模块最小化视频摘要的生成描述与文本标注真值之间的距离,以生成带有语义信息的视频摘要。测试时,在获取视频摘要的同时,该模型获得简短的文本摘要作为副产品,可以帮助人们更直观地理解视频内容。在SumMe和TVSum数据集上的实验表明:该模型通过融合语义信息,比现有先进方法取得了更好的性能,在这2个数据集上F-score指标分别提高了0.5%和1.6%。 Video summarization aims to generate short and compact summary to represent original video.However,the existing methods focus more on representativeness and diversity of representation,but less on semantic information.In order to fully exploit semantic information of video content,we propose a novel video summarization model that learns a visual-semantic embedding space,so that the video features contain rich semantic information.It can generate video summaries and text summaries that describe the original video simultaneously.The model is mainly divided into three modules:frame-level score weighting module that combines convolutional layers and fully connected layers;visual-semantic embedding module that embeds the video and text in a common embedding space and make them lose to each other to achieve the purpose of mutual promotion of two features;video caption generation module that generates video summary with semantic information by minimizing the distance between the generated description of the video summary and the manually annotated text of the original video.During the test,while obtaining the video summary,we obtain a short text summary as a by-product,which can help people understand the video content more intuitively.Experiments on SumMe and TVSum datasets show that the proposed model achieves better performance than the existing advanced methods by fusing semantic information,and improves F-score by 0.5%and 1.6%,respectively.

作者滑蕊吴心筱赵文天 HUA Rui;WU Xinxiao;ZHAO Wentian(School of Computer Science&Technology,Beijing Institute of Technology,Beijing 100081,China)

机构地区北京理工大学计算机学院

出处《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第3期650-657,共8页 Journal of Beijing University of Aeronautics and Astronautics

基金国家自然科学基金(61673062,62072041)。

关键词视频摘要视觉-语义嵌入空间视频文本描述视频关键帧长短期记忆(LSTM)模型 video summarization visual-semantic embedding space video captioning video key frame Long Short-Term Memory(LSTM)model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘波.视频摘要研究综述[J].南京信息工程大学学报（自然科学版）,2020,12(3):274-278. 被引量：5
2冀中,江俊杰.基于解码器注意力机制的视频摘要[J].天津大学学报（自然科学与工程技术版）,2018,51(10):1023-1030. 被引量：7
3李依依,王继龙.自注意力机制的视频摘要模型[J].计算机辅助设计与图形学学报,2020,32(4):652-659. 被引量：6

二级参考文献5

1欧阳建权,李锦涛,张勇东.视频摘要技术综述[J].计算机工程,2005,31(10):7-9. 被引量：17
2王娟,蒋兴浩,孙锬锋.视频摘要技术综述[J].中国图象图形学报,2014,19(12):1685-1695. 被引量：33
3冀中,樊帅飞.基于超图排序算法的视频摘要[J].电子学报,2017,45(5):1035-1043. 被引量：5
4郝雪,彭国华.基于SVD和稀疏子空间聚类的视频摘要[J].计算机辅助设计与图形学学报,2017,29(3):485-492. 被引量：6
5刘玉杰,唐顺静,高永标,李宗民,李华.基于标签分布学习的视频摘要算法[J].计算机辅助设计与图形学学报,2019,31(1):104-110. 被引量：8

共引文献11

1张云佐,郭亚宁,蔡昭权,张嘉煜.顾及方向信息的时空联合监控视频摘要方法[J].光电子．激光,2022,33(9):992-1000.
2张开生,王泽.基于磁性纤维的加密纸张图像采集与识别研究[J].中国造纸,2021,40(6):64-70. 被引量：4
3李雷霆,武光利,郭振洲.自注意力机制和随机森林回归的视频摘要生成[J].计算机工程与应用,2022,58(4):198-205. 被引量：4
4胡吉明,郑翔.基于主题聚类的新媒体政务互动内容摘要生成研究[J].数据分析与知识发现,2022,6(6):95-104. 被引量：3
5张云佐,郭亚宁,李文博.融合时空切片和双注意力机制的视频摘要方法[J].西安交通大学学报,2022,56(12):127-135.
6宋亚光,杨小汕,徐常胜.跨模态多视角自监督的个性化食谱推荐异构图网络[J].计算机辅助设计与图形学学报,2023,35(3):413-422.
7张云佐,朱鹏飞,郑婷婷,李文博,张天.片段-自适应的监控视频浓缩[J].计算机辅助设计与图形学学报,2023,35(6):944-952.
8任会峰.网络舆情监测现状与发展[J].智慧工厂,2023(4):42-44.
9白晨,范涛,王文静,王国中.融合多模态特征与时区检测的视频摘要算法[J].计算机应用研究,2023,40(11):3276-3281.
10闫河,刘灵坤,黄俊滨,张烨,段思宇.结合多尺度注意力机制和双向门控循环网络的视频摘要模型[J].智能系统学报,2024,19(2):446-454.

同被引文献15

1王小俊,刘旭敏,关永.基于改进Canny算子的图像边缘检测算法[J].计算机工程,2012,38(14):196-198. 被引量：105
2王松,韩永国,吴亚东,张赛楠.基于图像主色彩的视频关键帧提取方法[J].计算机应用,2013,33(9):2631-2635. 被引量：8
3王宇,汪荣贵,杨娟.一种新的自适应的视频关键帧提取方法[J].合肥工业大学学报（自然科学版）,2016,39(11):1483-1487. 被引量：3
4张亚洲,余正生.基于k-means++聚类的视频摘要生成算法[J].工业控制计算机,2017,30(7):129-130. 被引量：4
5冀中,樊帅飞.利用超图随机游走的视频摘要生成方法[J].小型微型计算机系统,2017,38(11):2535-2540. 被引量：2
6王智慧,李佳桐,谢斯言,周佳,李豪杰,樊鑫.两阶段的视频字幕检测和提取算法[J].计算机科学,2018,45(8):50-53. 被引量：5
7冀中,江俊杰.基于解码器注意力机制的视频摘要[J].天津大学学报（自然科学与工程技术版）,2018,51(10):1023-1030. 被引量：7
8刘玉杰,唐顺静,高永标,李宗民,李华.基于标签分布学习的视频摘要算法[J].计算机辅助设计与图形学学报,2019,31(1):104-110. 被引量：8
9刘波.视频摘要研究综述[J].南京信息工程大学学报（自然科学版）,2020,12(3):274-278. 被引量：5
10葛钊,赵烨.一种基于最短路径的视频摘要方法[J].合肥工业大学学报（自然科学版）,2021,44(2):193-198. 被引量：3

引证文献2

1张云佐,郭亚宁,蔡昭权,张嘉煜.顾及方向信息的时空联合监控视频摘要方法[J].光电子．激光,2022,33(9):992-1000.
2肖栩豪,李晓军,姚俊萍,李少臣.基于多特征视频关键片段提取研究--以健康类动画视频为例[J].中国电子科学研究院学报,2021,16(6):561-568. 被引量：1

二级引证文献1

1万小祥,王伟,焦伟,王文章,施国伟.动画视频在输尿管结石术前医患沟通中的应用效果[J].现代泌尿外科杂志,2023,28(8):670-673.

1苏暖,崔效锋.以脑科学为导向的整本书阅读教学策略初探——以小学高年段为例[J].师道（教研）,2021(4):40-41.
2韩丁.试论如何利用微课提高小学美术教学有效性[J].学生·家长·社会,2021(4):36-36.
3陈周元,陈平华,申建芳.融合GRU和非极大值抑制的视频摘要生成模型[J].计算机科学与应用,2021,11(3):604-617.
4王兴兰,夏晓红.图书馆短视频账号传播力研究——以省级公共图书馆为例[J].图书馆学研究,2021(5):45-52. 被引量：28
5刘靖祎,史彩娟,涂冬景,刘帅.零样本图像分类综述[J].计算机科学与探索,2021,15(5):812-824. 被引量：5
6张兴明.基于深度学习的地空通信文本命名实体识别研究[J].现代计算机,2021,27(2):28-33. 被引量：2
7黄友文,周斌,唐欣.结合场景描述的文本生成图像方法[J].激光与光电子学进展,2021,58(4):182-190. 被引量：1
8范晓明,王斌君.基于相码模型的汉字表征[J].科学技术与工程,2021,21(5):1937-1947.
9朱虹旭,张志勇,司揆,高友杰.沉浸式舟桥分队指挥训练系统的设计研究[J].兵器装备工程学报,2019,40(S02):62-65.
10马广瑶,黄德璐,王建军.基于预测误差编码的加密域可逆数据隐藏算法[J].计算机工程,2021,47(5):138-143. 被引量：5

北京航空航天大学学报

2021年第3期

浏览历史

内容加载中请稍等...

融合语义信息的视频摘要生成被引量：2

参考文献3

二级参考文献5

共引文献11

同被引文献15

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合语义信息的视频摘要生成 被引量：2

参考文献3

二级参考文献5

共引文献11

同被引文献15

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合语义信息的视频摘要生成被引量：2