-
题名长视频的超级帧切割视觉内容解释方法
- 1
-
-
作者
魏英姿
刘王杰
-
机构
沈阳理工大学信息科学与工程学院
-
出处
《北京工业大学学报》
CAS
CSCD
北大核心
2024年第7期805-813,共9页
-
基金
辽宁省教育厅高等学校基本科研资助项目(LJKZ0267)。
-
文摘
针对现有基于编码解码的视频描述方法存在的对视频较长、在视频场景切换频繁情况下视觉特征提取能力不足或关键性片段捕获能力不足等视频描述不佳的问题,提出一种基于超级帧切割长视频的视频字幕方法。首先,提出超级帧提取算法,计算关键视频时间占比率以满足视频浏览时长限制,缩短视频检索时间。然后,构建两层筛选模型以自适应提取超级帧,过滤冗余关键帧,执行多场景语义描述。将保留的关键帧嵌入周围帧,利用深层网络模型以及小卷积核池化采样域获取更多的视频特征,克服了经典视频标题方法不能直接用于处理长视频的困难。最后,通过用长短时记忆模型代替循环神经网络解码生成视频标题,给出视频内容的分段解释信息。在YouTube数据集视频、合成视频和监控长视频上进行测试,采用多种机器翻译评价指标评估了该方法的性能,均获得了不同程度的提升。实验结果表明,该方法在应对视频场景切换频繁、视频较长等挑战时,能够获得较好的片段描述。
-
关键词
超级帧切割
时间占比率
多场景语义
视觉特征
长短时记忆模型
视频标题
-
Keywords
superframe cutting
time ratio
multi-scene semantics
visual features
long and short-term memory model
video captioning
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-