期刊文献+

一种基于动态时序划分的视频理解方法

下载PDF
导出
摘要 近年来,随着语言-视觉模型的快速发展,结合视觉编码器和大语言模型进行视频理解的方法极大超越了传统的视频行为分类模型。由于大语言模型可以很好地进行信息的归纳和推理,因此可以将视频帧的特征输入大语言模型,从而得到每一帧的场景描述,最终整理成一个视频的详细信息。尽管上述方法可以得到一个视频非常详尽的描述,但是却忽略了视频中不同场景的重要性,从而无法准确理解视频中的关键信息。文章提出了一种基于动态时序划分的视频理解方法,首先根据场景对视频进行切片,然后通过一个自适应的重要性评估网络计算每个视频切片的重要性得分,最后基于重要性得分将每个视频切片的特征进行加权平均得到最终的视频特征。相较于直接提取视频特征的方法,该方法所获取的视频特征结合了不同视频片段的重要性,更容易理解视频中的关键信息。该方法在多个视频理解基准上进行实验,均获得5%~10%的提升,充分证明了该方法在视频理解中的有效性。
作者 董淑慧
出处 《电脑知识与技术》 2023年第36期19-21,共3页 Computer Knowledge and Technology
基金 2022年度合肥科技职业学院校级质量工程项目:网络安全技术。
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部