一种基于动态时序划分的视频理解方法

下载PDF

导出

摘要近年来,随着语言-视觉模型的快速发展,结合视觉编码器和大语言模型进行视频理解的方法极大超越了传统的视频行为分类模型。由于大语言模型可以很好地进行信息的归纳和推理,因此可以将视频帧的特征输入大语言模型,从而得到每一帧的场景描述,最终整理成一个视频的详细信息。尽管上述方法可以得到一个视频非常详尽的描述,但是却忽略了视频中不同场景的重要性,从而无法准确理解视频中的关键信息。文章提出了一种基于动态时序划分的视频理解方法,首先根据场景对视频进行切片,然后通过一个自适应的重要性评估网络计算每个视频切片的重要性得分,最后基于重要性得分将每个视频切片的特征进行加权平均得到最终的视频特征。相较于直接提取视频特征的方法,该方法所获取的视频特征结合了不同视频片段的重要性,更容易理解视频中的关键信息。该方法在多个视频理解基准上进行实验,均获得5%~10%的提升,充分证明了该方法在视频理解中的有效性。

作者董淑慧

机构地区合肥科技职业学院信息工程系

出处《电脑知识与技术》 2023年第36期19-21,共3页 Computer Knowledge and Technology

基金 2022年度合肥科技职业学院校级质量工程项目:网络安全技术。

关键词语言-视觉模型动态时序划分视频切片视频理解

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1王浩.整本书阅读视角下名著节选类课文教学的重构[J].小学语文,2023(11):57-63.
2郑祎豪,郭奕君,毋立芳,黄岩.知识驱动的多模态语义理解研究综述[J].模式识别与人工智能,2023,36(12):1127-1138.
3焦自霞.核心素养指导下的初中英语阅读解题技巧分析[J].课堂内外（初中教研）,2023(S01):37-39.

电脑知识与技术

2023年第36期

浏览历史

内容加载中请稍等...

一种基于动态时序划分的视频理解方法

相关作者

相关机构

相关主题

浏览历史