期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于动态时序划分的视频理解方法
1
作者 董淑慧 《电脑知识与技术》 2023年第36期19-21,共3页
近年来,随着语言-视觉模型的快速发展,结合视觉编码器和大语言模型进行视频理解的方法极大超越了传统的视频行为分类模型。由于大语言模型可以很好地进行信息的归纳和推理,因此可以将视频帧的特征输入大语言模型,从而得到每一帧的场景描... 近年来,随着语言-视觉模型的快速发展,结合视觉编码器和大语言模型进行视频理解的方法极大超越了传统的视频行为分类模型。由于大语言模型可以很好地进行信息的归纳和推理,因此可以将视频帧的特征输入大语言模型,从而得到每一帧的场景描述,最终整理成一个视频的详细信息。尽管上述方法可以得到一个视频非常详尽的描述,但是却忽略了视频中不同场景的重要性,从而无法准确理解视频中的关键信息。文章提出了一种基于动态时序划分的视频理解方法,首先根据场景对视频进行切片,然后通过一个自适应的重要性评估网络计算每个视频切片的重要性得分,最后基于重要性得分将每个视频切片的特征进行加权平均得到最终的视频特征。相较于直接提取视频特征的方法,该方法所获取的视频特征结合了不同视频片段的重要性,更容易理解视频中的关键信息。该方法在多个视频理解基准上进行实验,均获得5%~10%的提升,充分证明了该方法在视频理解中的有效性。 展开更多
关键词 语言-视觉模型 动态时序划分 视频切片 视频理解
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部