-
题名融合注意力与语义引导的视频描述生成方法
- 1
-
-
作者
田枫
卢俊
刘芳
-
机构
东北石油大学计算机与信息技术学院
-
出处
《现代电子技术》
2023年第14期180-186,共7页
-
基金
黑龙江省自然科学基金项目(LH2021F004)
黑龙江省哲学社会科学基金项目(22EDE389)
+4 种基金
黑龙江省高等学校教改工程项目:新工科背景下研究生人工智能实践与创新能力培养模式研究(SJGZ20200037)
东北石油大学研究生教育创新工程(JYCX_11_2020)
东北石油大学引导性创新基金(2020YDL-11)
黑龙江省省属本科高校基本科研业务费(KYCXTD201903)
黑龙江省教育科学规划重点课题(GJB1421114)。
-
文摘
将基于深度学习的视频描述生成方法应用到海量视频检索和视频内容审核中,是为了通过视频描述方法生成语义文本,达到对视频的高效组织和管理。然而,现有的视频描述方法缺少对语义信息的探索,无法专注于视频中的特定动作的语义特征和语义表达。为克服上述局限性,文中提出一种融合注意力与语义引导的视频描述生成方法。在解码过程中,该方法使用自适应注意门控单元进行视觉特征和语义信息的融合,通过两个专用的LSTM层引导模型生成文本,使模型生成更准确的词。为验证所提方法的有效性,使用数据集MSR-VTT和MSVD进行实验。结果表明,融合注意力与语义引导能够有效提升视频描述生成方法的性能,相较于其他模型,所提方法各项评价指标均有一定提升。
-
关键词
视频描述生成方法
注意力机制
语义引导
视觉特征
编码器
解码器
LSTM层
-
Keywords
video description generation method
attention mechanism
semantic guidance
visual feature
encoder
decoder
LSTM layer
-
分类号
TN911-34
[电子电信—通信与信息系统]
TP399
[自动化与计算机技术—计算机应用技术]
-