-
题名基于多模态融合与多层注意力的视频内容文本表述研究
被引量:9
- 1
-
-
作者
赵宏
郭岚
陈志文
郑厚泽
-
机构
兰州理工大学计算机与通信学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第10期45-54,共10页
-
基金
国家自然科学基金(62166025,51668043)
甘肃省重点研发计划(21YF5GA073)。
-
文摘
针对现有视频内容文本表述模型存在生成的文本表述单一、准确率不高等问题,提出一种融合帧级图像及音频信息的视频内容文本表述模型。基于自注意力机制设计单模态嵌入层网络结构,并将其嵌入单模态特征中学习单模态特征参数。采用联合表示、协作表示两种方法对单模态嵌入层输出的高维特征向量进行双模态特征融合,使模型能关注视频中不同目标间的交互关系,从而生成更加丰富、准确的视频文本表述。使用大规模数据集对模型进行预训练,并提取视频帧、视频所携带的音频等表征信息,将其送入编解码器实现视频内容的文本表述。在MSR-VTT和LSMDC数据集上的实验结果表明,所提模型的BLEU4、METEOR、ROUGEL和CIDEr指标分别为0.386、0.250、0.609和0.463,相较于MSR-VTT挑战赛中IIT DeIhi发布的模型,分别提升了0.082、0.037、0.115和0.257,能有效提升视频内容文本表述的准确率。
-
关键词
视频内容文本描述
多模态融合
联合表示
协作表示
自注意力机制
-
Keywords
text description of video content
multi-modal fusion
joint representation
collaborative representation
self attention mechanism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-