期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于多模态融合与多层注意力的视频内容文本表述研究 被引量:9
1
作者 赵宏 郭岚 +1 位作者 陈志文 郑厚泽 《计算机工程》 CAS CSCD 北大核心 2022年第10期45-54,共10页
针对现有视频内容文本表述模型存在生成的文本表述单一、准确率不高等问题,提出一种融合帧级图像及音频信息的视频内容文本表述模型。基于自注意力机制设计单模态嵌入层网络结构,并将其嵌入单模态特征中学习单模态特征参数。采用联合表... 针对现有视频内容文本表述模型存在生成的文本表述单一、准确率不高等问题,提出一种融合帧级图像及音频信息的视频内容文本表述模型。基于自注意力机制设计单模态嵌入层网络结构,并将其嵌入单模态特征中学习单模态特征参数。采用联合表示、协作表示两种方法对单模态嵌入层输出的高维特征向量进行双模态特征融合,使模型能关注视频中不同目标间的交互关系,从而生成更加丰富、准确的视频文本表述。使用大规模数据集对模型进行预训练,并提取视频帧、视频所携带的音频等表征信息,将其送入编解码器实现视频内容的文本表述。在MSR-VTT和LSMDC数据集上的实验结果表明,所提模型的BLEU4、METEOR、ROUGEL和CIDEr指标分别为0.386、0.250、0.609和0.463,相较于MSR-VTT挑战赛中IIT DeIhi发布的模型,分别提升了0.082、0.037、0.115和0.257,能有效提升视频内容文本表述的准确率。 展开更多
关键词 视频内容文本描述 多模态融合 联合表示 协作表示 自注意力机制
下载PDF
融合语义信息的视频摘要生成 被引量:2
2
作者 滑蕊 吴心筱 赵文天 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第3期650-657,共8页
任务旨在通过生成简短的视频片段来表示原视频的主要内容,针对现有方法缺乏对语义信息探索的问题,提出了一种融合语义信息的视频摘要生成模型,学习视频特征使其包含丰富的语义信息,进而同时生成描述原始视频内容的视频摘要和文本摘要。... 任务旨在通过生成简短的视频片段来表示原视频的主要内容,针对现有方法缺乏对语义信息探索的问题,提出了一种融合语义信息的视频摘要生成模型,学习视频特征使其包含丰富的语义信息,进而同时生成描述原始视频内容的视频摘要和文本摘要。该模型分为3个模块:帧级分数加权模块、视觉-语义嵌入模块、视频文本描述生成模块。帧级分数加权模块结合卷积网络与全连接层以获取帧级重要性分数;视觉-语义嵌入模块将视觉特征与文本特征映射到同一空间,以使2种特征相互靠近;视频文本描述生成模块最小化视频摘要的生成描述与文本标注真值之间的距离,以生成带有语义信息的视频摘要。测试时,在获取视频摘要的同时,该模型获得简短的文本摘要作为副产品,可以帮助人们更直观地理解视频内容。在SumMe和TVSum数据集上的实验表明:该模型通过融合语义信息,比现有先进方法取得了更好的性能,在这2个数据集上F-score指标分别提高了0.5%和1.6%。 展开更多
关键词 视频摘要 视觉-语义嵌入空间 视频文本描述 视频关键帧 长短期记忆(LSTM)模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部