多头注意力与语义视频标注被引量：2

Multi-Head Attention and Semantic Video Captioning

下载PDF

导出

摘要在序列到序列的视频标注模型中,视频信息在经过编码之后被大幅压缩导致解码器端不能充分利用。为了解决这一问题,在模型中引入多头注意力机制和语义信息。多头注意力使得模型在生成不同的单词时可以焦距编码端视频信息的不同部分。语义信息由语义探测单元通过多标签分类方式生成视频的语义概率信息方式引入,给解码端提供额外指导,改进后的模型仍然是端到端的。实验结果表明,改进后的模型标注效果取得了显著的提升,采用的改进方法对提升标注能力有明显作用。 In the sequence-to-sequence video captioning model,the video information is greatly compressed after being encoded,resulting in the decoder side cannot fully utilized the video information.To solve this problem,a multi-head attention mechanism and semantic information are introduced into the model.The multi-head attention allows the model to focus different parts of the video information when generate different words.The semantic information is introduced by the semantic detection unit through the multi-label classification approach to generate the semantic probability information of the video,which provides additional guidance to the decoding end.The modified model is still training in end-to-end.The experimental results show that the modified model captioning effect has been significantly improved,and the modified method has a significant effect on improving the captioning ability.

作者石开胡燕 SHI Kai;HU Yan(School of Computer,Wuhan University of Technology,Wuhan 430070,China)

机构地区武汉理工大学计算机学院

出处《计算机工程与应用》 CSCD 北大核心 2020年第6期133-139,共7页 Computer Engineering and Applications

基金湖北省自然科学基金重点类项目（No.2017CFA012）

关键词视频标注多头注意力语义信息 video captioning multi-head attention semantic information

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献17

1蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：61
2钱惠敏,茅耀斌,王执铨,叶曙光.视频监控中的行为序列分割与识别[J].中国图象图形学报,2009,14(11):2416-2420. 被引量：8
3卢有亮,姜书艳.精品课程网站中融入MOOC教学方法的研究[J].实验技术与管理,2016,33(1):173-175. 被引量：17
4徐春华,傅钢善.视频标注工具支持的深度学习研究——以MOOC学习环境为例[J].现代教育技术,2017,27(3):13-19. 被引量：9
5王志军,赵宏,陈丽.基于远程学习教学交互层次塔的学习活动设计[J].中国远程教育,2017(6):39-47. 被引量：38
6孙洁,姜强,赵蔚,李勇帆.大数据背景下在线视频点击流行为可视化分析与思考——以香港科技大学VisMOOC项目为例[J].现代远距离教育,2017(4):51-62. 被引量：9
7黄超,彭宗举,苗瑾超,陈芬.联合深度视频增强的3D-HEVC帧内编码快速算法[J].中国图象图形学报,2018,23(4):500-509. 被引量：2
8谭瑶,饶文碧.异构复合迁移学习的视频内容标注方法[J].计算机应用,2018,38(6):1547-1553. 被引量：4
9彭宇新,綦金玮,黄鑫.多媒体内容理解的研究现状与展望[J].计算机研究与发展,2019,56(1):183-208. 被引量：34
10梁建胜,温贺平.基于深度学习的视频关键帧提取与视频检索[J].控制工程,2019,26(5):965-970. 被引量：21

引证文献2

1许邓艳,卢民荣,王莹.基于知识注释的MOOC视频快速检索系统研究[J].实验技术与管理,2020,37(10):201-206. 被引量：2
2付燕,王咪咪,叶鸥.基于场景表示中对象特征语法分析的视频描述[J].计算机工程与设计,2023,44(2):488-493. 被引量：1

二级引证文献3

1祁冰.基于多模态的教学视频分割系统设计[J].信息记录材料,2022,23(4):109-111.
2郝腾飞,郭建龙,刘晓,冯伟夏,熊山.基于自组织映射网络与时间权重的电力企业大学资源快速精准检索方法研究[J].科技创新与应用,2022,12(25):121-126. 被引量：2
3黄飞燕,曾上游,邱泓语.基于增强全局-局部特征融合的视频描述生成方法[J].国外电子测量技术,2024,43(1):1-9.

1王兴金,周兰江,张金鹏,周枫,郭剑毅.融合词预测的半监督老挝语词性标注研究[J].小型微型计算机系统,2019,40(12):2500-2505. 被引量：5
2葛春辉,张云舒,唐光木,徐万里,姚红宇.生物炭的施入对玉米生物量和磷养分吸收的影响[J].新疆农业科学,2020,57(3):442-449. 被引量：6
3吴玉程.刊首语[J].山西高等学校社会科学学报,2019,31(S01).
4王宏悦.“■■”构句的汉译研究[J].中国民族博览,2019,0(11):87-89.
5陈维嘉.基于MC9S12单片机的摄像头参数测量及模拟视频信号离散化研究[J].信息周刊,2020,0(3):0078-0078.
6卜进善.在断层间旅行[J].人民文学,2020,0(2):169-176.
7叶文辉,李嘉.绿色资产证券化路径研究——以安徽省光伏发电产业为例[J].国际金融,2020,0(1):75-80.
8李道京,朱宇,胡烜,于海锋,周凯,张润宁,刘磊.衍射光学系统的激光应用和稀疏成像分析[J].雷达学报（中英文）,2020,9(1):195-203. 被引量：7

计算机工程与应用

2020年第6期

浏览历史

内容加载中请稍等...

多头注意力与语义视频标注被引量：2

同被引文献17

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

多头注意力与语义视频标注 被引量：2

同被引文献17

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

多头注意力与语义视频标注被引量：2