基于多维度和多模态信息的视频描述方法被引量：8

Video description method based on multidimensional and multimodal information

下载PDF

导出

摘要针对视频自动描述任务中的复杂信息表征问题,提出一种多维度和多模态视觉特征的提取和融合方法。首先通过迁移学习提取视频序列的静态和动态等多维度特征,并采用图像描述算法提取视频关键帧的语义信息,完成视频信息的特征表征;然后采用多层长短期记忆网络融合多维度和多模态信息,最终生成视频内容的语言描述。实验仿真表明,所提方法与目前已有方法相比,在视频自动描述任务中取得了较好的效果。 In order to solve the problem of complex information representation in automatic video description tasks, a multi-dimensional and multi-modal visual feature extraction and fusion method was proposed. Firstly, multi-dimensional features such as static and dynamic attributes of the video sequence were extracted by transfer learning, and the image description algorithm was also used to extract the semantic information of the key frames in the video. By doing this, the video features extraction was carried out. Then, multi-layer long and short memory networks were used to fuse multi-dimensional and multi-modal information, and finally generated a language description of the video content. Compared with the existing methods, experimental simulations results show that the proposed method achieves better results in the video automatic description task.

作者丁恩杰刘忠育刘亚峰郁万里 DING Enjie;LIU Zhongyu;LIU Yafeng;YU Wanli(IoT/Perception Mine Research Center,China University of Mining&Technology,Xuzhou 221008,China;Institute of Electrodynamics and Microelectronics,University of Bremen,Bremen 28359,Germany)

机构地区中国矿业大学物联网(感知矿山)研究中心不来德大学电动学与微电子研究所

出处《通信学报》 EI CSCD 北大核心 2020年第2期36-43,共8页 Journal on Communications

基金国家重点研发计划基金资助项目（No.2017YFC0804400,No.2017YFC0804401)~~

关键词视频描述多模态迁移学习长短期记忆网络循环神经网络 video description multimodal transfer learning long and short term memory network recurrent neural network

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献28

1丁志江,李丹,马志程,张宝龙.基于Transformer的车道线分割算法研究[J].电子测量与仪器学报,2022,36(10):227-234. 被引量：4
2刘嘉莹,张孙杰.融合视频时空域运动信息的3D CNN人体行为识别[J].电子测量技术,2018,41(7):43-49. 被引量：11
3孙亮.基于多模态信息的视频描述算法[J].信息技术与网络安全,2019,38(7):47-53. 被引量：1
4戴俊,王俊,朱忠奎,沈长青,黄伟国.基于生成对抗网络和自动编码器的机械系统异常检测[J].仪器仪表学报,2019,40(9):16-26. 被引量：27
5黄友文,游亚东,赵朋.融合卷积注意力机制的图像描述生成模型[J].计算机应用,2020,40(1):23-27. 被引量：13
6张航,卢小平,张晓强,路泽忠.面向矿山监管的无人机视频关键帧影像动态提取方法[J].遥感信息,2020,35(1):112-116. 被引量：11
7刘仁峰,黄诗瑶,聂勇鹏,徐胜勇.油菜角果数量及关键表型参数的自动化检测方法研究[J].中国油料作物学报,2020,42(1):71-77. 被引量：5
8曹磊,万旺根,侯丽.基于多特征的视频描述生成算法研究[J].电子测量技术,2020,43(16):99-103. 被引量：4
9贺凤,张洪博,杜吉祥,汪冠鸿.长短时记忆网络的自由体操视频自动描述方法[J].华侨大学学报（自然科学版）,2020,41(6):808-815. 被引量：2
10田颖,桂彦,熊达铭.动态外观模型和高阶能量的双边视频目标分割方法[J].计算机科学与探索,2020,14(12):2108-2121. 被引量：4

引证文献8

1曹磊,万旺根,侯丽.基于多特征的视频描述生成算法研究[J].电子测量技术,2020,43(16):99-103. 被引量：4
2王戈琛,闫雨寒,刘晓文,丁恩杰.矿山人员行为视觉语义方法研究[J].工矿自动化,2021,47(5):40-45.
3王金金,曾上游,李文惠,张介滨.基于扩张卷积的注意力机制视频描述模型[J].电子测量技术,2021,44(23):99-104. 被引量：5
4王林,白云帆.基于特征强化与知识补充的视频描述方法[J].计算机系统应用,2023,32(5):273-282. 被引量：2
5赵宏,陈志文,郭岚,安冬.基于ViT与语义引导的视频内容描述生成[J].计算机工程,2023,49(5):247-254.
6徐鹏,李铁柱,职保平.基于S-YOLO V5和Vision Transformer的视频内容描述算法[J].印刷与数字媒体技术研究,2023(4):212-222. 被引量：1
7杨盼盼,马凌飞,平阳,索雅丽.移动AR+VR支持下跨媒体视频关键帧还原仿真[J].微型电脑应用,2024,40(3):32-36.
8黄飞燕,曾上游,邱泓语.基于增强全局-局部特征融合的视频描述生成方法[J].国外电子测量技术,2024,43(1):1-9.

二级引证文献10

1王金金,曾上游,李文惠,张介滨.基于扩张卷积的注意力机制视频描述模型[J].电子测量技术,2021,44(23):99-104. 被引量：5
2李铭兴,徐成,李学伟,刘宏哲,闫晨阳,廖文森.基于多模态融合的城市道路场景视频描述模型研究[J].计算机应用研究,2023,40(2):607-611. 被引量：3
3赵宏,陈志文,郭岚,安冬.基于ViT与语义引导的视频内容描述生成[J].计算机工程,2023,49(5):247-254.
4余文涛,赵倩,季堂煜.基于颜色随机化和全相关注意力的跨模态行人重识别[J].国外电子测量技术,2023,42(6):10-16.
5黄飞燕,曾上游,邱泓语.基于增强全局-局部特征融合的视频描述生成方法[J].国外电子测量技术,2024,43(1):1-9.
6刘长晔,杨现禹,蔡记华,王韧,王建龙,代凡斐,郭万阳,蒋国盛,冯洋.基于机器学习的钻井液流变参数智能识别方法[J].煤田地质与勘探,2024,52(5):183-192.
7魏英姿,刘王杰.长视频的超级帧切割视觉内容解释方法[J].北京工业大学学报,2024,50(7):805-813.
8杨绪祥,耿元玲,左融,王涵予.基于YOLO v5深度网络的隧道衬砌质量评估[J].山西建筑,2024,50(17):6-11.
9杨大伟,盘晓芳,毛琳,张汝波.改进的密集视频描述Transformer译码算法[J].计算机工程与应用,2024,60(17):89-97.
10杜晓童.基于多模态注意机制的全域视频描述生成技术研究[J].计算机科学与应用,2022,12(10):2225-2232.

1程鸿芳,卢桂馥,汪潇潇.基于K近邻的快速稀疏描述改进算法设计[J].淮海工学院学报（自然科学版）,2019,28(4):23-26.
2袁亮,俞啸,丁恩杰,赵小虎,冯仕民,张达,刘统玉,王卫东,黄艳秋.矿山物联网人-机-环状态感知关键技术研究[J].通信学报,2020,41(2):1-12. 被引量：50
3冯欣,高瑗蔚,杨武,蒋友妮,张洁.一种基于对象属性关系图的视频描述方法[J].重庆理工大学学报（自然科学）,2020,34(1):64-70.
4朱建.超强通用编译器优化工具准确率是传统方法的5倍[J].计算机与网络,2020,46(2):74-75.
5陈国杰,尤波.基于极坐标特征矩阵的多类对象排列结构描述方法[J].仪器仪表学报,2019,40(10):55-65.
6谭傜月,张余强,何小海,卿粼波,陈岑.基于WebGL的勘探地形及探井信息三维可视化系统设计[J].现代计算机,2020,26(3):99-103. 被引量：7
7万军,刘玉婷.新型卷缩率测试仪控制系统设计与Petri网建模（英文）[J].常州大学学报（自然科学版）,2020,32(1):48-55.
8刘明明,裴东,刘举,祝东辉,孙浩翔.基于时间正则化及背景感知的滤波器跟踪[J].激光与光电子学进展,2019,56(23):223-232. 被引量：2
9崔佳伟,李波,费国园.一种基于ViBe的自适应运动目标检测算法[J].电视技术,2019,43(11):1-5.
10吕国俊,曹建军,郑奇斌,常宸,翁年凤,彭琮.基于多目标蚁群优化的单类支持向量机相似重复记录检测[J].兵工学报,2020,41(2):324-331. 被引量：12

通信学报

2020年第2期

浏览历史

内容加载中请稍等...

基于多维度和多模态信息的视频描述方法被引量：8

同被引文献28

引证文献8

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于多维度和多模态信息的视频描述方法 被引量：8

同被引文献28

引证文献8

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于多维度和多模态信息的视频描述方法被引量：8