摘要
随着互联网的兴盛和信息技术的飞速发展,大众媒体开始从以文字和图像为主的形式逐渐向以视频为主的形态演变,大量视频数据不断涌出。因此,能够高效、及时地进行视频分类和管理的视频标注成为时下一大热门。视频标注本质是序列到序列的转换[1],特点在于视频的内容信息并不能用割裂的一帧帧的图像数据来表征,而需要强调视频前后的连续性和关联性。此外,对于普通观众而言,视频中附加的声音信息同样是接收和理解视频内容的关键要素。然而,现有的用于视频标注的神经网络大多没有利用声音信息来进行标注输出。对此,该文提出一种基于S2VT模型的、融合声音和图像信息的神经网络,运用循环神经网络算法以及编码解码结构,对输入的视频进行时序性学习,并最终输出一段有意义、便于理解的文字。在数据预处理方面,该文选择从图像信息中提取3D特征[2],使用业内流行的MFCC算法将输入的声音部分转化为声音特征,最后将保存这两个特征的矩阵有序拼接输入神经网络中。该文针对最终模型输出效果进行了对比实验,发现在训练条件一致的情况下,添加了声音特征的模型在处理含有声音信息的视频时,能够取得比不添加声音特征时更好、更自然的语句输出。
出处
《电脑知识与技术》
2020年第33期195-197,共3页
Computer Knowledge and Technology
基金
东南大学大学生创新创业训练项目——融合图像、声音和手语信息的视频标注(项目编号:201910286190X)。