摘要
近年来,随着移动互联网的发展和移动智能终端的普及,微视频已经在社交媒体平台上广泛地传播。微视频中包含的场所信息具有重要的应用价值。本文比较了视觉和声音模态对微视频场所分类性能的影响,验证了视觉模态的重要性,同时验证了两者之间的信息互补特性。除此之外,为弥补前人对不同视觉特征提取网络考虑较少的不足,本文选用了几种典型且高效的视觉特征提取主干网络,研究了不同主干网络提取的视觉特征对微视频场所分类模型性能的影响,验证了更强的视觉特征更有利于分类任务,在最优的分类模型NNeXtVLAD+中,相比于VGG16,Inception-ResNet-v2对应的性能提升9%。