-
题名基于全局时空感受野的高效视频分类方法
- 1
-
-
作者
王辉涛
胡燕
-
机构
武汉理工大学计算机学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2020年第8期1768-1775,共8页
-
基金
湖北省自然科学基金重点类项目(2017CFA012)资助
湖北省自然科学基金项目(2019CFC919)资助.
-
文摘
在现有混合卷积神经网络架构(2D+3D)的视频分类方法中,卷积滤波器都是对局部区域进行操作,无法捕获大范围的时空依赖关系,特征通道之间缺乏相互依赖关系,传统的三维卷积核无法很好地建模时空特征.针对这些问题,提出了一种基于全局时空感受野的高效视频分类方法(CS-NL-SECO).首先将传统的三维卷积核分解成空域卷积核和时域卷积核,来更好地学习时空特征.然后在已有混合架构中的底层二维网络引入通道和空间注意力,通过学习自动获取每个特征通道的权重,依照权重关注重要的特征而抑制不相关的背景.最后在高层三维网络中引入全局时空感受野,学习全局时空特征表示自动捕获大范围的时空依赖关系.并在UCF101、HMDB51、Kinetics以及Something-something这四个视频分类常用的公有数据集上进行了实验,结果表明该方法无论在速度和精度上都远好于原方法,并且整体性能达到了最新方法的基准.
-
关键词
视频分类
卷积神经网络
通道和空间注意力
全局时空感受野
三维卷积核分解
-
Keywords
video classification
convolutional neural network
channel and spatial attention
global spatiotemporal receptive field
seperable 3D convolution kernels
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-