期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Vision Transformer的时空卷积网络设计
1
作者 谢英红 郝岩 +3 位作者 韩晓微 高强 阴彪 王朝辉 《计算机与网络》 2024年第4期283-288,共6页
目前主流人体动作识别大部分都是基于卷积神经网络(Convolutional Neural Network,CNN)实现,而CNN容易忽略视频中的空间位置信息,从而降低了视频空间频域中动作识别能力。同时传统CNN不能快速定位到关键的特征位置,并且在训练过程中不... 目前主流人体动作识别大部分都是基于卷积神经网络(Convolutional Neural Network,CNN)实现,而CNN容易忽略视频中的空间位置信息,从而降低了视频空间频域中动作识别能力。同时传统CNN不能快速定位到关键的特征位置,并且在训练过程中不能并行计算导致效率低。为了解决传统CNN在处理时间频域和多并行计算问题,提出了基于视觉Transformer(Vision Transformer,ViT)和3D卷积网络学习时空特征(Learning Spatiotemporal Features with 3D Convolutional Network,C3D)的人体动作识别算法。使用C3D提取视频的多维特征图、ViT的特征切片窗口对多维特征进行全局特征分割;使用Transformer的编码-解码模块对视频中人体动作进行预测。实验结果表明,所提的人体动作识别算法在UCF-101、HMDB51数据集上提高了动作识别的准确率。 展开更多
关键词 动作识别 视觉Transformer 卷积神经网络 3D卷积网络学习时空特征 注意力机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部