时空域深度卷积神经网络及其在行为识别上的应用被引量：24

Spatiotemporal Convolutional Neural Networks and its Application in Action Recognition

下载PDF

导出

摘要近年来深度卷积神经网络在静态图像识别上取得了较大进展,但在行为视频上建模运动信息的能力较弱。但是,运动信息是行为识别区别于静态图像识别的关键。基于滤波器响应积提出了时空域深度卷积神经网络。该网络先将相邻帧对应的卷积核分为两组,近似地形成傅里叶基函数对,后续的乘法层将不同帧产生的响应两两相乘后再输入加法层求和,从而将相邻帧映射到变换矩阵的特征值对应的不变子空间上,依靠相邻帧在不变子空间上的旋转角度检测它们之间的运动特征。理论分析证明,网络既对运动敏感,又对内容敏感。实验表明,该网络能对行为视频做出更准确的分类,并与近年出现的其他6种算法进行比较,结果体现了本算法的优越性。 The key thing that distinguishes action recognition from other recognition tasks is to encode motion explicitly.But,so far,most works based on convolutional neural networks（CNN）cannot properly handle the spatiotemporal interaction in video.We developed a spatiotemporal-CNN that explicitly exploits this important cue provided by video.Instead of summing filter responses,responses are multiplied and our approach is based on that.Specifically,the spatiotemporal-CNN divides convolutional kernels into two groups forming sinusoidals of Fourier Transform.Then,the responses of convolutional kernels are multiplied by multiplicative layer as calculating covariance and the outputs are put into sum layer.In this way,the inputs and adjacent frames are mapped into the subspaces spanned by the eigenvectors,and the special geometric transformations or motion features can be checked by the rotating angles in that space.Additional theoretical analysis proves that spatiotemporal-CNN is sensitive to both motion and content.The experiment shows that our approach produces more accurate classification than current algorithms.

作者刘琮许维胜吴启迪

机构地区同济大学电子与信息工程学院

出处《计算机科学》 CSCD 北大核心 2015年第7期245-249,共5页 Computer Science

关键词时空域卷积神经网络深度学习动作特征行为识别 Spatiotemporal Convolutional neural networks Deep learning Motion feature Action recognition

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献15

1胡琼,秦磊,黄庆明.基于视觉的人体动作识别综述[J].计算机学报,2013,36(12):2512-2524. 被引量：123
2孔邵颖,郭宏亮.基于可伸缩语义网络距离的Web多维信息识别算法[J].科技通报,2013,29(4):33-35. 被引量：3
3Bengio Y, Courville A, Vincent P. Representation Learning: A Review and New Perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8) : 1798-1828.
4Zhao Zeng-shun, Zhang Li, Zhao Meng, et al. Gabor face recog- nition by multi-channel classifier fusion of supervised kernel manifold learning[J]. Neuro-computing, 2012,97:398-404.
5范瑞娟,王倩,罗强.改进DV-HOP输电线路上的WSN节点定位[J].计算机仿真,2013,30(9):131-134. 被引量：4
6郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图象图形学报,2014,19(2):175-184. 被引量：145
7朱旭东,刘志镜.基于主题隐马尔科夫模型的人体异常行为识别[J].计算机科学,2012,39(3):251-255. 被引量：38
8Ji S, Xu W, Yang M, et at. 3D convolutional neural networks forhuman action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013,35 (1) : 221-231.
9Mobahi, Hossein,Collobert R, et al. Deep learning from tempo- ral coherence in video[C]//Proceedings of the 26th Annual In- ternational Conference on Machine Learning. ACM, 2009:737- 744.
10Karpathy, Andrej, et al. Large-scale video classification with convolutional neural networks[C]//IEEE Conference on Com- puter Vision and Pattern Recognition (CVPR). 2014.

二级参考文献88

1王福豹,史龙,任丰原.无线传感器网络中的自身定位系统和算法[J].软件学报,2005,16(5):857-868. 被引量：671
2熊忠阳,周亚峰.Web访问挖掘的预处理技术的研究[J].计算机技术与发展,2007,17(8):11-14. 被引量：19
3Wang L, Hu W M, Tan T N. Recent developments in human motion analysis[J]. Pattern Recognition, 2003,36 (3) : 585-601.
4Johnson N, Hogg D. Learning the distribution of object trajectories for event recognition[J].Image and Vision Computing, 1995,14(8) :609-615.
5Brand M, Oliver N, Pentland A. Coupled hidden markov models for complex action recognition [C]///Proceedings of IEEE International Conference on Computer Vision. San Juan, Puerto Rico: IEEE, 1997 : 994-999.
6Dollar P, Rabaud V, Cottrell G. Behavior recognition via sparse spatio-temporal features [C]/Proc. 2^nd Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance. China, 2005 : 65-72.
7Hongeng S, Nevatia R. Multi-agent event recognition[C]// Proceedings of Eighth International Conference on Computer Vision. Vancouver, BC, Canada: IEEE, 2001 : 84-91.
8Russo R,Shah M,Lobo N. A computer vision system for monitoring production of fast food [C]//Proceedings of The 5th Asian Conference on Computer Vision. Vancouver, Melbourne, Australia, 2002.
9Wren C, Azarbayejani A, Darrell T. Pfinder: Real-time tracking of the human body[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(7) : 780-785.
10Haritaoglu I, Harwood D, Davis L S. W4: Who when where what a real time system for detecting and tracking people[C]//Proceedings of International Conference on Face and Gesture Recognition. Nara,Japan: IEEE, 1998.

共引文献305

1谈咏东,王永雄,陈姝意,缪银龙.(2+1)D多时空信息融合模型及在行为识别的应用[J].信息与控制,2019,48(6):715-722. 被引量：3
2张常泉.基于深度学习的智能视频图像分析研究[J].计算机产品与流通,2019,0(12):177-177.
3钟媛媛,侯庭毅,郭胜福,刘增建.冰箱产线中的AI应用及综合性检测分析[J].家电科技,2022(S01):778-781.
4范银行,赵海峰,张少杰.基于3D卷积残差网络的人体动作识别算法[J].计算机应用研究,2020,37(S02):300-301. 被引量：4
5朱文和.基于高斯平滑的视频时序检测算法[J].大众标准化,2021(2):253-254.
6石林,祁君,马慰,徐守坤.基于本体的智能空间用户活动识别方法[J].计算机工程与设计,2013,34(5):1792-1796.
7徐守坤,祁君,马正华.一种基于本体的用户活动识别方法[J].常州大学学报（自然科学版）,2013,25(2):86-89.
8林国余,柏云,张为公.基于耦合隐马尔可夫模型的异常交互行为识别[J].东南大学学报（自然科学版）,2013,43(6):1217-1221. 被引量：7
9王博,李燕.视频序列中的时空兴趣点检测及其自适应分析[J].计算机技术与发展,2014,24(4):49-52. 被引量：2
10顾强.基于消除噪声的聚类算法的手机用户行为分析[J].移动通信,2014,38(7):36-39. 被引量：1

同被引文献190

1邹伟,原魁,杜清秀,徐春.基于模糊神经网络的静态手语词汇识别(英文)[J].自动化学报,2003,29(4):616-621. 被引量：2
2张天序,戴可荣,彭嘉雄.复杂图象序列的自适应目标提取和跟踪方法[J].电子学报,1994,22(10):46-53. 被引量：15
3孙凤杰,崔维新,张晋保,张旭东,肖学东.远程数字视频监控与图像识别技术在电力系统中的应用[J].电网技术,2005,29(5):81-84. 被引量：71
4姚桂林,姚鸿勋,姜峰.一种基于DTW/ISODATA算法的多层分类器手语识别方法[J].计算机工程与应用,2005,41(8):45-47. 被引量：6
5张梅军,唐建,陈江海.基于连续小波灰度图的变速箱故障诊断[J].振动．测试与诊断,2007,27(1):65-66. 被引量：7
6苏菡,黄凤岗.一种基于时空分析的步态识别方法[J].模式识别与人工智能,2007,20(2):281-286. 被引量：5
7Evgeny A S,Denis M T, Serge N A. Comparison of Regulariza- tion Methods for ImageNet Classification with Deep Convolu- tional Neural Networks [J]. Aasri Procedia, 2014,6 (1) : 89-94.
8Dong Zhen,Wu Yu-wei,Pei Ming-tao, et al. Vehicle Type Clas- sification Using a Semisupervised Convolutional Neural Net- work [J]. IEEE Transactions on Intelligent Transportation Sys- tems, 2015,16(4) : 2247-2256.
9Wu Hai-bing, Gu Xiao-dong. Towards dropout training for con- volutional neural networks [J]. Neural Networks,2015,71:1-10.
10Liu Fa-yao, Lin Guo-sheng, Shen Chun-hua. CRF leaming with CNN features for image segmentation [J]. Pattern Reeognition, 2015,48 (10) : 2983-2992.

引证文献24

1马春华,邵俊倩,秦兵.听障教学中手语识别技术的研究进展[J].绥化学院学报,2022,42(10):23-27. 被引量：2
2陈文,张恩阳,赵勇.基于多分类器协同学习的卷积神经网络训练算法[J].计算机科学,2016,43(9):223-226. 被引量：5
3杨斌,钟金英.卷积神经网络的研究进展综述[J].南华大学学报（自然科学版）,2016,30(3):66-72. 被引量：34
4刘昌鑫,张仕超,肖贻杰,莫凌飞.基于机器视觉的人体动作目标检测[J].工业控制计算机,2016,29(10):109-111.
5韩涛,袁建虎,唐建,安立周.基于MWT和CNN的滚动轴承智能复合故障诊断方法[J].机械传动,2016,40(12):139-143. 被引量：24
6秦阳,莫凌飞,郭文科,李钒.3D CNNs与LSTMs在行为识别中的组合及其应用[J].测控技术,2017,36(2):28-32. 被引量：19
7袁建虎,韩涛,唐建,安立周.基于小波时频图和CNN的滚动轴承智能故障诊断方法[J].机械设计与研究,2017,33(2):93-97. 被引量：91
8代贺,陈洪密,李志申.基于卷积神经网络的数字识别[J].贵州师范大学学报（自然科学版）,2017,35(5):96-101. 被引量：10
9王忠民,王希,宋辉.基于随机Dropout深度信念网络的移动用户行为识别方法[J].计算机应用研究,2017,34(12):3797-3800. 被引量：11
10沈铮,吴薇.基于图像处理的公交车内人群异常情况检测[J].计算机工程与设计,2018,39(1):165-171. 被引量：5

二级引证文献271

1李伟亮,江姜明,申超,王剑,严敏仪.基于卷积神经网络的预制构件在线图像监测方法[J].中国水运（下半月）,2021,21(2):38-39.
2曹双华.基于机器深度学习的核电厂主给水泵性能预测及提升关键技术研究[J].中国核电,2023,16(1):86-90.
3罗炜,薛亚东,贾非,郭永发,刘劼.基于深度学习的无砟轨道砂浆层脱空病害识别[J].现代隧道技术,2021,58(S01):129-136. 被引量：1
4王彦超,贾玲.我国听障儿童研究热点和前沿趋势——基于CiteSpace的可视化分析[J].绥化学院学报,2023,43(10):28-33.
5张俊,李昌.基于LSTM多传感器数据融合人体行为识别方法[J].芜湖职业技术学院学报,2021,23(2):32-35. 被引量：3
6刘中涛,胡凡,王淦,李钊,王磊,葛平高,王建娟.基于特征融合的深度学习场景识别与应用[J].计算机应用研究,2020,37(S01):418-420. 被引量：1
7赵国威,曾静.基于EMD-GAF和改进的SERE-DenseNet的滚动轴承故障诊断方法[J].电子测量技术,2023,46(20):170-176.
8贾鑫,梅劲松.一种强噪声背景下地铁车轮轴承故障信号的特征提取方法[J].电子测量技术,2022,45(10):133-139. 被引量：3
9钟嶒楒,方志军.基于循环神经网络的人体异常行为识别模型[J].智能计算机与应用,2021,11(11):76-78.
10李昕.适应一个更温暖的世界[J].国外科技动态,2000(1):38-39.

1王礼想,胡茂林.基于纹理对图像进行分类方法的研究[J].合肥工业大学学报（自然科学版）,2006,29(5):529-532. 被引量：3
2邱卫根,刘永清.广义系统的可正则性研究[J].系统工程与电子技术,2000,22(8):1-3.
3雷励星.基于混合能量的内容敏感图像缩放新方法[J].计算机学报,2010,33(10):2015-2021. 被引量：15
4贾英民,高为炳,程勉.同时不变子空间与鲁棒干扰解耦[J].自动化学报,1992,18(6):641-646.
5田相轩,杨君刚,杨延风,李洪卫.基于多维帧映射的光网络资源描述算法[J].高技术通讯,2014,24(8):833-841.
6章为川,张智,赵强,高燚.基于各向异性高斯方向导数滤波器的角点检测[J].西安工程大学学报,2014,28(4):491-495. 被引量：11
7李远清,刘永清,徐宝民.线性广义系统的不变子空间[J].华南理工大学学报（自然科学版）,1998,26(10):19-22.
8孙振东,夏小华,高为炳.多重（A，B）－不变子空间及多频采样控制[J].自动化学报,1995,21(3):326-332. 被引量：1
9关治洪,朱茹.一类离散脉冲切换系统的能控性研究[J].华中师范大学学报（自然科学版）,2007,41(4):490-492.
10王明明,孙晓云,邢卉.基于几何方法的控制系统故障检测与隔离算法[J].广西师范大学学报（自然科学版）,2014,32(1):32-38.

计算机科学

2015年第7期

浏览历史

内容加载中请稍等...

时空域深度卷积神经网络及其在行为识别上的应用被引量：24

参考文献15

二级参考文献88

共引文献305

同被引文献190

引证文献24

二级引证文献271

相关作者

相关机构

相关主题

浏览历史

时空域深度卷积神经网络及其在行为识别上的应用 被引量：24

参考文献15

二级参考文献88

共引文献305

同被引文献190

引证文献24

二级引证文献271

相关作者

相关机构

相关主题

浏览历史

时空域深度卷积神经网络及其在行为识别上的应用被引量：24