多尺度输入3D卷积融合双流模型的行为识别方法被引量：10

Multi-scale 3D Convolution Fusion Two-Stream Networks for Action Recognition

下载PDF

导出

摘要基于视频的行为识别技术在计算机视觉领域有广泛的应用.针对当前存在的网络模型不能有效结合视频数据中的时空信息,并且缺乏对不同尺度数据之间的融合信息进行考虑等问题,提出一种结合双流网络以及3D卷积神经网络的多尺度输入3D卷积融合双流模型.首先利用2D残差网以及多尺度输入3D卷积融合网络获取视频中的时空维度信息;然后将2层网络得到的实验结果进行决策相加,有效地提升网络对视频中时空特征提取的能力;最后通过在多尺度输入3D卷积融合网络对不同尺度的数据进行不同策略的融合,提高了网络对不同尺度数据的泛化能力.实验结果表明,文中模型在数据集UCF-101以及HMDB-51的识别准确率分别为90.5%与66.3%;相比于其他方法,该模型能取得更高的识别精度,体现出文中方法的优越性与鲁棒性. Action recognition technology based on videos has been widely used in the field of computer vision.The existing networks cannot effectively combine the spatio-temporal information of video data and lacks consideration of fusion information between different scale data.This paper proposes a multi-scale 3D convolution fusion two-stream network that combines the two-stream network and the 3D convolution neural network.Firstly,the spatial and temporal dimension information of videos are obtained by using 2D residual networks and multi-scale 3D convolution fusion networks.Then,experimental results of the two networks are combined with fusion,to effectively improve the ability of the network to extract the spatio-temporal features of videos.Finally,the generalization ability of the network to different scale data is improved by the fusion of different strategies in multi-scale 3D convolution fusion network.The model was experimented and test in the data set of UCF-101 and HMDB-51,the experimental results were 90.5%and 66.3%,compared with other algorithms,the proposed model can achieve higher recognition accuracies and embody the superiority and the robustness of the algorithm.

作者宋立飞翁理国汪凌峰夏旻 Song Lifei;Weng Liguo;Wang Lingfeng;Xia Min(Institute of Information and Control,Nanjing University of Information Science and Technology,Nanjing 210044;National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190)

机构地区南京信息工程大学信息与控制学院中国科学院自动化研究所模式识别国家重点实验室

出处《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2018年第11期2074-2083,共10页 Journal of Computer-Aided Design & Computer Graphics

基金国家自然科学基金(61503192 61773377) 江苏省自然科学基金(BK20161533)

关键词行为识别 3D卷积深度学习多尺度输入信息融合 action recognition 3D convolution deep learning multi-scale input fusion of information

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1李瑞峰,王亮亮,王珂.人体动作行为识别研究综述[J].模式识别与人工智能,2014,27(1):35-48. 被引量：96
2刘琮,许维胜,吴启迪.时空域深度卷积神经网络及其在行为识别上的应用[J].计算机科学,2015,42(7):245-249. 被引量：24
3秦阳,莫凌飞,郭文科,李钒.3D CNNs与LSTMs在行为识别中的组合及其应用[J].测控技术,2017,36(2):28-32. 被引量：19
4刘智,黄江涛,冯欣.构建多尺度深度卷积神经网络行为识别模型[J].光学精密工程,2017,25(3):799-805. 被引量：31

二级参考文献152

1Mokhber A,Achard C,Milgram M. Recognition of Human Behavior by Space-Time Silhouette Characterization[J].Pattern Recognition Let-ters,2008,(01):81-89.
2Polat E,Yeasin M,Sharma R. Robust Tracking of Human Body Parts for Collaborative Human Computer Interaction[J].{H}COMPUTER VISION AND IMAGE UNDERSTANDING,2003,(01):44-69.
3Kjellstr?m H,Romero J,Kragic' D. Visual Object-Action Recogni-tion:Inferring Object Affordances from Human Demonstration[J].{H}COMPUTER VISION AND IMAGE UNDERSTANDING,2011,(01):81-90.
4Suma E A,Krum D M,Lange B. Adapting User Interfaces for Gestural Interaction with the Flexible Action and Articulated Skele-ton Toolkit[J].Computers& Graphics,2012,(03):193-201.
5Ayers D,Shah M. Monitoring Human Behavior from Video Taken in an Office Environment[J].{H}IMAGE AND VISION COMPUTING,2001,(12):833-846.
6López M T,Fernández-Caballero A,Fernández M A. Visual Surveillance by Dynamic Visual Attention Method[J].Pattern Recogni-tion,2006,(11):2194-2211.
7Aggarwal J K,Park S. Human Motion:Modeling and Recognition of Actions and Interactions[A].Thessaloniki,Greece,2004.640-647.
8Moeslund T B,Hilton A,Krüger V. A Survey of Advances in Vision-Based Human Motion Capture and Analysis[J].{H}COMPUTER VISION AND IMAGE UNDERSTANDING,2006,(2/3):90-126.
9Poppe R. A Survey on Vision-Based Human Action Recognition[J].{H}IMAGE AND VISION COMPUTING,2010,(06):976-990.
10Weinland D,Ronfard R,Boyer E. A Survey of Vision-Based Meth-ods for Action Representation,Segmentation and Recognition[J].Com-puter Vision and Image Understanding,2011,(02):224-241.

共引文献164

1李伟亮,江姜明,申超,王剑,严敏仪.基于卷积神经网络的预制构件在线图像监测方法[J].中国水运（下半月）,2021,21(2):38-39.
2建中华,南静,刘鑫,代伟.基于时空张量融合的人体骨架行为自适应识别方法[J].仪器仪表学报,2023,44(6):74-85. 被引量：1
3马春华,邵俊倩,秦兵.听障教学中手语识别技术的研究进展[J].绥化学院学报,2022,42(10):23-27. 被引量：2
4贾双成,杨凤萍.基于神经网络的人体动态行为智能识别方法[J].科技通报,2020(1):60-63. 被引量：1
5许志豪,高铭,殷绍轩,崔杰.基于OpenPose的滑雪动作分析[J].智能计算机与应用,2022,12(4):101-103. 被引量：6
6周前祥,郭华岭,廖德智.载人航天器地理位置指示器工效学设计仿真软件的研制[J].计算机仿真,2000,17(1):60-63.
7徐岩,孙美双.基于卷积神经网络的水下图像增强方法[J].吉林大学学报（工学版）,2018,48(6):1895-1903. 被引量：21
8张薇,吕晓琪,吴凉,张明,李菁.基于典型医学图像的分类技术研究进展[J].激光与光电子学进展,2018,55(12):90-99. 被引量：8
9张飞燕,李俊峰.基于光流速度分量加权的人体行为识别[J].浙江理工大学学报（自然科学版）,2015,33(1):115-123. 被引量：2
10应锐,蔡瑾,冯辉,杨涛,胡波.基于运动块及关键帧的人体动作识别[J].复旦学报（自然科学版）,2014,53(6):815-822. 被引量：6

同被引文献63

1李培华,肖莉娟.基于Mean Shift的相似性变换和仿射变换目标跟踪算法[J].中国图象图形学报,2011,16(2):258-266. 被引量：16
2刘琮,许维胜,吴启迪.时空域深度卷积神经网络及其在行为识别上的应用[J].计算机科学,2015,42(7):245-249. 被引量：24
3单言虎,张彰,黄凯奇.人的视觉行为识别研究回顾、现状及展望[J].计算机研究与发展,2016,53(1):93-112. 被引量：47
4倪鹤鹏,刘亚男,张承瑞,王云飞,夏飞虎,邱正师.基于机器视觉的Delta机器人分拣系统算法[J].机器人,2016,38(1):49-55. 被引量：71
5孙翔侃,白宝兴.基于机器学习的NAO机器人检测跟踪[J].长春理工大学学报（自然科学版）,2016,39(2):116-119. 被引量：10
6朱煜,赵江坤,王逸宁,郑兵兵.基于深度学习的人体行为识别算法综述[J].自动化学报,2016,42(6):848-857. 被引量：132
7尹宏鹏,陈波,柴毅,刘兆栋.基于视觉的目标检测与跟踪综述[J].自动化学报,2016,42(10):1466-1489. 被引量：295
8秦阳,莫凌飞,郭文科,李钒.3D CNNs与LSTMs在行为识别中的组合及其应用[J].测控技术,2017,36(2):28-32. 被引量：19
9徐峰,张军平.人脸微表情识别综述[J].自动化学报,2017,43(3):333-348. 被引量：47
10李倩玉,蒋建国,齐美彬.基于改进深层网络的人脸识别算法[J].电子学报,2017,45(3):619-625. 被引量：47

引证文献10

1荆于勤.基于卷积神经网络的视频人体行为识别方法[J].科技视界,2020,0(4):209-210.
2掌静,陈志,岳文静.基于特征关联的视频中群体人物行为语义抽取[J].计算机技术与发展,2020,30(4):26-30.
3王国辉,杨波,王春阳.基于深度学习的自动驾驶车辆运动规划研究[J].长春理工大学学报（自然科学版）,2020,43(2):94-98. 被引量：7
4曹宇,张庆鹏.基于深度学习的汽车保险片识别插接研究[J].制造技术与机床,2020(12):138-141. 被引量：1
5李元祥,谢林柏.结合RGB-D视频和卷积神经网络的行为识别算法[J].计算机与数字工程,2020,48(12):3052-3058. 被引量：1
6王新文,谢林柏,彭力.时序行为提名的上下文信息融合方法[J].计算机科学与探索,2021,15(3):486-494.
7薛盼盼,刘云,李辉,陶冶,田嘉意.基于时域扩张残差网络和双分支结构的人体行为识别[J].控制与决策,2022,37(11):2993-3002. 被引量：5
8陈斌,朱晋宁.双流增强融合网络微表情识别[J].智能系统学报,2023,18(2):360-371. 被引量：3
9王辉,丁铂栩.三维点云表示的人体动作序列预测[J].应用科学学报,2023,41(3):461-475. 被引量：1
10马永航,林志诚.基于ResNet的轻量化视频行为识别方法[J].移动信息,2024,46(1):204-206.

二级引证文献18

1建中华,南静,刘鑫,代伟.基于时空张量融合的人体骨架行为自适应识别方法[J].仪器仪表学报,2023,44(6):74-85. 被引量：1
2单兆晨,黄丹丹,耿振野,刘智.结合Spatial CNN的端到端自动驾驶研究[J].长春理工大学学报（自然科学版）,2021,44(3):102-108. 被引量：4
3霍旭坤,马晓录,刘艳,吴立辉.基于转向角变换的智能转运叉车运动规划研究[J].机电工程,2021,38(9):1212-1220. 被引量：1
4刘仁杰,孟品超,尹伟石.利用神经网络重构多个障碍物位置[J].长春理工大学学报（自然科学版）,2021,44(5):122-128. 被引量：4
5杨和峰.基于运动特征数据的人体运动行为特征关联分布模型[J].中国新技术新产品,2022(19):26-28.
6张伟,康莉.基于三维多视点网球运动数据集的人体姿态识别与估计方法[J].兰州文理学院学报（自然科学版）,2023,37(2):111-116.
7刘茜,邱官升,曾召余.改进A*算法融合DWA算法的自动驾驶路径规划[J].自动化与仪器仪表,2023(2):32-36. 被引量：2
8姬晓飞,赵东阳.人体检测与异常行为识别联合算法[J].科学技术与工程,2023,23(8):3370-3378. 被引量：6
9陈斌,樊飞燕,张睿.年龄算子深度稀疏融合扩展表情识别[J].南京师范大学学报（工程技术版）,2023,23(3):43-52.
10周林,何理,王宸,黄玉春,周志霄,王生怀.基于改进U-Net的小型机械零件识别与定位方法研究[J].制造技术与机床,2024(2):91-98.

1裴颂文,杨保国,顾春华.融合的三维卷积神经网络的视频流分类研究[J].小型微型计算机系统,2018,39(10):2266-2270. 被引量：5
2张长庆,王德顺,胥丽丽,于东华.智慧聊城时空信息云平台建设案例[J].智能城市,2018,4(18):40-41. 被引量：1
3盛艳燕.数据出版影响科研不端行为的实证研究——以问卷调查数据处理过程为例[J].中国出版,2018(10):49-53. 被引量：1
4李贤阳,阳建中,杨竣辉,陆安山.深度运动图耦合正则化表示的行为识别算法[J].电子测量与仪器学报,2018,32(1):119-128. 被引量：8
5黄友文,万超伦.基于深度学习的人体行为识别算法[J].电子技术应用,2018,44(10):1-5. 被引量：7
6杜勇,王春明,崔金,李磊军,崔尧,郭培智.基于稀疏时空特征描述的驾驶者多种非安全驾驶行为识别[J].智能计算机与应用,2018,8(6):49-53. 被引量：1
7杨秀峰.信息技术与教育教学深度融合[J].明日,2018(12):41-41.
8张鹏程,杨梅,何华贵.基于ArcGIS的智慧广州时空云平台开发及应用[J].工程勘察,2018,46(10):47-51. 被引量：9
9郭朝峰,郭丽芳.RCS在电信运营商的应用[J].通信企业管理,2018,0(9):58-60.
10王晓燕,韩笑,王雪婷.图像处理领域运动目标跟踪技术综述[J].科学技术创新,2018(25):97-98. 被引量：2

计算机辅助设计与图形学学报

2018年第11期

浏览历史

内容加载中请稍等...

多尺度输入3D卷积融合双流模型的行为识别方法被引量：10

参考文献4

二级参考文献152

共引文献164

同被引文献63

引证文献10

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

多尺度输入3D卷积融合双流模型的行为识别方法 被引量：10

参考文献4

二级参考文献152

共引文献164

同被引文献63

引证文献10

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

多尺度输入3D卷积融合双流模型的行为识别方法被引量：10