融合空间-时间双网络流和视觉注意的人体行为识别被引量：12

Human Action Recognition via Spatio-temporal Dual Network Flow and Visual Attention Fusion

下载PDF

导出

摘要该文受人脑视觉感知机理启发,在深度学习框架下提出融合时空双网络流和视觉注意的行为识别方法。首先,采用由粗到细Lucas-Kanade估计法逐帧提取视频中人体运动的光流特征。然后,利用预训练模型微调的GoogLeNet神经网络分别逐层卷积并聚合给定时间窗口视频中外观图像和相应光流特征。接着,利用长短时记忆多层递归网络交叉感知即得含高层显著结构的时空流语义特征序列;解码时间窗口内互相依赖的隐状态;输出空间流视觉特征描述和视频窗口中每帧标签概率分布。其次,利用相对熵计算时间维每帧注意力置信度,并融合空间网络流感知序列标签概率分布。最后,利用softmax分类视频中行为类别。实验结果表明,与其他现有方法相比,该文行为识别方法在分类准确度上具有显著优势。 Inspired by the mechanism of human brain visual perception, an action recognition approach integrating dual spatio-temporal network flow and visual attention is proposed in a deep learning framework. First, the optical flow features with body motion are extracted frame-by-frame from video with coarse-to-fine Lucas-Kanade flow estimation. Then, the GoogLeNet neural network with fine-tuned pre-trained model is applied to convoluting layer-by-layer and aggregate respectively appearance images and the related optical flow features in the selected time window. Next, the multi-layered Long Short-Term Memory （LSTM） neural networks are exploited to cross-recursively perceive the spatio-temporal semantic feature sequences with high level and significant structure. Meanwhile, the inter-dependent implicit states are decoded in the given time window, and the attention salient feature sequence is obtained from temporal stream with the visual feature descriptor in spatial stream and the label probability of each frame. Then, the temporal attention confidence for each frame with respect to human actions is calculated with the relative entropy measure and fused with the probability distributions with respect to the action categories from the given spatial perception network stream in the video sequence. Finally, the softmax classifier is exploited to identify the category of human action in the given video sequence. Experimental results show that this presented approach has significant advantages in classification accuracy compared with other methods.

作者刘天亮谯庆伟万俊伟戴修斌罗杰波 LIU Tianliang1,QIAO Qingwei1, WAN Junwei1, DAI Xiubin1,LUO Jiebo2(1.Jiangsu Provincial Key Laboratory of Image Processing and Image Communication, Nanjing University of Posts and Telecommunications, Nanjing 210003, China;2.Department of Computer Science, University of Rochester, Rochester 14627, US)

机构地区南京邮电大学江苏省图像处理与图像通信重点实验室罗彻斯特大学计算机科学系

出处《电子与信息学报》 EI CSCD 北大核心 2018年第10期2395-2401,共7页 Journal of Electronics & Information Technology

基金国家自然科学基金(61001152 31200747 61071091 61071166 61172118) 江苏省自然科学基金(BK2012437) 南京邮电大学校级科研基金(NY214037) 国家留学基金~~

关键词人体行为识别光流双重时空网络流视觉注意力卷积神经网络长短时记忆神经网络 Human action recognition Optical flow Spatio-temporal dual network flow Visual attention Convolution Neural Network （CNN） Long Short-Term Memory （LSTM）

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1张良,鲁梦梦,姜华.局部分布信息增强的视觉单词描述与动作识别[J].电子与信息学报,2016,38(3):549-556. 被引量：11

二级参考文献17

1BEBAR A A and HEMAYED E E. Comparative study for feature detector in human activity recognition[C]. IEEE the9th International conference on Computer Engineering Conference, Giza, 2013: 19-24. doi: 10.1109/ICENCO.2013. 6736470.
2LI F and DU J X. Local spatio-temporal interest point detection for human action recognition[C]. IEEE the 5th International Conference on Advanced Computational Intelligence, Nanjing, 2012: 579-582. doi: 10.1109/ICACI. 2012.6463231.
3ONOFRI L, SODA P, and IANNELLO G. Multiple subsequence combination in human action recognition[J]. IEEE Journal on Computer Vision, 2014, 8(1): 26-34. doi: 10.1049/iet-cvi.2013.0015.
4FOGGIA P, PERCANNELLA G, SAGGESE A, et al. Recognizing human actions by a bag of visual words[C]. IEEE International Conference on Systems, Man, and Cybernetics~ Manchester, 2013: 2910-2915. doi: 10.1109/SMC.2013.496.
5ZHANG X, MIAO Z J, and WAN L. Human action categories using motion descriptors[C]. IEEE 19th International Conference on hnage Processing, Orlando, FL, 2012: 1381-1384. doi: 10.1109/ICIP.2012.6467126.
6LI Y and KUAI Y H. Action recognition based on spatio-temporal interest point[C]. IEEE the 5th International.
7Conference on Biomedical Engineering and Informatics, Chongqing, 2012: 181-185. doi: 10.1109/BMEI.2012.6512972.
8REN H and MOSELUND T B. Action recognition using salient neighboring histograms[C]. IEEE the 20th International Conference on Image Processing, Melbourne, VIC, 2013: 2807-2811. doi: 10.1109/ICIP.2013.6738578.
9COZAR J R, GONZALEZ-LINARES J M, GUIL N, et al. Visual words selection for human action classification[C]. International Conference on High Performance Computing and Simulation, Madrid, 2012: 188-194. doi: 10.1109/ HPCSim.2012.6266910.
10WANG H R, YUAN C F, HU W M, et al. Action recognition using nonnegative action component representation and sparse basis selection[J]. IEEE Transactions on Image Processing, 2014, 23(2): 570-581. doi: 10.1109/TIP.2013. 2292550.

共引文献10

1李玉鹏,刘婷婷,张良.基于深度学习的人体动作识别方法[J].计算机应用研究,2020,37(1):304-307. 被引量：6
2马玲,周斌.三维视觉图像跟踪运动员对受伤目标监测仿真[J].计算机仿真,2017,34(2):422-425. 被引量：3
3高亮.基于计算机视觉的运动员错误动作识别模型构建及仿真[J].微型电脑应用,2018,34(6):59-62. 被引量：4
4鹿天然,于凤芹,杨慧中,陈莹.基于显著性检测和稠密轨迹的人体行为识别[J].计算机工程与应用,2018,54(14):163-167. 被引量：7
5闫航,陈刚,崔莉亚,张乐芸,胡北辰.基于单目视觉的在线人体康复动作识别[J].计算机应用与软件,2021,38(2):171-178. 被引量：2
6张良,钱毅敏.基于深度图像和骨骼信息的人体动作识别方法[J].中国民航大学学报,2021,39(2):54-60. 被引量：1
7苗仲菁,马帅帅,单涛.基于超宽带雷达的人体动作识别技术研究[J].舰船电子工程,2021,41(11):92-95.
8陈莹,龚苏明.改进通道注意力机制下的人体行为识别网络[J].电子与信息学报,2021,43(12):3538-3545. 被引量：12
9龚苏明,陈莹.时空特征金字塔模块下的视频行为识别[J].计算机科学与探索,2022,16(9):2061-2067. 被引量：3
10刘婷婷,李玉鹏,张良.多视角深度运动图的人体行为识别[J].中国图象图形学报,2019,0(3):400-409. 被引量：5

同被引文献60

1沈海燕,冯云梅,史宏.基于信息融合的客运站人体异常行为识别研究[J].公路交通科技,2009(S1):58-61. 被引量：2
2王昌喜,杨先军,徐强,马祖长,孙怡宁.基于三维加速度传感器的上肢动作识别系统[J].传感技术学报,2010,23(6):816-819. 被引量：27
3王娜,瓮长水,朱才兴,刘立明,焦伟国,王秋华,郭燕梅.老年人下肢肌力、协调性和反应时的年龄特征相关性[J].中国康复理论与实践,2011,17(12):1155-1157. 被引量：9
4方匡南,吴见彬,朱建平,谢邦昌.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38. 被引量：661
5高亚南,许永利,陈雪丽.老年综合评估在老年康复中的应用[J].中国康复理论与实践,2013,19(5):452-456. 被引量：26
6吕温,徐贵力,程月华,李开宇,王彪.基于局部时空特征的人体行为软分类识别[J].计算机与现代化,2014(3):94-98. 被引量：5
7刘皓,郭立,易波,王冠中.基于3D骨架和MCRF模型的行为识别[J].中国科学技术大学学报,2014,44(4):285-291. 被引量：5
8陈龙彪,李石坚,潘纲.智能手机:普适感知与应用[J].计算机学报,2015,38(2):423-438. 被引量：48
9高发荣,王佳佳,席旭刚,佘青山,罗志增.基于粒子群优化-支持向量机方法的下肢肌电信号步态识别[J].电子与信息学报,2015,37(5):1154-1159. 被引量：20
10刘程程,元香南,张立新,张志强.老年人与健康大学生平地行走时足底压力特征比较[J].中国康复理论与实践,2015,21(5):544-548. 被引量：16

引证文献12

1张健,张永辉,何京璇.基于DenseNet和深度运动图的行为识别算法[J].信息技术与网络安全,2020,39(1):63-69. 被引量：1
2张燕,王铭玥,王婕,姜恺宁,张筠晗.基于Xception-LSTM的下肢运动能力评价方法[J].中国康复理论与实践,2020,26(6):643-647. 被引量：1
3周云,陈淑荣.基于双流非局部残差网络的行为识别方法[J].计算机应用,2020,40(8):2236-2240. 被引量：6
4李新科,刘欣雨,李勇明,曹海林,陈艺航,林宜成,黄新鑫.基于惯导信息和卷积神经网络的人体活动识别[J].生物医学工程学杂志,2020,37(4):596-601. 被引量：4
5卫星,杨国强,陆阳,魏臻.基于深度学习的车辆时序动作检测算法[J].计算机工程与设计,2020,41(12):3510-3516. 被引量：2
6王粉花,张强,黄超,张苒.融合双流三维卷积和注意力机制的动态手势识别[J].电子与信息学报,2021,43(5):1389-1396. 被引量：23
7曹毅,刘晨,盛永健,黄子龙,邓小龙.基于三维图卷积与注意力增强的行为识别模型[J].电子与信息学报,2021,43(7):2071-2078. 被引量：8
8杨观赐,李杨,赵乐,刘赛赛,何玲,刘丹.基于传感器数据的用户行为识别方法综述[J].包装工程,2021,42(18):94-102. 被引量：7
9陈晓禾,曹旭刚,陈健生,胡春华,马羽.基于三维卷积的帕金森患者拖步识别[J].电子与信息学报,2021,43(12):3467-3475. 被引量：1
10龚苏明,陈莹.时空特征金字塔模块下的视频行为识别[J].计算机科学与探索,2022,16(9):2061-2067. 被引量：3

二级引证文献57

1费树岷,赵宏涛,杨艺,李春锋.基于时序拓扑非共享图卷积和多尺度时间卷积的骨架行为识别[J].信息与控制,2023,52(6):758-772.
2钟嶒楒,方志军.基于循环神经网络的人体异常行为识别模型[J].智能计算机与应用,2021,11(11):76-78. 被引量：1
3张毅,赵杰煜,王翀,郑烨.时域注意力Dense-TCNs在多模手势识别中的应用[J].计算机工程,2020,46(9):101-109. 被引量：3
4刘鹏程,曾国锋,李康,欧阳滢,廖阳,谭寒松,周龙.基于Bobath理念下运动治疗结合呼吸引导训练对脑卒中偏瘫患者下肢功能恢复的疗效分析[J].按摩与康复医学,2021,12(15):29-31. 被引量：3
5陶庆凤.基于人工蜂群算法的无线网络攻击行为的辨识研究[J].宁夏师范学院学报,2021,42(7):89-95.
6雷恒,王晓艳.基于深度学习的机械手势识别研究[J].中国设备工程,2021(20):84-85.
7陈浩龙.基于卷积神经网络的多传感器下坐姿识别研究[J].计算机技术与发展,2021,31(11):183-188. 被引量：4
8解迎刚,王全.基于视觉的动态手势识别研究综述[J].计算机工程与应用,2021,57(22):68-77. 被引量：21
9裴利沈,刘少博,赵雪专.人体行为识别研究综述[J].计算机科学与探索,2022,16(2):305-322. 被引量：10
10仇娇慧,贝绍轶,尹明锋,卿宏军.基于改进YOLOv5s的齿轮表面缺陷检测[J].现代制造工程,2022(3):104-113. 被引量：15

1潘国辉,张圣钰.电影《匆匆那年》的怀旧美学[J].名作欣赏（评论版）（中旬）,2017(12):163-164.
2李欣.完美的“她”——介绍微软媒体播放器[J].软件世界,1999(11):123-126.
3无名侦探，你准备好了吗？[J].少年博览（初中版）,2018,0(6):38-39.
4于楼成.体育领域视频运动目标的跟踪方法研究[J].电视技术,2018,42(9):74-79. 被引量：4
5于婧.爱·家庭·梦想——《寻梦环游记》记忆主题[J].艺苑,2018,0(4):30-31. 被引量：2
6黄金国,刘涛,周先春,严锡君.基于群组运动模式变化分析的群体骚乱行为检测[J].计算机科学,2018,45(9):314-319. 被引量：1
7周鲁科,朱信忠.基于U-net网络的肺部肿瘤图像分割算法研究[J].信息与电脑,2018,30(5):41-44. 被引量：6
8帅丹.解码时间之美IWC万国表携新系列巡展亮相成都[J].优雅,2017,0(9):106-106.
9吴昊,平鹏,孙立博,秦文虎.基于改进LRCN模型的驾驶行为图像序列识别方法[J].江苏大学学报（自然科学版）,2018,39(3):303-308. 被引量：8
10陈顾江,吉亚军,冯莉,杨亚莉,吴师伟,侯剑飞,张余斌,吴弘.起搏器对于交叉感知的处理及心电图表现[J].中国心脏起搏与心电生理杂志,2017,31(6):576-585. 被引量：5

电子与信息学报

2018年第10期

浏览历史

内容加载中请稍等...

融合空间-时间双网络流和视觉注意的人体行为识别被引量：12

参考文献1

二级参考文献17

共引文献10

同被引文献60

引证文献12

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

融合空间-时间双网络流和视觉注意的人体行为识别 被引量：12

参考文献1

二级参考文献17

共引文献10

同被引文献60

引证文献12

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

融合空间-时间双网络流和视觉注意的人体行为识别被引量：12