基于时间动态帧选择与时空图卷积的可解释骨架行为识别

Temporal dynamic frame selection and spatio-temporal graph convolution for interpretable skeleton-based action recognition

下载PDF

导出

摘要骨架行为识别是计算机视觉和机器学习领域的研究热点。现有数据驱动型神经网络往往忽略骨架序列时间动态帧选择和模型内在人类可理解的决策逻辑,造成可解释性不足。为此提出一种基于时间动态帧选择与时空图卷积的可解释骨架行为识别方法,以提高模型的可解释性和识别性能。首先利用骨架帧置信度评价函数删除低质骨架帧,以解决骨架序列噪声问题。其次基于人体运动领域知识,提出自适应时间动态帧选择模块用于计算运动行为显著区域,以捕捉关键人体运动骨架帧的动态规律。为学习行为骨架节点内在拓扑结构,改进时空图卷积网络用于可解释骨架行为识别。在NTU RGB+D,NTU RGB+D 120和FineGym这3个大型公开数据集上的实验评估表明,该方法的骨架行为识别准确率优于对比方法并具有可解释性。 Skeleton-based action recognition is a prominent research topic in computer vision and machine learning.Existing data-driven neural networks often overlook the temporal dynamic frame selection of skeleton sequences and lack the understandable decision logic inherent in the model,resulting in insufficient interpretability.To this end,we proposed an interpretable skeleton-based action recognition method based on temporal dynamic frame selection and spatio-temporal graph convolution,thereby enhancing the interpretability and recognition performance.Firstly,the quality of skeleton frames was estimated using the joint confidence to remove low-quality skeleton frames,addressing the skeleton noise problem.Secondly,based on the domain knowledge of human activity,an adaptive temporal dynamic frame selection module was proposed for calculating the motion salient regions to capture the dynamic patterns of key skeleton frames in human motion.To represent the intrinsic topology of human joints,an improved spatiotemporal graph convolutional network was used for interpretable skeleton-based action recognition.Experiments were conducted on three large public datasets,including NTU RGB+D,NTU RGB+D 120,and FineGym,and the results demonstrated that the recognition accuracy of this method outperformed comparative methods and possessed interpretability.

作者梁成武杨杰胡伟蒋松琪钱其扬侯宁 LIANG Chengwu;YANG Jie;HU Wei;JIANG Songqi;QIAN Qiyang;HOU Ning(College of Electrical Engineering and New Energy,China Three Gorges University,Yichang Hubei 443002,China;School of Electrical and Control Engineering,Henan University of Urban Construction,Pingdingshan Henan 467036,China)

机构地区三峡大学电气与新能源学院河南城建学院电气与控制工程学院

出处《图学学报》 CSCD 北大核心 2024年第4期791-803,共13页 Journal of Graphics

基金国家自然科学基金项目(62176086,U1804152) 河南省科技攻关计划项目(242102211055)。

关键词行为识别骨架序列可解释运动显著区域时空图卷积网络 action recognition skeleton sequence interpretability motion salient regions spatio-temporal graph convolutional network

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1施海勇,侯振杰,巢新,钟卓锟.多模态时空特征表示及其在行为识别中的应用[J].中国图象图形学报,2023,28(4):1041-1055. 被引量：2
2张钹,朱军,苏航.迈向第三代人工智能[J].中国科学：信息科学,2020,50(9):1281-1302. 被引量：158
3汪成峰,陈洪,张瑞萱,朱德海,王庆,梅树立.带有关节权重的DTW动作识别算法研究[J].图学学报,2016,37(4):537-544. 被引量：4
4赵洪,宣士斌.人体运动视频关键帧优化及行为识别[J].图学学报,2018,39(3):463-469. 被引量：5

二级参考文献32

1王向东,张静文,毋立芳,徐文泉.一种运动轨迹引导下的举重视频关键姿态提取方法[J].图学学报,2014,35(2):256-261. 被引量：4
2沈军行,孙守迁,潘云鹤.从运动捕获数据中提取关键帧[J].计算机辅助设计与图形学学报,2004,16(5):719-723. 被引量：44
3王方石,须德,吴伟鑫.基于自适应阈值的自动提取关键帧的聚类算法[J].计算机研究与发展,2005,42(10):1752-1757. 被引量：32
4Galna B, Barry G, Jackson D, et al. Accuracy of theMicrosoft Kinect sensor for measuring movement inpeople with Parkinson’s disease [J]. Gait & Posture,2014, 39(4): 1062-1068.
5Zhang Z Y. Microsoft Kinect sensor and its effect [J].IEEE MultiMedia, 2012, 19(2): 4-10.
6Wang C Y, Wang Y Z, Yuille A L. An approach topose-based action recognition [C].CVPR 2013: 26thProceedings of the IEEE Conference on ComputerVision and Pattern Recognition. New York: IEEE Press,2013: 915-922.
7Seidenari L, Varano V, Berretti S, et al. Recognizing actionsfrom depth cameras as weakly aligned multi-partbag-of-poses [C].Computer Vision and Pattern RecognitionWorkshops (CVPRW), IEEE Conference on. New York:IEEE Press, 2013: 479-485.
8Beaudoin P, Coros S, van de Panne M, et al.Motion-motif graphs [C].ACM Siggraph/EurographicsSymposium on Computer Animation (2008). New York:ACM Press, 2008: 117-126.
9Müller M, Baak A, Seidel H P. Efficient and robustannotation of motion capture data [C].ACM Siggraph/Eurographics Symposium on Computer Animation(2009). New York: ACM Press, 2009: 17-26.
10Barbi?J, Safonova A, Pan J Y, et al. Segmenting motioncapture data into distinct behaviors [J]. Proceedings ofGraphics Interface 2004. Canadian Human-ComputerCommunications Society, 2004, (5): 185-194.

共引文献165

1龚善要.人工智能司法应用的实践审思与完善[J].国家检察官学院学报,2023,31(5):95-108. 被引量：4
2尚凡成,孔繁钰,詹可,朱仁传.基于神经网络的船舶剖面参数化建模与辐射水动力系数预测[J].水动力学研究与进展（A辑）,2022,37(6):751-756.
3刘三女牙.人工智能与教育双向赋能的人才培养模式创新和体系重构[J].科教发展研究,2022(2):42-56. 被引量：5
4王丽莉.一种具有自学习能力的用户感知人工智能测量方法[J].电子测量技术,2023,46(6):147-152. 被引量：1
5王沛然.从控制走向训导:通用人工智能的“直觉”与治理路径[J].东方法学,2023(6):188-198. 被引量：17
6王俊峰.基于图像识别的武术动作分解方法研究[J].现代电子技术,2017,40(15):33-36. 被引量：1
7张莹莹,郭星.基于Kinect动态手势识别算法的研究与实现[J].计算机技术与发展,2017,27(12):11-15. 被引量：10
8梁建胜,温贺平.基于深度学习的视频关键帧提取与视频检索[J].控制工程,2019,26(5):965-970. 被引量：21
9朱晋,怀丽波,崔荣一,王齐.MapReduce框架下基于正负关联规则的视频人物关系挖掘[J].计算机应用研究,2020,37(8):2333-2337.
10刘云.论可解释的人工智能之制度构建[J].江汉论坛,2020(12):113-119. 被引量：21

1朱雯琪,冯陈,周宇轩,张陈瑞,韩昊轩.基于EMD-KPCA-LSTM的抽水蓄能机组振动预测[J].水电能源科学,2024,42(8):160-163.
2王焕清,孟竺,刘思文.基于事件触发的高阶切换非线性系统的有限时间动态面跟踪控制[J].渤海大学学报（自然科学版）,2024,45(2):124-133.
3韩莹,曹允重,张凌珺,赵芮晗,董昌明.融合IVMD的海表温度时空智能预测方法[J].海洋测绘,2024,44(3):53-57.
4洪金明.数字经济应用场景下企业数据资源会计处理探讨[J].财务与会计,2024(16):43-45.
5张声权,林涵,朱毅,刘雪梅,夏永秋.太湖区小微水体氮素内源释放-沉降动态规律[J].农业环境科学学报,2024,43(8):1859-1868.
6乐懿婷.数据驱动时代上海图书馆为企业商业决策情报服务新实践——基于某500强企业A的数据交付服务案例[J].情报探索,2024(8):112-118.
7马润菊,郭光辉,方辽,臧建成.西藏林芝月季访花昆虫多样性及活动规律[J].西藏科技,2024,46(7):6-13.
8李运福,王斐.学校数据文化建设:内涵、要点及建议[J].中国教育信息化,2024,30(8):52-61.

图学学报

2024年第4期

浏览历史

内容加载中请稍等...

基于时间动态帧选择与时空图卷积的可解释骨架行为识别

参考文献4

二级参考文献32

共引文献165

相关作者

相关机构

相关主题

浏览历史