融合CNN与时序Transformer的动态手势识别

Dynamic gesture recognition by fusing CNN and temporal Transformer

下载PDF

导出

摘要针对传统手势识别方法没有综合考虑手势的全局空间、局部空间、时序等特征信息,提取的特征通常很难全面表征手势之间的区别,提出了一种卷积神经网络(CNN)和Transformer网络相结合的网络结构。首先对输入视频序列的每一帧使用轻量化MobileNet V3卷积神经网络来提取空间特征信息,再将输出经过pathch embedding后加上时序嵌入序列,输入到Transformer模型中利用注意力机制来提取手势的全局注意力特征和时序特征。并在两个公开数据集DHG-14/28和VIVA上进行了实验,与经典方法相比,平均识别精度分别提升了2.38%、1.87%和3.74%。实验结果表明,提出的方法能够准确地提取动态手势序列的特征并表征手势类别。 Traditional gesture recognition methods do not comprehensively consider the global spacial feature,local spacial feature,temporal feature and other feature information of hand gestures,and the extracted features are usually difficult to fully represent the difference between hand gestures.In response to this problem,a network structure that combines a convolutional neural network and a Transformer network was proposed.Specifically,the LiteMobileNet V3 convolutional neural network is used to extract spatial feature information for each of the input video sequences.The output was then fed into patch embedding and added to the temporal embedding,and then the Transformer model was fed to use the attention mechanism to extract the global attention features and temporal features of hand gestures.Experiments were conducted on two public datasets DHG-14/28 and VIVA Hand Gesture.The average recognition accuracy of DHG-14,DHG-28 and VIVA data sets was improved by 2.38%,1.87%and 3.74%,respectively.Experimental results show that the proposed method can accurately extract the features of dynamic gesture sequences and represent hand gesture categories.

作者王丰平张云 WANG Fengping;ZHANG Yun(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650504,China;Key Laboratory of Applications of Computer Technology of Yunnan Province,Kunming 650504,China)

机构地区昆明理工大学信息工程与自动化学院云南省计算机应用技术重点实验室

出处《陕西理工大学学报（自然科学版）》 2023年第4期35-43,共9页 Journal of Shaanxi University of Technology:Natural Science Edition

基金国家自然科学基金项目(61262043) 云南省科技计划项目(2011FZ029) 云南省重点实验室开放基金项目(2020106)。

关键词手势识别 MobileNet V3 TRANSFORMER 时序特征 hand gesture recognition MobileNet V3 Transformer temporal feature

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1刘璇恒,邓宝松,裴育,范博辉,谢良,闫野,印二威.穿戴式手势交互系统与识别算法研究[J].小型微型计算机系统,2020,41(11):2241-2248. 被引量：11
2缪永伟,李佳颖,刘家宗,陈佳舟,孙树森.融合关节旋转特征和指尖距离特征的手势识别[J].计算机学报,2020,43(1):78-92. 被引量：14

二级参考文献8

1朱继玉,王西颖,王威信,戴国忠.基于结构分析的手势识别[J].计算机学报,2006,29(12):2130-2137. 被引量：26
2杨学文,冯志全,黄忠柱,何娜娜.结合手势主方向和类-Hausdorff距离的手势识别[J].计算机辅助设计与图形学学报,2016,28(1):75-81. 被引量：21
3徐军,刘春花,孟月霞,马静.可穿戴手势识别控制器[J].电子技术应用,2016,42(7):68-71. 被引量：7
4千承辉,邵晶雅,夏涛,刘怀宾.基于Kinect的手语识别方法[J].传感器与微系统,2019,38(6):31-34. 被引量：11
5施向军,王星尧.基于红外传感器和隐马尔可夫模型的动态手势识别[J].电子器件,2018,41(5):1286-1290. 被引量：11
6石雨鑫,邓洪敏,郭伟林.基于混合卷积神经网络的静态手势识别[J].计算机科学,2019,46(B06):165-168. 被引量：7
7林君宇,李奕萱,郑聪尉,罗雯波,许蕾.应用卷积神经网络识别花卉及其病症[J].小型微型计算机系统,2019,40(6):1330-1335. 被引量：21
8张烈平,匡贞伍,李昆键,韦克莹,王政忠,张声岚,王瑞.基于加速度传感器和神经网络的人体活动行为识别[J].现代电子技术,2019,42(16):71-74. 被引量：12

共引文献23

1朱玉霞,崔永霞.络泰治疗急性脑梗死50例疗效观察[J].中草药,2000,31(1):74-74. 被引量：1
2姜洋洋.基于卷积神经网络与CUDA加速计算的手势识别算法应用研究[J].系统仿真技术,2020,16(1):22-26. 被引量：3
3郭丹,唐申庚,洪日昌,汪萌.手语识别、翻译与生成综述[J].计算机科学,2021,48(3):60-70. 被引量：12
4王晓慧,覃京燕.虚拟数字人手势交互设计[J].包装工程,2021,42(6):46-52. 被引量：5
5李和森,柳冠中.基于人机工程的智能塑壳断路器面板造型设计[J].机械设计,2021,38(5):127-131. 被引量：3
6刘亮,蒲浩洋.基于LSTM的多维度特征手势实时识别[J].计算机科学,2021,48(8):328-333. 被引量：7
7黄孝斌,王志龙,高雪,钱利军.虚拟现实技术的电力行业地理信息系统(GIS)设计[J].信息技术,2021,45(7):31-37. 被引量：5
8朱想先,楼逸伦.轻量级视觉手势识别系统[J].电子元器件与信息技术,2021,5(6):199-200. 被引量：1
9柳碎周.应用虚拟现实技术实现三维风景园林的设计[J].信息技术,2022,46(1):169-174.
10徐晓君,常会丽.多线程交互学习软件系统安全漏洞自动化检测[J].计算机仿真,2022,39(4):335-340. 被引量：4

1微有声[J].党员生活（湖北）,2023(20):62-63.
2金融八卦女.经济环境决定了你穿什么颜色的衣服[J].青年博览,2023(13):8-9.

陕西理工大学学报（自然科学版）

2023年第4期

浏览历史

内容加载中请稍等...

融合CNN与时序Transformer的动态手势识别

参考文献2

二级参考文献8

共引文献23

相关作者

相关机构

相关主题

浏览历史