基于注意力机制的多尺度手部分割方法

Multi-scale hand segmentation method based on attention mechanism

下载PDF

导出

摘要针对手部边缘细节信息分割不精确及小面积手部的错检、漏检问题,提出一种基于注意力机制的多尺度手部分割方法。首先,对Transformer模块重新进行设计优化,提出窗口自注意力结构和双分支前馈神经网络(Dual-branch FeedForward Networks,D-FFN)机制,通过窗口自注意力机制整合全局和局部的依赖信息,D-FFN抑制背景信息的干扰;然后,提出一种结合条形池化和级联网络的多尺度特征提取模块增大感受野,提高手部分割模型的准确性和鲁棒性;最后,提出基于Triplet Attention机制的上采样解码器模块,通过调节通道维度与空间维度的注意力权重将目标特征和背景的冗余特征区分开。将所提算法在公开数据集GTEA(Georgia Tech Egocentric Activity)和EYTH(EgoYouTubeHands)上测试,实验结果表明,该算法在两个数据集上的平均交并比(MIoU)值分别达到了95.8%和90.2%,相较于TransUnet算法分别提升了2.5%和2.1%,满足手部图像分割的稳定可靠、精度高、抗干扰能力强等要求。 Aiming at the problem of inaccurate segmentation of hand edge detail information and missed detection of small-area hand,a multi-scale hand segmentation method based on attention mechanism is proposed.Firstly,the Transformer module is redesigned and optimized,and the window self-attention structure and D-FFN mechanism are proposed.The window self-attention mechanism integrates global and local dependent information,and D-FFN suppresses the interference of background information.Then,a multi-scale feature extraction module combining strip pooling and cascade network is proposed to increase the receptive field and improve the accuracy and robustness of the hand segmentation model.Finally,an up-sampling decoder module based on Triplet Attention mechanism is proposed.By adjusting the attention weight of channel dimension and spatial dimension,the redundant features of target features and background are distinguished.The proposed algorithm is tested on public datasets GTEA(Georgia Tech Egocentric Activity)and EYTH(EgoYouTubeHands).Experimental results show that average MIoU values of the algorithm on the two datasets reach 95.8%and 90.2%,respectively,which is 2.5%and 2.1%higher than the TransUnet algorithm.It meets the requirements of stable and reliable,high precision and strong anti-interference ability of hand image segmentation.

作者周雯晴代素敏王阳萍王文润 ZHOU Wenqing;DAI Sumin;WANG Yangpin;WANG Wenrun(School of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China;Gansu Artificial Intelligence and Graphics and Image Processing Engineering Research Center,Lanzhou 730070,China;Beijing Zhongdian Feihua Communication Co.Ltd.,Beijing 100700,China)

机构地区兰州交通大学电子与信息工程学院甘肃省人工智能与图形图像处理工程研究中心北京中电飞华通信有限公司

出处《液晶与显示》 CAS CSCD 北大核心 2024年第11期1506-1518,共13页 Chinese Journal of Liquid Crystals and Displays

基金国家自然科学基金(No.62067006,No.62367005) 甘肃省知识产权计划(No.21ZSCQ013) 兰州市青年科技人才创新项目(No.2023-QN-117) 兰州交通大学青年科学基金(No.2022012) 高校科研创新平台重大培育项目(No.2024CXPT-17)。

关键词手部分割深度学习 TransUnet 前馈神经网络空洞空间金字塔池化模块 Triplet Attention hand segmentation deep learning TransUnet feed-forward networks atrous spatial pyramid pooling triplet attention

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1袁文涛,卫文韬,高德民.融合注意力机制的多视图卷积手势识别研究[J].计算机工程,2024,50(3):208-215. 被引量：2
2林星雨,邢妍,张汉乐,王琼华.基于Leap Motion手势识别的悬浮真3D显示实时交互系统[J].液晶与显示,2022,37(5):654-659. 被引量：6

二级参考文献8

1薛钊鸿,孙梓瀚,成泽锐,方衡,黄梓钊,李佼洋,蔡志岗,王嘉辉.基于人眼检测优化的立体人机交互技术的研究[J].液晶与显示,2018,33(11):958-964. 被引量：3
2周旭峰,王醒策,武仲科,Vladimir Korkhov,Luciano Paschoal Gaspary.基于组合RNN网络的EMG信号手势识别[J].光学精密工程,2020,28(2):424-442. 被引量：12
3李炜,李海峰,徐良,西瞳.基于体感检测器件的悬浮真三维显示力触觉交互[J].光学学报,2020,40(9):121-126. 被引量：4
4范秀琴,喻洪流,李素姣.基于BiLSTM的表面肌电图手势识别算法[J].生物医学工程学进展,2021,42(2):92-96. 被引量：2
5李沿宏,江茜,邹可,袁学东.融合注意力机制的多流卷积肌电手势识别网络[J].计算机应用研究,2021,38(11):3258-3263. 被引量：11
6卫文韬,李亚军.基于双流卷积神经网络的肌电信号手势识别方法[J].计算机集成制造系统,2022,28(1):124-131. 被引量：8
7谷学静,沈攀,刘海望,郭俊,位占锋.表面肌电信号的多流卷积网络融合手势识别方法[J].计算机应用与软件,2022,39(8):220-225. 被引量：4
8李翔,张涛,张哲,魏宏杨,钱育蓉.Transformer在计算机视觉领域的研究综述[J].计算机工程与应用,2023,59(1):1-14. 被引量：17

共引文献6

1罗心洁,李伟平,贾庆伟,王刚,王宝磊,钱罡.可交互式浮空成像技术[J].功能材料与器件学报,2024(4):183-189.
2何泽浩,曹良才.面向沉浸式元宇宙的显示、交互和应用[J].科技导报,2023,41(5):6-14. 被引量：5
3项融融,李博,赵桥.基于Leap Motion手势识别的三维交互系统[J].电子设计工程,2024,32(1):44-48. 被引量：1
4邹灵果,张美花.基于数理统计特征的人机交互图像手势识别[J].黑龙江工业学院学报（综合版）,2024,24(1):97-104.
5李子龙,孙宜超,王培人,韩雪,秦柳,尚东方.基于空间悬浮的码头结构安全数字孪生技术研究[J].水道港口,2024,45(4):621-626.
6张会影,圣文顺,周子倡,袁海荣.手势识别技术研究[J].物联网技术,2024,14(11):36-38.

1张玮,刘岢,吴志学,董洁,郭昊,姜鹏浩.基于多源数据融合分析的地质风险预测算法设计[J].现代电子技术,2024,47(22):160-164.
2孙卓雅,王梦翔,宋金星,秦晓东,孙俊如,周蕾,吴亚楠,张改平.非洲猪瘟病毒p10蛋白和p49蛋白的生物信息学分析及表位预测[J].江苏农业科学,2024,52(15):195-202.
3黄宾阳,鄢鸿婧,叶大勇,梁硕,黄德宏.基于前馈神经网络的电力窃电行为识别方法[J].中国新技术新产品,2024(19):137-139.
4Catherine H.Mulyadi,Masanori Uji,Bhavesh Parmar,Kana Orihashi,Nobuhiro Yanai.Triplet−Triplet Annihilation-Based Photon Upconversion with a Macrocyclic Parallel Dimer[J].Precision Chemistry,2024,2(10):539-544.
5刘一雄,孟品超.时域声波障碍反散射问题的神经网络方法[J].长春理工大学学报（自然科学版）,2024,47(5):126-133.
6王海珍,崔志青,闫金蓥.基于SSAE-ResNet的入侵检测模型的研究[J].计算机仿真,2024,41(9):314-318.
7Senhao Wang,Xiang-Yang Liu,Mengfan Zhang,Long Wang,Ganglong Cui,Hongbing Fu,Jiannian Yao.Acceptor-Type Singlet Fission Material Based on Strong Absorption Tetracyanothienoquinoid Skeleton[J].CCS Chemistry,2024,6(9):2142-2149.
8Mark Peplow.Marine CO_(2) Removal Joins Race to Scale Up Mitigation Tech[J].Engineering,2024,40(9):8-11.
9陈孝慈,谭章禄.基于改进递归区间2型直觉FNN的时间序列预测[J].统计与决策,2024,40(20):61-66.
10吴迅,翁伟,李香格,朱同宇.基于YOLOv5s的水稻种子逐粒检测装置研制[J].兰州石化职业技术大学学报,2024,24(3):21-26.

液晶与显示

2024年第11期

浏览历史

内容加载中请稍等...

基于注意力机制的多尺度手部分割方法

参考文献2

二级参考文献8

共引文献6

相关作者

相关机构

相关主题

浏览历史