模块化连续手语识别算法及技术综述

Review of Modular Continuous Sign Language Recognition Methods and Techniques

下载PDF

导出

摘要手语是听障人士和其他人之间重要的沟通方式,但许多普通人看不懂手语,导致听障人士和普通人交流障碍.随着深度学习网络在连续手语识别方向的应用,算法大模型为复杂难懂的连续手语动作翻译成通俗易懂的文本语句提供了技术基础.但是连续手语识别仍然面临着冗余帧过多,空间特征提取和时间特征提取网络不平衡,手语语序与文本语序不匹配等诸多问题.因此,研究准确率高、耗时少、场景通用性高的连续手语识别算法成为计算机视觉领域的热点问题之一.本文首先分析单模态和多模态的连续手语识别框架,并重点阐述关键帧提取、特征提取、序列学习3个模块在连续手语识别中的作用,以及模块中所用网络的优势与不足,然后总结连续手语数据集以及识别结果的评价指标,最后阐述连续手语识别算法的难点并展望其未来的发展方向. Sign language is an important way of communication between hearing impaired people and other people,but many ordinary people cannot read sign language,which leads to communication barriers between hearing impaired people and ordinary people.With the application of deep learning networks in the direction of continuous sign language recognition,algorithmic large models provide a technical basis for the translation of complex and difficult continuous sign language actions into easy-to-understand text utterances.However,continuous sign language recognition still faces several challenges,such as excessive redundant frames,network imbalance between spatial feature extraction and temporal feature extraction,and sign language order mismatch with text order.Therefore,the research on continuous sign language recognition algorithms with high accuracy,low time consumption and high scene generality has become one of the hot issues in computer vision.This paper firstly analyses the framework of unimodal and multimodal continuous sign language recognition,and focuses on the roles of the three modules of keyframe extraction,feature extraction,and sequence learning in continuous sign language recognition,as well as the strengths and weaknesses of the network used in the module.Then,the continuous sign language dataset and the evaluation indexes of recognition results are summarized.Finally,the difficulties of continuous sign language recognition algorithms are described and future directions are presented.

作者孟巾凯彭健钧肖智东郭立金凯郑彤 MENG Jinkai;PENG Jianjun;XIAO Zhidong;GUO Li;JIN Kai;ZHENG Tong(School of Information Science and Engineering,Dalian Polytechnic University,Dalian 116034,China;National Centre for Computer Animation,Bournemouth University,Bournemouth BH125BB,United Kingdom;Liaoning Provincial Internet Public Opinion Monitoring Center,Shenyang 110000,China)

机构地区大连工业大学信息科学与工程学院伯恩茅斯大学国家计算机动画中心辽宁省互联网舆情监测中心

出处《小型微型计算机系统》 CSCD 北大核心 2024年第10期2428-2441,共14页 Journal of Chinese Computer Systems

基金辽宁省教育厅科学研究经费项目(面上项目)(LJKZ0529)资助国家留学基金项目(202008210334)资助.

关键词关键帧提取特征提取序列学习连续手语识别综述 keyframe extraction feature extraction sequence learning continuous sign language recognition review

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1王帅,张淑军,叶康,郭淇.基于改进Transformer的连续手语识别方法[J].计算机科学,2022,49(S02):573-578. 被引量：2
2王军,鹿姝,李云伟.融合注意力机制和连接时序分类的多模态手语识别[J].信号处理,2020,36(9):1429-1439. 被引量：5
3周舟,韩芳,王直杰.面向手语识别的视频关键帧提取和优化算法[J].华东理工大学学报（自然科学版）,2021,47(1):81-88. 被引量：6
4刘群坡,盛月琴,高如新,卜旭辉.基于关键帧和注意力残差网络的手语识别[J].计算机工程,2023,49(12):224-230. 被引量：3
5路飞,韩祥祖,程显鹏,田国会.基于轻量3D CNNs和Transformer的手语识别[J].华中科技大学学报（自然科学版）,2023,51(5):13-18. 被引量：2
6杨观赐,韩海峰,刘赛赛,蒋亚汶,李杨.基于全局注意力机制和LSTM的连续手语识别算法[J].包装工程,2022,43(8):28-34. 被引量：4
7应捷,徐文成,杨海马,刘瑾,郑乐芊.融合自适应图卷积与Transformer序列模型的中文手语翻译方法[J].计算机应用研究,2023,40(5):1589-1594. 被引量：2
8杨光义,丁星宇,高毅,胡晶欣,张洪艳.基于注意力机制的复杂背景连续手语识别[J].武汉大学学报（理学版）,2023,69(1):97-105. 被引量：3
9闫思伊,薛万利,袁甜甜.手语识别与翻译综述[J].计算机科学与探索,2022,16(11):2415-2429. 被引量：4
10郭丹,唐申庚,洪日昌,汪萌.手语识别、翻译与生成综述[J].计算机科学,2021,48(3):60-70. 被引量：12

二级参考文献35

1王正胜,连淑红.中国手语翻译研究二十年述评[J].译苑新谭,2021,2(1):99-108. 被引量：1
2阳书平,林行刚.Key Frame Extraction Using Unsupervised Clustering Based on a Statistical Model[J].Tsinghua Science and Technology,2005,10(2):169-173. 被引量：5
3王骐,陈熙霖,王春立,高文.一种可处理数据缺失的视角无关手语识别方法[J].计算机学报,2009,32(5):953-961. 被引量：3
4杨斯涵.基于边缘特征的单帧图像清晰度判定[J].计算机工程与应用,2009,45(30):198-199. 被引量：8
5刘明涛,雷勇.基于数据手套的汉语手指字母流识别系统[J].计算机工程,2011,37(22):168-170. 被引量：5
6杨全,彭进业.基于深度信息和SURF-BoW的中国手语识别算法[J].模式识别与人工智能,2014,27(8):741-749. 被引量：6
7毛峡,李辰,吴星宇.基于点上下文描述子的三维手势轨迹识别[J].华中科技大学学报（自然科学版）,2016,44(8):52-57. 被引量：3
8郭鑫鹏,黄元元,胡作进.基于关键帧的连续手语语句识别算法研究[J].计算机科学,2017,44(B11):178-183. 被引量：4
9王民,李泽洋,王纯,石新源.基于压缩感知与SURF特征的手语关键帧提取算法[J].激光与光电子学进展,2018,55(5):184-191. 被引量：10
10马楠,石祥滨,代钦,刘翠微,刘芳.一种音乐舞蹈视频关键帧提取方法[J].系统仿真学报,2018,30(7):2801-2807. 被引量：4

共引文献29

1张斌,刘长红,曾胜,揭安全.基于时空图卷积网络的语音驱动个人风格手势生成方法[J].计算机科学,2022,49(S02):604-608.
2邓佳乐,彭钰洁,邓成.基于游戏引擎的人工智能手语电视播报系统设计和实现[J].广播电视信息,2022,29(S01):109-112. 被引量：1
3戴兴雨,王卫民,梅家俊.基于深度学习的手语识别算法研究[J].现代计算机,2021,27(29):63-69. 被引量：4
4胡瑛,罗银,张瀚文,杨萌浩.基于注意力机制的3D卷积神经网络孤立词手语识别[J].湖南工程学院学报（自然科学版）,2022,32(1):55-60. 被引量：4
5杨观赐,韩海峰,刘赛赛,蒋亚汶,李杨.基于全局注意力机制和LSTM的连续手语识别算法[J].包装工程,2022,43(8):28-34. 被引量：4
6刘继兴,周昕,张帅峰,曾令辉,段珍灵,沈顺权.基于人工智能的手语翻译系统实现[J].科技创新与应用,2022,12(23):41-43. 被引量：2
7周乐员,张剑华,袁甜甜,陈胜勇.多层注意力机制融合的序列到序列中国连续手语识别和翻译[J].计算机科学,2022,49(9):155-161. 被引量：3
8高雪雪,谷林.基于骨骼点特征的运动视频关键帧提取模型[J].国外电子测量技术,2022,41(9):88-94. 被引量：2
9朱海艳,张付春,季跃龙,李盟,王百洋.基于神经网络的脑电信号体质检测研究[J].数字印刷,2022(6):53-63. 被引量：1
10林嵩.基于计算机视觉的视频图像关键帧提取及修复方法[J].重庆科技学院学报（自然科学版）,2022,24(6):65-70. 被引量：1

1张纯(编绘).“无声”面面包店[J].连环画报,2024(9):58-65.
2郭乐铭,薛万利,袁甜甜.多尺度视觉特征提取及跨模态对齐的连续手语识别[J].计算机科学与探索,2024,18(10):2762-2769.
3居文平,王一帆,赵勇,谢小军.新型电力系统长时储能技术综述[J].热力发电,2024,53(9):1-9.
4郑男.基于计算机视觉的行人重识别技术综述[J].专利代理,2024(3):67-76.
5魏英姿,尹苏渝,张宇恒.提取多场景视频关键帧的复合HOG特征聚类方法[J].软件导刊,2024,23(9):187-192.
6何顺泉,查云飞.锂离子动力电池液体热管理技术综述[J].汽车文摘,2024(10):1-8.
7高超,韦斌,隋宇,吴杰康,孙烨桦,詹耀国,邓小玉,陈亚彬.能源低碳利用评价指标与技术综述[J].南方能源建设,2024,11(5):178-190.
8苏江香.信息技术应用于中职英语阅读教学的策略研究[J].教师,2024(24):42-44.
9窦夏如.舞蹈语言在特殊儿童教育中的应用刍议[J].尚舞,2024(14):75-77.
10马寻君,蔚俊,刘海涛,李娅,吴淏,皇艳波,徐彼得,林力,王金武.手术机器人关键技术综述与优化探讨[J].中国医疗器械杂志,2024,48(5):505-511.

小型微型计算机系统

2024年第10期

浏览历史

内容加载中请稍等...

模块化连续手语识别算法及技术综述

参考文献10

二级参考文献35

共引文献29

相关作者

相关机构

相关主题

浏览历史