期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于图神经网络和潜在空间的连续手语识别方法
1
作者 邵俊倩 王铁滨 《绥化学院学报》 2024年第6期146-150,共5页
近年来出现的以潜在空间和分层注意力网络为基础的手语识别技术采用双通路卷积网络进行特征提取,针对大规模连续而非孤立手语数据集进行识别,大幅度提高了识别精度。由于卷积神经网络变换器将图像视为网络或序列结构,对于捕获不规则和... 近年来出现的以潜在空间和分层注意力网络为基础的手语识别技术采用双通路卷积网络进行特征提取,针对大规模连续而非孤立手语数据集进行识别,大幅度提高了识别精度。由于卷积神经网络变换器将图像视为网络或序列结构,对于捕获不规则和复杂的手语使用者即人形对象不够灵活,因此,文章将特征提取模块由卷积网络替换为图神经网络,运用图神经网络直接对连续手语视频进行特征提取,并重新调整了部分网络结构与参数以保证图神经网络特征提取模块和后续模块能够无缝融合。实验证明,融合后的新模型有效提升了手语识别的精度。 展开更多
关键词 手语识别技术 连续手语 听障教学 图神经网络
下载PDF
模块化连续手语识别算法及技术综述
2
作者 孟巾凯 彭健钧 +3 位作者 肖智东 郭立 金凯 郑彤 《小型微型计算机系统》 CSCD 北大核心 2024年第10期2428-2441,共14页
手语是听障人士和其他人之间重要的沟通方式,但许多普通人看不懂手语,导致听障人士和普通人交流障碍.随着深度学习网络在连续手语识别方向的应用,算法大模型为复杂难懂的连续手语动作翻译成通俗易懂的文本语句提供了技术基础.但是连续... 手语是听障人士和其他人之间重要的沟通方式,但许多普通人看不懂手语,导致听障人士和普通人交流障碍.随着深度学习网络在连续手语识别方向的应用,算法大模型为复杂难懂的连续手语动作翻译成通俗易懂的文本语句提供了技术基础.但是连续手语识别仍然面临着冗余帧过多,空间特征提取和时间特征提取网络不平衡,手语语序与文本语序不匹配等诸多问题.因此,研究准确率高、耗时少、场景通用性高的连续手语识别算法成为计算机视觉领域的热点问题之一.本文首先分析单模态和多模态的连续手语识别框架,并重点阐述关键帧提取、特征提取、序列学习3个模块在连续手语识别中的作用,以及模块中所用网络的优势与不足,然后总结连续手语数据集以及识别结果的评价指标,最后阐述连续手语识别算法的难点并展望其未来的发展方向. 展开更多
关键词 关键帧提取 特征提取 序列学习 连续手语识别 综述
下载PDF
多尺度视觉特征提取及跨模态对齐的连续手语识别
3
作者 郭乐铭 薛万利 袁甜甜 《计算机科学与探索》 CSCD 北大核心 2024年第10期2762-2769,共8页
连续手语识别研究中,视觉特征的有效表示是提升识别效果的关键。然而,手语动作时序长度的差异性及手语弱标注现象,使得有效的视觉特征提取更加困难。针对上述问题,提出了多尺度视觉特征提取及跨模态对齐的连续手语识别方法(MECA)。该方... 连续手语识别研究中,视觉特征的有效表示是提升识别效果的关键。然而,手语动作时序长度的差异性及手语弱标注现象,使得有效的视觉特征提取更加困难。针对上述问题,提出了多尺度视觉特征提取及跨模态对齐的连续手语识别方法(MECA)。该方法主要包含多尺度视觉特征提取模型和跨模态对齐约束。在多尺度视觉特征提取模型中,并行地融合具备不同扩张因子的瓶颈残差结构,来丰富多尺度时序感受野,用于提取不同时序长度的手语视觉特征,同时采用层级复用设计进一步强化视觉特征表示。在跨模态对齐约束中,采用动态时间规整建模手语视觉特征和文本特征之间的内在联系,其中,文本特征提取由多层感知机和长短期记忆网络协作实现。在具备挑战性的公开数据集RWTH-2014、RWTH-2014T、CSL-Daily上进行实验,结果表明所提方法达到目前具有竞争力的性能。上述实验验证了所提的采用多尺度的方式可以捕捉不同时序长度的手语动作,以及构建跨模态对齐约束的思路是正确且有效的,适用于弱监督条件下的连续手语识别任务。 展开更多
关键词 连续手语识别 多尺度 跨模态对齐约束 视频视觉特征 文本特征
下载PDF
基于身体姿态关键点检测及算法融合的连续手语识别
4
作者 陈雅茜 吴非 赵丁皓 《西南民族大学学报(自然科学版)》 CAS 2023年第2期165-172,共8页
连续手语识别相对于单个手语词识别来说,更加具有研究意义也更加具有研究难度.连续手语识别需要更关注整体语句在时间上的依赖关系,以及语句中手语词结束与开始的时序分割问题.而对此的单个识别算法的研究与优化,短时间都很难再有较大... 连续手语识别相对于单个手语词识别来说,更加具有研究意义也更加具有研究难度.连续手语识别需要更关注整体语句在时间上的依赖关系,以及语句中手语词结束与开始的时序分割问题.而对此的单个识别算法的研究与优化,短时间都很难再有较大的突破.因此,我们提出一种基于算法融合的连续手语识别方法,先通过帧间差分法处理关键帧,再通过MediaPipe检测并保存关键点数据,降低数据量,并提供有效、直接的数据;再通过CNN+BLSTM算法融合模型,让CNN专注局部感知,捕捉空间特征关系;BLSTM则侧重特征序列的时序建模,突出连续手语在时间纬度上的依赖关系.最后结合CTC完成标签和语句对齐问题.该算法在CSL数据集上取得了98.4%的平均识别率. 展开更多
关键词 连续手语识别 深度学习 CNN BLSTM 身体姿态
下载PDF
基于视频的中文连续手语识别算法 被引量:1
5
作者 刘诗瑶 张忠民 《应用科技》 CAS 2023年第3期44-49,共6页
连续手语识别是将视频序列转为符号序列的典型的弱监督问题,它只提供了句子级标签,没有提供有时间边界的帧级标签。为了克服这一问题,就需要使用连接时态分类(connectionist temporal classification,CTC),这也是目前应用最广泛的方法... 连续手语识别是将视频序列转为符号序列的典型的弱监督问题,它只提供了句子级标签,没有提供有时间边界的帧级标签。为了克服这一问题,就需要使用连接时态分类(connectionist temporal classification,CTC),这也是目前应用最广泛的方法。实验在特征提取阶段引入时间-空间注意力机制,并增加辅助对齐模块,利用聚合交叉熵(agregation cross-entropy,ACE)散度损失对特征提取部分进行训练。该模型采用端到端方式,结合ACE散度进行片段级特征学习和CTC进行全局序列特征学习的联合训练,此外,提出的随机掉帧机制还可以进一步缓解过拟合问题。在中文手语数据集CSLR上验证了改进方法的有效性,在验证集上获得了6.9%错误率,在测试集上获得了4.3%错误率。 展开更多
关键词 连续手语识别 注意力机制 时间-空间注意力机制 连接时态分类 联合训练 弱监督 跨模态 深度学习
下载PDF
基于SRN/HMM的非特定人连续手语识别系统 被引量:8
6
作者 方高林 高文 +2 位作者 陈熙霖 王春立 马继勇 《软件学报》 EI CSCD 北大核心 2002年第11期2169-2175,共7页
手语识别是通过计算机提供一种有效而准确的机制将手语翻译成文本或语音.目前最新发展水平的手语识别系统在实际应用中应解决非特定人连续手语问题.提出一种将连续手语识别分解成各孤立词识别的分治方法,用于非特定人连续手语识别.把精... 手语识别是通过计算机提供一种有效而准确的机制将手语翻译成文本或语音.目前最新发展水平的手语识别系统在实际应用中应解决非特定人连续手语问题.提出一种将连续手语识别分解成各孤立词识别的分治方法,用于非特定人连续手语识别.把精简循环网(simple recurrent network,简称SRN)作为连续手语的段边界检测器,把SRN分段结果作为隐马可夫模型(hidden Markov models,简称HMM)框架中的状态输入,在HMM框架里使用网格Viterbi算法搜索出一条最佳手语词路径.实验结果表明,该方法的识别效果比单纯使用HMM要好. 展开更多
关键词 SRN HMM 非特定人连续手语识别系统 神经网络 精简循环网络 隐马可夫规模 连续手语识别 计算机 模式识别
下载PDF
基于CNN和BLSTM的连续手语识别 被引量:6
7
作者 张淑军 王帅 李辉 《重庆理工大学学报(自然科学)》 CAS 北大核心 2022年第4期177-186,共10页
相对孤立词识别,连续手语识别对上下文的时间依赖性更强、语义更加复杂且时序分割困难,目前的研究在识别精度、背景抗干扰性和抗过拟合能力等方面仍存在不足。为此,提出一种基于CNN和BLSTM的连续手语识别方法,通过自适应视频采样,对输... 相对孤立词识别,连续手语识别对上下文的时间依赖性更强、语义更加复杂且时序分割困难,目前的研究在识别精度、背景抗干扰性和抗过拟合能力等方面仍存在不足。为此,提出一种基于CNN和BLSTM的连续手语识别方法,通过自适应视频采样,对输入视频数据进行预处理,去除无关背景的干扰;在CNN空间特征提取的基础上,利用BLSTM双向语义依赖挖掘能力,对连续手语视频进行时序建模,构建CTC损失函数解决时间序列标签对齐问题。该算法在CSL和ConGD数据集上分别取得了98.4%和62.5%的平均识别率。 展开更多
关键词 深度学习 连续手语识别 CNN BLSTM CTC
下载PDF
基于改进Transformer的连续手语识别方法 被引量:2
8
作者 王帅 张淑军 +1 位作者 叶康 郭淇 《计算机科学》 CSCD 北大核心 2022年第S02期573-578,共6页
连续手语识别是一项具有挑战性的任务,当前大多数模型忽略了对长序列的整体建模能力,导致对较长手语视频的识别和翻译准确率较低。Transformer模型独特的编解码结构可用于手语识别,但其位置编码方式以及多头自注意力机制仍有待改善。因... 连续手语识别是一项具有挑战性的任务,当前大多数模型忽略了对长序列的整体建模能力,导致对较长手语视频的识别和翻译准确率较低。Transformer模型独特的编解码结构可用于手语识别,但其位置编码方式以及多头自注意力机制仍有待改善。因此,文中提出了一种基于改进Transformer模型的连续手语识别方法,通过多处复用的带参数位置编码对连续手语句子中的每个词向量进行多次循环计算,准确掌握各个词之间的位置信息;在注意力模块中添加可学习的记忆键值对形成持久记忆模块,通过线性高维映射等比例扩大注意力头数与嵌入维度,最大程度地发挥Transformer模型的多头注意力机制对较长手语序列的整体建模能力,深入挖掘视频内部各帧中的关键信息。所提方法在最具权威的连续手语数据集PHOENIX-Weather2014和PHOENIX-Weather2014-T上取得了有竞争力的识别结果。 展开更多
关键词 连续手语识别 TRANSFORMER 多头注意力 位置编码
下载PDF
基于深度学习的连续手语语句识别算法 被引量:2
9
作者 李晨 黄元元 胡作进 《计算机技术与发展》 2021年第1期1-6,共6页
目前,关于连续手语语句识别的研究相对较少,原因在于难以有效地分割出手语词。该文利用卷积神经网络提取手语词的手型特征,同时利用轨迹归一化算法提取手语词的轨迹特征,并在此基础上完成长短期记忆网络的构建,从而为手语语句识别准备... 目前,关于连续手语语句识别的研究相对较少,原因在于难以有效地分割出手语词。该文利用卷积神经网络提取手语词的手型特征,同时利用轨迹归一化算法提取手语词的轨迹特征,并在此基础上完成长短期记忆网络的构建,从而为手语语句识别准备好手语词分类器。对于一个待识别的手语语句,采用基于右手心轨迹信息的分割算法来检测过渡动作。由过渡动作可以将语句分割为多个片段,考虑到某些过渡动作可能是手语词内部的动作,所以将若干个片段拼接成一个复合段,并按照层次遍历的次序对所有复合段运用手语词分类器进行识别。最后,采用跨段搜索的动态规划算法寻找最大后验概率的词汇序列,从而完成手语语句的识别。实验结果表明,该算法可以对47个常用手语词组成的语句做出识别,且具有较高的准确性和实时性。 展开更多
关键词 连续手语语句识别 过渡动作 卷积神经网络 长短期记忆网络 词间转移概率
下载PDF
连续手语识别中的文本纠正和补全方法 被引量:1
10
作者 龙广玉 陈益强 邢云冰 《计算机应用》 CSCD 北大核心 2021年第3期694-698,共5页
针对基于视频的连续手语识别的文本结果存在语义模糊、语序混乱的问题,提出一种两步法将连续手语识别结果的手语文本转化为通顺、可懂的汉语文本。第一步,基于自然手语规则以及N元语言模型(N-gram)对连续手语识别的结果进行文本调序;第... 针对基于视频的连续手语识别的文本结果存在语义模糊、语序混乱的问题,提出一种两步法将连续手语识别结果的手语文本转化为通顺、可懂的汉语文本。第一步,基于自然手语规则以及N元语言模型(N-gram)对连续手语识别的结果进行文本调序;第二步,利用汉语通用量词数据集训练双向长短期记忆(Bi-LSTM)网络模型,以解决手语语法无量词的问题,从而提升语句通顺度。使用绝对准确率和最长正确子序列占比作为文本调序的评价指标,实验结果显示,所提方法的文本调序结果绝对准确率为77.06%,最长正确子序列占比为86.55%,量词补全准确率为97.23%。所提的方法能够有效提升连续手语识别的文本结果的通畅度和可懂度,已成功应用于基于视频的连续手语识别,提升了听障人和健听人的无障碍交流体验。 展开更多
关键词 连续手语识别 N元语言模型 文本调序 双向长短记忆网络 量词补全
下载PDF
多层注意力机制融合的序列到序列中国连续手语识别和翻译 被引量:3
11
作者 周乐员 张剑华 +1 位作者 袁甜甜 陈胜勇 《计算机科学》 CSCD 北大核心 2022年第9期155-161,共7页
使计算机能够理解手语者的表达一直是一项极具挑战性的任务,不仅需要考虑手语视频的时间和空间信息,同时还要考虑手语语法的复杂性。在连续手语识别任务中,手语词汇和手语动作共享一致的顺序;而在连续手语翻译任务中,生成的自然语言句... 使计算机能够理解手语者的表达一直是一项极具挑战性的任务,不仅需要考虑手语视频的时间和空间信息,同时还要考虑手语语法的复杂性。在连续手语识别任务中,手语词汇和手语动作共享一致的顺序;而在连续手语翻译任务中,生成的自然语言句子应符合口语化描述,词汇顺序和动作顺序可能不一致。为了能够更加准确地学习手语者的表达,提出了一个新颖的能同时进行手语识别和翻译的深度神经网络。该方案探讨了不同的经典预训练卷积神经网络和不同的多层时序注意力分值函数在连续手语识别上的效果,网络将手语视频高级抽象特征和低级时序语义组合在多层时间注意力融合模块中,形成更全面的序列注意力融合特征,从而从连续手语视频中更准确地生成gloss句子。结合Transformer语言模型将手语识别gloss句子转换为符合手语翻译的连续自然语言句子。首先,该方法在第一个大规模的复杂背景的中国连续手语识别和翻译数据集Tslrt上进行评估。利用Tslrt数据集中手语者复杂的背景环境和丰富的动作表达来训练所提神经网络模型,通过不同的对比实验得到了一系列的基准结果。在连续手语识别和翻译的任务上,效果最好的词错误率分别达到了4.8%和5.1%。为了进一步证明所提方法的有效性,在另一个公开的中国连续手语识别数据集Chinese-CSL也进行了验证,并和其他13种公开方法进行了比较,结果表明,所提方法的词错误率达到了最好的识别效果,为1.8%,证明了该方法的有效性。 展开更多
关键词 连续手语识别和翻译 视频理解 序列模型 注意力机制融合 卷积神经网络
下载PDF
面向连续手语识别的自适应关键帧选择
12
作者 闵越聪 陈熙霖 《中国科学:信息科学》 CSCD 北大核心 2024年第4期893-910,共18页
基于视觉的连续手语识别旨在从图像序列中识别出对应的手语词序列,可以为手语使用者提供一种便利的辅助工具.现有的连续手语识别方法大多需要从图像序列中,逐帧提取视觉和时序特征,而相邻帧中存在的相似视觉信息带来了大量的冗余计算.... 基于视觉的连续手语识别旨在从图像序列中识别出对应的手语词序列,可以为手语使用者提供一种便利的辅助工具.现有的连续手语识别方法大多需要从图像序列中,逐帧提取视觉和时序特征,而相邻帧中存在的相似视觉信息带来了大量的冗余计算.本文通过分析帧率对连续手语识别算法的影响,发现降低帧率可以显著地提升计算效率,但也会带来一定的性能损失.为了在降低帧率的同时保留更多手语关键信息,本文提出了自适应动态池化层(adaptive dynamic temporal pooling,ADTP),ADTP基于序列特征的自相似性对序列进行动态下采样.在此基础上,本文进一步提出了一种两阶段的训练方式,以更充分地利用原始帧率中的时空信息.具体而言,该训练方式在第一阶段只训练基于原始帧率的手语识别模型,并以此模型为教师网络,通过知识蒸馏的方式引导第二阶段含ADTP模块的模型训练.实验结果表明,本文所提的方法在损失少量性能的情况下,可以大幅度减少识别所需的计算量.此外,本文所提出的ADTP也可用于手语视频结构分析,生成简略直观的手语视频摘要. 展开更多
关键词 连续手语识别 时间序列分析 视觉语言 知识蒸馏 计算效率
原文传递
基于注意力机制的复杂背景连续手语识别 被引量:3
13
作者 杨光义 丁星宇 +2 位作者 高毅 胡晶欣 张洪艳 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2023年第1期97-105,共9页
提出一种基于注意力机制的连续手语识别算法ACN(attention-based 3D convolutional neural network),能够识别复杂背景下的连续手语。该算法首先利用背景去除模块,对包含复杂背景的手语视频进行预处理;然后,通过基于空间注意力机制的3D-... 提出一种基于注意力机制的连续手语识别算法ACN(attention-based 3D convolutional neural network),能够识别复杂背景下的连续手语。该算法首先利用背景去除模块,对包含复杂背景的手语视频进行预处理;然后,通过基于空间注意力机制的3D-ResNet(3D residual convolutional neural network)提取时空融合信息;最后,采用结合时间注意力机制的长短期记忆(long short-term memory,LSTM)网络进行序列学习,得到最终的识别结果。算法在大规模中国连续手语数据集CSL100上表现优异;在面向不同复杂背景的情况下,算法表现出良好的泛化性能,模型引入的时空注意力机制是切实有效的。 展开更多
关键词 连续手语识别 复杂背景 注意力机制 长短期记忆
原文传递
基于CM-Transformer的连续手语识别
14
作者 叶康 张淑军 +2 位作者 郭淇 李辉 崔雪红 《北京邮电大学学报》 EI CAS CSCD 北大核心 2022年第5期49-53,78,共6页
针对捕获手语动作的全局特征和局部特征以及保留图像中原有的结构和捕获上下文联系,提出了一种改进的卷积多层感知机-自注意力(CM-Transformer)方法用于连续手语识别。CM-Transformer将卷积层的结构一致性优势与自注意力模型编码器的全... 针对捕获手语动作的全局特征和局部特征以及保留图像中原有的结构和捕获上下文联系,提出了一种改进的卷积多层感知机-自注意力(CM-Transformer)方法用于连续手语识别。CM-Transformer将卷积层的结构一致性优势与自注意力模型编码器的全局建模性能相结合,以捕获长期的序列依赖。同时将自注意力模型前馈层替换为多层感知机,以发挥其平移不变性和局部性。使用随机帧丢弃和随机梯度停止技术,减少时间和空间上的训练计算量,防止过拟合,由此构建一种高效计算的轻量级网络;最后使用连接主义时间分类解码器对输入和输出序列对齐,得到最终的识别结果。在两个大型基准数据集上的实验结果表明了所提方法的有效性。 展开更多
关键词 连续手语识别 卷积神经网络 自注意力模型 多层感知机
原文传递
基于手语表达内容与表达特征的手语识别技术综述 被引量:2
15
作者 陶唐飞 刘天宇 《电子与信息学报》 EI CSCD 北大核心 2023年第10期3439-3457,共19页
手语识别(SLR)技术是打破听障人群与健听人群间交流壁垒的重要技术手段。该文综述了近几年的手语数据集、评价指标以及手语识别方法。首先,系统梳理了手语数据集并分析了手语识别方法的数据集发展方向。其次,详细介绍了手语识别方法的... 手语识别(SLR)技术是打破听障人群与健听人群间交流壁垒的重要技术手段。该文综述了近几年的手语数据集、评价指标以及手语识别方法。首先,系统梳理了手语数据集并分析了手语识别方法的数据集发展方向。其次,详细介绍了手语识别方法的评价指标。然后,根据手语表达内容、手语识别方法所采用的特征分类总结分析了孤立词手语识别方法与连续语句识别方法、仅依靠手部特征的手语识别方法与多特征融合的手语识别方法。最后探讨了手语识别技术面临的挑战及其发展方向。 展开更多
关键词 手语识别技术 手语数据集 孤立词手语识别 连续手语识别 多特征融合手语识别
下载PDF
连续复杂手语中关键动作的提取算法 被引量:2
16
作者 徐鑫鑫 黄元元 胡作进 《计算机科学》 CSCD 北大核心 2018年第B11期189-193,共5页
文中提出了一种在手语动作中提取关键动作的算法。在连续复杂的手语动作中,关键动作数量少且状态相对稳定,因此利用关键动作构造手语的数据模型,将会减少不稳定因素,提高准确率。因此文中提出了一种自适应的分类算法,利用关键动作之间... 文中提出了一种在手语动作中提取关键动作的算法。在连续复杂的手语动作中,关键动作数量少且状态相对稳定,因此利用关键动作构造手语的数据模型,将会减少不稳定因素,提高准确率。因此文中提出了一种自适应的分类算法,利用关键动作之间时间的先后关系,以及动作上的不相关性,逐步提取关键动作。实验证明,该算法不仅可以面向非特定人群,而且无论是对单独的手语词汇,还是连续的手语语句,均可以提取到全部的关键动作。关键动作可以看作是手语的基元,因此关键动作的提取对于构造新的手语数据模型以及识别手语都具有重要意义。 展开更多
关键词 体感设备 连续复杂手语 关键动作 手语识别
下载PDF
手语识别、翻译与生成综述 被引量:12
17
作者 郭丹 唐申庚 +1 位作者 洪日昌 汪萌 《计算机科学》 CSCD 北大核心 2021年第3期60-70,共11页
手语研究是典型的多领域交叉研究课题,涉及计算机视觉、自然语言处理、跨媒体计算、人机交互等多个方向,主要包括离散手语识别、连续手语翻译和手语视频生成。手语识别与翻译旨在将手语视频转换成文本词汇或语句,而手语生成是根据口语... 手语研究是典型的多领域交叉研究课题,涉及计算机视觉、自然语言处理、跨媒体计算、人机交互等多个方向,主要包括离散手语识别、连续手语翻译和手语视频生成。手语识别与翻译旨在将手语视频转换成文本词汇或语句,而手语生成是根据口语或文本语句合成手语视频。换言之,手语识别翻译与手语生成可视为互逆过程。文中综述了手语研究的最新进展,介绍了研究的背景现状和面临的挑战;回顾了手语识别、翻译和生成任务的典型方法和前沿研究;并结合当前方法中存在的问题,对手语研究的未来发展方向进行了展望。 展开更多
关键词 视频理解 机器翻译 离散手语识别 连续手语翻译 手语视频生成
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部