-
题名多尺度视觉特征提取及跨模态对齐的连续手语识别
- 1
-
-
作者
郭乐铭
薛万利
袁甜甜
-
机构
天津理工大学计算机科学与工程学院
天津理工大学聋人工学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2024年第10期2762-2769,共8页
-
基金
国家自然科学基金(62376197,62020106004,92048301)
天津市研究生科研创新项目(2021YJSB244)
天津市科技计划项目(23JCYBJC00360)。
-
文摘
连续手语识别研究中,视觉特征的有效表示是提升识别效果的关键。然而,手语动作时序长度的差异性及手语弱标注现象,使得有效的视觉特征提取更加困难。针对上述问题,提出了多尺度视觉特征提取及跨模态对齐的连续手语识别方法(MECA)。该方法主要包含多尺度视觉特征提取模型和跨模态对齐约束。在多尺度视觉特征提取模型中,并行地融合具备不同扩张因子的瓶颈残差结构,来丰富多尺度时序感受野,用于提取不同时序长度的手语视觉特征,同时采用层级复用设计进一步强化视觉特征表示。在跨模态对齐约束中,采用动态时间规整建模手语视觉特征和文本特征之间的内在联系,其中,文本特征提取由多层感知机和长短期记忆网络协作实现。在具备挑战性的公开数据集RWTH-2014、RWTH-2014T、CSL-Daily上进行实验,结果表明所提方法达到目前具有竞争力的性能。上述实验验证了所提的采用多尺度的方式可以捕捉不同时序长度的手语动作,以及构建跨模态对齐约束的思路是正确且有效的,适用于弱监督条件下的连续手语识别任务。
-
关键词
连续手语识别
多尺度
跨模态对齐约束
视频视觉特征
文本特征
-
Keywords
continuous sign language recognition
multi-scale
cross-modal alignment constraints
video visual fea-tures
text features
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-