-
题名基于多尺度时空卷积的唇语识别方法
- 1
-
-
作者
叶鸿
危劲松
贾兆红
郑辉
梁栋
唐俊
-
机构
安徽大学互联网学院
-
出处
《电子与信息学报》
EI
CAS
2024年第11期4170-4177,共8页
-
基金
国家自然科学基金(71971002,62273001)
安徽省自然科学基金(2108085QA35)
+2 种基金
安徽省重点研究与开发计划(202004a07020050)
安徽省科技重大专项(202003A06020016)
安徽省高校优秀科研创新团队(2022AH010005)。
-
文摘
现有的唇语识别模型大多采用将单层的3维卷积与2维卷积神经网络结合的方式,从唇语视频序列中挖掘出时空联合特征。然而,由于单层的3维卷积不能很好地提取时间信息,同时2维卷积神经网络对细粒度的唇语特征的挖掘能力有限,该文提出一种多尺度唇语识别网络(MS-LipNet)以改善唇语识别任务。该文在Res2Net网络中,采用3维时空卷积替代传统的2维卷积以更好地提取时空联合特征,同时提出时空坐标注意力模块,使网络关注于任务相关的重要区域特征。在LRW和LRW-1000数据集上进行实验,验证了所提方法的有效性。
-
关键词
唇语识别
多尺度时空卷积网络
Res2Net
时空坐标注意力
数据增强
-
Keywords
Lipreading
Multi-scale spatiotemporal convolutional network
Res2Net
Spatiotemporal coordinate attention
Data augmentation
-
分类号
TN911.73
[电子电信—通信与信息系统]
TP391.41
[自动化与计算机技术—计算机应用技术]
-