-
题名基于深度学习的词语级中文唇语识别
- 1
-
-
作者
陈红顺
陈观明
-
机构
北京师范大学珠海分校信息技术学院
珠海欧比特宇航科技股份有限公司
-
出处
《电子技术应用》
2022年第12期54-58,共5页
-
文摘
在无声或噪声干扰严重的环境下,或对于存在听觉障碍的人群,唇语识别至关重要。针对词语级中文唇语识别的问题,提出了SinoLipReadingNet模型,前端采用Conv3D+ResNet34结构用于时空特征提取,后端分别采用Conv1D结构和Bi-LSTM结构用于分类预测,并引入Self-Attention、CTCLoss对Bi-LSTM后端进行改进。最终在新网银行唇语识别数据集上进行实验,结果表明,SinoLipReadingNet模型在识别准确率上明显优于中科院D3D模型,多模型融合的预测准确率达到了77.64%,平均字错率为21.68%。
-
关键词
唇语识别
ResNet
Bi-LSTM
ctcloss
自注意力机制
-
Keywords
lip reading
ResNet
Bi-LSTM
ctcloss
self-attention
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-