基于深度学习的词语级中文唇语识别

Chinese word-level lip reading based deep learning

下载PDF

导出

摘要在无声或噪声干扰严重的环境下,或对于存在听觉障碍的人群,唇语识别至关重要。针对词语级中文唇语识别的问题,提出了SinoLipReadingNet模型,前端采用Conv3D+ResNet34结构用于时空特征提取,后端分别采用Conv1D结构和Bi-LSTM结构用于分类预测,并引入Self-Attention、CTCLoss对Bi-LSTM后端进行改进。最终在新网银行唇语识别数据集上进行实验,结果表明,SinoLipReadingNet模型在识别准确率上明显优于中科院D3D模型,多模型融合的预测准确率达到了77.64%,平均字错率为21.68%。 Lip reading is crucial in the silent environment or environments with serious noise interference,or for people with hearing impairment.For word-level Chinese lip reading problem,SinoLipReadingNet model is proposed,the front end of which with Conv3D and ResNet34 is used to extract temporal-spatial features,and the back end of which with Conv1D and Bi-LSTM are used for classification and prediction respectively.Also,self-attention and CTCLoss are added to improve the back end with Bi-LSTM.Finally,the SinoLipReadingNet model is tested on XWBank lipreading dataset and results show that the prediction accuracy is significantly better than that of D3D model,the prediction accuracy and avrage CER of multi-model fusion reaches 77.64%and 21.68%respectively.

作者陈红顺陈观明 Chen Hongshun;Chen Guanming(School of Information Technology,Beijing Normal University(Zhuhai),Zhuhai 519087,China;Zhuhai Orbita Aerospace Science&Technology Co.,Ltd.,Zhuhai 519080,China)

机构地区北京师范大学珠海分校信息技术学院珠海欧比特宇航科技股份有限公司

出处《电子技术应用》 2022年第12期54-58,共5页 Application of Electronic Technique

关键词唇语识别 ResNet Bi-LSTM CTCLoss 自注意力机制 lip reading ResNet Bi-LSTM CTCLoss self-attention

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1任玉强,田国栋,周祥东,吕江靖,周曦.高安全性人脸识别系统中的唇语识别算法研究[J].计算机应用研究,2017,34(4):1221-1225. 被引量：19
2陈小鼎,盛常冲,匡纲要,刘丽.唇读研究进展与展望[J].自动化学报,2020,46(11):2275-2301. 被引量：4
3马金林,陈德光,郭贝贝,周洁.唇语语料库综述[J].计算机工程与应用,2019,55(22):1-13. 被引量：6
4马金林,朱艳彬,马自萍,巩元文,陈德光,刘宇灏.唇语识别的深度学习方法综述[J].计算机工程与应用,2021,57(24):61-73. 被引量：4

二级参考文献12

1洪晓鹏,姚鸿勋,徐铭辉.基于句子级的唇读语料库及其切分算法[J].计算机工程与应用,2005,41(3):174-177. 被引量：7
2徐彦君,杜利民,李国强,张欣,周治.汉语听觉视觉双模态数据库CAVSR1.0[J].声学学报,2000,25(1):42-49. 被引量：16
3姚鸿勋,高文,王瑞,郎咸波.视觉语言——唇读综述[J].电子学报,2001,29(2):239-246. 被引量：30
4张泽梁,杨成佳,宋绍成.唇读研究进展综述[J].计算机工程与设计,2014,35(6):2135-2141. 被引量：1
5曹瑜,涂玲,毋立芳.身份认证中灰度共生矩阵和小波分析的活体人脸检测算法[J].信号处理,2014,30(7):830-835. 被引量：23
6刘丽,谢毓湘,魏迎梅,老松杨.局部二进制模式方法综述[J].中国图象图形学报,2014,19(12):1696-1720. 被引量：60
7刘丽,赵凌君,郭承玉,王亮,汤俊.图像纹理分类方法研究进展和展望[J].自动化学报,2018,44(4):584-607. 被引量：55
8马金林,陈德光,郭贝贝,周洁.唇语语料库综述[J].计算机工程与应用,2019,55(22):1-13. 被引量：6
9陈小鼎,盛常冲,匡纲要,刘丽.唇读研究进展与展望[J].自动化学报,2020,46(11):2275-2301. 被引量：4
10Amany M.Sarhan,Nada M.Elshennawy,Dina M.Ibrahim.HLR-Net: A Hybrid Lip-Reading Model Based on Deep Convolutional Neural Networks[J].Computers, Materials & Continua,2021(8):1531-1549. 被引量：2

共引文献25

1王丽.基于活体人脸检测的智能门禁系统设计[J].无线互联科技,2017,14(17):33-34.
2张亚飞,耿梦伟,尹玉倩,齐立萍.基于人工智能的唇语识别技术[J].信息与电脑,2018,30(10):121-122.
3杨龙生,贾振堂.用于可靠身份认证的唇语识别[J].电视技术,2018,42(10):88-91.
4张自友.一种基于LBP和GLCM的单帧人脸近红外图活体检测方法[J].乐山师范学院学报,2018,33(12):5-12. 被引量：3
5王同磊.深度学习在解决光线影响人脸识别活体检测算法中的应用[J].电子技术与软件工程,2019(3):58-59.
6任静.基于Hadoop云计算环境下人脸识别系统的研究与实现[J].电子设计工程,2019,27(5):116-120. 被引量：3
7马钰锡,谭励,董旭,于重重.面向VTM的交互式活体检测算法[J].计算机工程,2019,45(3):256-261. 被引量：8
8张进,张娜娜.优化特征提取的互动式人脸活体检测研究[J].计算机工程与应用,2019,55(13):193-200. 被引量：7
9周文琼,王乐球,林树华.智慧供电服务柜员机系统设计与实现[J].软件导刊,2019,18(7):123-127.
10骆天依,刘大运,李修政,房国志,安欣,魏华杰,胡城.基于CNN与Bi-LSTM的唇语识别研究[J].软件导刊,2019,18(10):36-39. 被引量：2

1张成浩.“爬树课”让体育课有意义、有意思[J].人民教育,2022(23):45-45.
2严伟杨,饶红霞,段恒.基于Stacking多模型融合算法的害鸟密度预测方法[J].工业控制计算机,2022,35(12):20-22. 被引量：1
3曾圣钧,关振球.大湾区互联网银行发展现状与同业合作策略研究[J].国际金融,2022(11):75-80.
4张洁,项小玲,蔡亚岐,徐琳.油田采油废水处理过程中溴代硅氧烷的生成及其在周边水环境中的归趋[J].环境化学,2022,41(11):3473-3481. 被引量：1
5闵欣,熊浩.烟酰胺腺嘌呤二核苷酸和SIRT1在获得性感音神经性听力损失中的研究进展[J].国际耳鼻咽喉头颈外科杂志,2022,46(6):353-356.
6九部门印发《科技支撑碳达峰碳中和实施方案(2022—2030年)》[J].中国环境监察,2022(8):9-9.
7杨丽琪,薛颖哲.新生儿黄疸经皮胆红素测定与血清胆红素测定的相关性分析[J].中国冶金工业医学杂志,2022,39(6):697-698. 被引量：3
8杨茹,彭梅,刘威,王圣应.C-TIRADS+BRAFV600E预测LNM价值——以甲状腺微小乳头状癌CLNM患者为例[J].现代科学仪器,2022,39(6):76-79.
9王建国,王志刚.规模性科研建筑设计的新探索——中科院量子信息与量子科技创新研究院建筑设计[J].建筑学报,2022(11):33-35. 被引量：1
10齐亮,杨斌,梁彤祥,胡义锋.面向稀土领域的现代产业学院人才培养模式研究[J].科教导刊,2022(23):31-33.

电子技术应用

2022年第12期

浏览历史

内容加载中请稍等...

基于深度学习的词语级中文唇语识别

参考文献4

二级参考文献12

共引文献25

相关作者

相关机构

相关主题

浏览历史