唇语识别的视觉特征提取方法综述被引量：2

Review of Extracting Methods for Lip Visual Features

下载PDF

导出

摘要现有唇语识别研究多专注于提高识别精度、研究多模态输入特征等方面,对提高唇部视觉特征的有效性关注不多。而唇部的视觉信息在视觉语音识别和唇语识别中起着关键作用,尤其在音频被破坏或无音频信息时,唇部视觉信息尤为重要。如何获取准确有效的唇部视觉特征是当前唇语识别的难点工作之一。从唇语数据集、传统视觉特征提取方法、视觉特征提取的深度学习方法三方面综述了唇语识别方向近年来的最新研究工作:首先,总结了唇语识别数据集,将唇语数据集分为正视图和多视图两种类型,并总结整理两类数据集的特点、局限性和下载地址;其次,从像素点、形状和混合特征的角度介绍了唇部视觉特征提取的传统方法,重点介绍各方法的基本思想、网络结构和特点;然后,介绍了唇部视觉特征提取的深度学习方法,重点介绍2D CNN、3D CNN、2D CNN与3D CNN相结合、其他神经网络四种深度学习方法的网络结构和优缺点,并比较了这些方法在公开数据集上的性能表现;最后,对唇部视觉特征提取方法所面临的挑战和未来研究趋势进行了展望。 Current research on lip recognition focuses on improving recognition accuracy and studying features of multimodal inputs.However,little attention has been paid to improving the effectiveness of lip visual features.Lip visual information plays a key role in visual speech recognition and lip recognition.It is important when audio is destroyed or has no information.How to obtain accurate and effective lip visual features is one of the most difficult tasks in lip recognition.This paper reviews the latest research work on lip recognition in recent years from three aspects:lip dataset,traditional visual feature extraction methods,and in-depth learning methods for visual feature extraction.Firstly,this paper summarizes the dataset for lip recognition.The lip dataset is divided into two types:front view and multi-view.Further two types of datasets are summarized from their characteristics,limitations,and download addresses.Secondly,this paper introduces the traditional methods of lip visual feature extraction from the perspective of pixel point,shape and mixed features.The basic idea,network structure and features of each method are mainly introduced.In the deep learning method of lip visual feature extraction,the network structure,advantages and disadvantages of four deep learning methods are mainly introduced,such as 2D CNN,3D CNN,2D CNN combined with 3D CNN,and other neural networks.The performance of these methods on open datasets is compared.Finally,the challenges faced by lip visual feature extraction methods and future research trends are prospected.

作者马金林巩元文马自萍陈德光朱艳彬刘宇灏 MA Jinlin;GONG Yuanwen;MA Ziping;CHEN Deguang;ZHU Yanbin;LIU Yuhao(School of Computer Science and Engineering,North Minzu University,Yinchuan 750021,China;Key Laboratory for Intelligent Processing of Computer Images and Graphics of National Ethnic Affairs Commission of the PRC,Yinchuan 750021,China;School of Mathematics and Information Science,North Minzu University,Yinchuan 750021,China)

机构地区北方民族大学计算机科学与工程学院图像图形智能处理国家民委重点实验室北方民族大学数学与信息科学学院

出处《计算机科学与探索》 CSCD 北大核心 2021年第12期2256-2275,共20页 Journal of Frontiers of Computer Science and Technology

基金北方民族大学中央高校基本科研业务费专项(2021KJCX09,ZDZX201801) 宁夏自然科学基金(2020AAC3215) 北方民族大学“计算机视觉与虚拟现实”创新团队项目国家自然科学基金(61462002) 北方民族大学研究生创新项目(YCX21081)。

关键词唇语识别视觉特征深度学习 lip recognition visual feature deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1张晓冰,龚海刚,杨帆,戴锡笠.基于端到端句子级别的中文唇语识别研究[J].软件学报,2020,31(6):1747-1760. 被引量：6
2荣传振,岳振军,贾永兴,王渊,杨宇.唇语识别关键技术研究进展[J].数据采集与处理,2012,27(S2):277-283. 被引量：4
3马金林,陈德光,郭贝贝,周洁.唇语语料库综述[J].计算机工程与应用,2019,55(22):1-13. 被引量：6

二级参考文献41

1张建明,陶宏,王良民,詹永照,宋顺林.基于SVD的唇动视觉语音特征提取技术[J].江苏大学学报（自然科学版）,2004,25(5):426-429. 被引量：3
2洪晓鹏,姚鸿勋,徐铭辉.基于句子级的唇读语料库及其切分算法[J].计算机工程与应用,2005,41(3):174-177. 被引量：7
3Alan L. Yuille,Peter W. Hallinan,David S. Cohen.Feature extraction from faces using deformable templates[J]. International Journal of Computer Vision . 1992 (2)
4Michael Kass,Andrew Witkin,Demetri Terzopoulos.Snakes: Active contour models[J]. International Journal of Computer Vision . 1988 (4)
5Cootes TF,Edwards GJ,Taylor CJ.Active appearance models. IEEE Transactions on Pattern Analysis and Machine Intelligence . 2001
6Yao Wenjuan,Liang Ya-ling,Du Ming-hui.A Real-time Lip Localization and Tacking for Lip Reading. 2010 the 3rd International Conference on Advanced Computer Theory and Engineering (ICACTE 2010) . 2010
7Lewis T W,Powers D M W.Lip feature extractionusing red exclusion. Selected papers from Pan-Sydney Area Workshop on Visual Information Pro-cessing . 2001
8Silsbee PL,Bovik AC.Computer lipreading for improved accuracy in automatic speech recognition. IEEE Transactions on Speech & Audio Processing . 1996
9Lee K D,Lee M J,Lee S Y.Extraction of frame difference features based on PCA and ICA for lipreading. International Joint Conference on Neural Networks . 2005
10Scanlon P,Reilly R B.Feature analysis for automat-ic speechreading. IEEE International Conferenceon Multimedia Signal Processing . 2001

共引文献12

1刘建通.基于Kinect的听障人士语言能力康复辅助系统[J].现代计算机,2016,22(5):92-95. 被引量：1
2张剑,屈丹,李真.基于循环神经网络语言模型的N-best重打分算法[J].数据采集与处理,2016,31(2):347-354. 被引量：3
3马金林,朱艳彬,马自萍,巩元文,陈德光,刘宇灏.唇语识别的深度学习方法综述[J].计算机工程与应用,2021,57(24):61-73. 被引量：4
4何珊,袁家斌,陆要要.基于中文发音视觉特点的唇语识别方法研究[J].计算机工程与应用,2022,58(4):157-162. 被引量：2
5何立,庞善民.结合年龄监督和人脸先验的语音-人脸图像重建[J].浙江大学学报（工学版）,2022,56(5):1006-1016.
6陈红顺,陈观明.基于深度学习的词语级中文唇语识别[J].电子技术应用,2022,48(12):54-58.
7马廷淮,孙圣杰,荣欢,钱敏峰.基于动态记忆和双层重构强化的知识图谱至文本转译模型[J].计算机科学,2023,50(3):12-22. 被引量：1
8陶志勇,陈露,刘影,郭京.LipSense:基于CSI相位差的自适应唇语识别方法[J].传感技术学报,2023,36(3):419-426. 被引量：1
9刘培培,贾静平.基于时域卷积网络的中文句子级唇语识别算法[J].计算机应用研究,2023,40(9):2596-2602. 被引量：1
10马金林,刘宇灏,马自萍,巩元文,朱艳彬.HSKDLR:同类自知识蒸馏的轻量化唇语识别方法[J].计算机科学与探索,2023,17(11):2689-2702. 被引量：1

同被引文献35

1李元,张昊展,唐晓初.基于多模态数据全信息的概率主成分分析故障检测研究[J].仪器仪表学报,2021,42(2):75-85. 被引量：16
2葛世荣,胡而已,裴文良.煤矿机器人体系及关键技术[J].煤炭学报,2020,45(1):455-463. 被引量：148
3韩昌报,王嫚琪,黄建华,郑嘉煜,赵文康,张浩,张永哲.摩擦纳米发电技术研究进展及其潜在应用[J].北京工业大学学报,2020,46(10):1103-1127. 被引量：10
4张钹,朱军,苏航.迈向第三代人工智能[J].中国科学：信息科学,2020,50(9):1281-1302. 被引量：173
5刘晓祥,高二涛,罗益,付波霖.利用主成分分析法分析GNSS坐标时间序列[J].大地测量与地球动力学,2021,41(1):43-48. 被引量：4
6王国法.加快煤矿智能化建设推进煤炭行业高质量发展[J].中国煤炭,2021,47(1):2-10. 被引量：107
7闫曈,许威,苏波.基于ZMP的四足仿生机器人反应式行为控制策略研究[J].车辆与动力技术,2021(1):1-7. 被引量：8
8魏扬帆,周川,郭健,许鹏.基于CPG的四足机器人坡面稳定行走控制研究[J].控制工程,2021,28(6):1055-1060. 被引量：7
9邹冠贵,任珂,吉寅,丁建宇,张少敏.基于主成分分析和最近邻算法的断层识别研究[J].煤田地质与勘探,2021,49(4):15-23. 被引量：12
10谢雨飞,田启川.基于隐马尔可夫模型的CTCS无线通信系统入侵检测分析[J].铁道学报,2021,43(8):73-80. 被引量：19

引证文献2

1王海军,曹云,王洪磊.煤矿智能化关键技术研究与实践[J].煤田地质与勘探,2023,51(1):44-54. 被引量：24
2韩西,梁凯,岳宇.基于音频匹配的藏语驱动视觉语音合成算法研究[J].吉林大学学报（信息科学版）,2024,42(3):509-515.

二级引证文献24

1仝鹏,郁鹞,赵莉,何珍.智能化井工煤矿技术开发科技成果价值评估方法研究[J].煤炭经济研究,2024,44(4):20-26.
2王耀.基于5G工业互联网的井工煤矿信息化技术研究[J].工矿自动化,2023,49(S01):29-31. 被引量：10
3王国法,孟令宇.煤矿智能化及其技术装备发展[J].中国煤炭,2023,49(7):1-13. 被引量：32
4邵常雄,高强,毛玉坤.千万吨级“两矿一核心”5G+工作面全景拼接项目研究[J].中国高新科技,2023(13):76-77.
5袁亮,吴劲松,杨科.煤炭安全智能精准开采关键技术与应用[J].采矿与安全工程学报,2023,40(5):861-868. 被引量：13
6郝世俊,褚志伟,李泉新,方俊,陈龙,刘建林.煤矿井下近钻头随钻测量技术研究现状和发展趋势[J].煤田地质与勘探,2023,51(9):10-19. 被引量：6
7陆承达,甘超,陈略峰,陈鑫,曹卫华,吴敏.地质钻进过程智能控制研究进展与发展前景[J].煤田地质与勘探,2023,51(9):31-43. 被引量：3
8郭连安,董广乐,蒋帅旗.智能煤巷掘进工作面建设关键技术探讨[J].能源与节能,2023(11):126-130.
9贾林林,赵伟,刘德成,王涛.瓦斯智能抽采及瓦斯参数监测研究进展[J].能源与环保,2023,45(11):93-97. 被引量：1
10田茈文,郭玉森.基于回路风量法的矿井通风网络解算算法[J].矿业安全与环保,2024,51(1):102-108. 被引量：1

1无.关于《中华医学会系列杂志论文投送介绍信及授权书》电子版下载地址的通知[J].中华神经医学杂志,2021,20(11):1141-1141.
2潘冶.新时期背景下消防监督检查工作的探讨[J].消防界（电子版）,2021,7(22):91-91. 被引量：1
3李慧慧,刘悦,焦建锋.玉米病虫害发生特点与防治技术分析[J].农村科学实验,2021(34):72-74.
4马金林,朱艳彬,马自萍,巩元文,陈德光,刘宇灏.唇语识别的深度学习方法综述[J].计算机工程与应用,2021,57(24):61-73. 被引量：4
5董新生.广播电视发展中数字化技术的实践应用[J].西部广播电视,2021,42(18):213-215. 被引量：5
6郑阳,林春雨,廖康,赵耀,薛松.场景视点偏移的激光雷达点云分割[J].中国图象图形学报,2021,26(10):2514-2523. 被引量：6
7黄蕾.水利水电工程环保竣工验收的调查内容和重点[J].科技资讯,2021,19(27):78-79. 被引量：1
8张静怡.基于智慧校园平台服务高校管理模式创新——以学生宿舍晚点名为例[J].电脑知识与技术,2021,17(33):70-73. 被引量：3
9阮盛元.基于Python实现HLS流媒体视频下载的方法[J].电脑编程技巧与维护,2021(10):133-134. 被引量：2
10圆圆.巧用R-Undelete免费恢复文件[J].电脑爱好者,2021(20):38-38.

计算机科学与探索

2021年第12期

浏览历史

内容加载中请稍等...

唇语识别的视觉特征提取方法综述被引量：2

参考文献3

二级参考文献41

共引文献12

同被引文献35

引证文献2

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

唇语识别的视觉特征提取方法综述 被引量：2

参考文献3

二级参考文献41

共引文献12

同被引文献35

引证文献2

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

唇语识别的视觉特征提取方法综述被引量：2