基于中文发音视觉特点的唇语识别方法研究被引量：2

Research on Lip Reading Based on Visual Characteristics of Chinese Pronunciation

下载PDF

导出

摘要随着深度学习的发展,唇语识别技术在英文方面取得了长足的进步,但针对中文无论是在数据集丰富性还是识别准确率上均存在一定的落差。通过分析中文发音的视觉特点,提出"视觉拼音",意图规避中文在视觉表达上的歧义性。为了验证视觉拼音的有效性,建立了中文句子级唇语识别模型CHSLR-VP。该模型是一个端到端结构,其中以视觉拼音为媒介,将视频帧序列转换成最终的汉字语句。通过实验得出,相比于其他唇语识别方法,基于视觉拼音建立的CHSLR-VP模型性能更优,证明了视觉拼音的参与可明显提高中文唇语识别的准确率,为将来的相关工作提供了基准。 With the development of deep learning,lip reading has made great progress in English.However,there is a large gap in both the richness of dataset and the accuracy of recognition in Chinese.According to the visual characteristic of Chinese pronunciation,this paper proposes“visual pinyin”to avoid the ambiguity of Chinese visual expression.Then,in order to verify the effectiveness of visual pinyin,a Chinese sentence-level lip reading model CHSLR-VP is established.This model is an end-to-end structure,in which visual pinyin is used as a medium to convert video frames into Chinese characters.Through experiments,CHSLR-VP performs better than other prior methods,which proves that visual pinyin can significantly improve the accuracy of Chinese lip reading.It can provide a benchmark for future related work.

作者何珊袁家斌陆要要 HE Shan;YUAN Jiabin;LU Yaoyao(College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China;Information Department,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China)

机构地区南京航空航天大学计算机科学与技术学院南京航空航天大学信息化处

出处《计算机工程与应用》 CSCD 北大核心 2022年第4期157-162,共6页 Computer Engineering and Applications

基金南京市产学研合作后补助项目计划(201722025)。

关键词唇语识别视觉拼音深度学习卷积神经网络(CNN) 序列到序列模型注意机制 lip reading visual pinyin deep learning convolutional neural networks(CNN) sequence-to-sequence model attention mechanism

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘大运,房国志,骆天依,魏华杰,王倩,李修政,李骜.基于BiLSTM-Attention唇语识别的研究[J].计算技术与自动化,2020,39(1):150-155. 被引量：2
2马金林,陈德光,郭贝贝,周洁.唇语语料库综述[J].计算机工程与应用,2019,55(22):1-13. 被引量：6
3张晓冰,龚海刚,杨帆,戴锡笠.基于端到端句子级别的中文唇语识别研究[J].软件学报,2020,31(6):1747-1760. 被引量：6

二级参考文献10

1洪晓鹏,姚鸿勋,徐铭辉.基于句子级的唇读语料库及其切分算法[J].计算机工程与应用,2005,41(3):174-177. 被引量：7
2徐铭辉,姚鸿勋.基于句子级的唇语识别技术[J].计算机工程与应用,2005,41(8):86-88. 被引量：3
3徐彦君,杜利民,李国强,张欣,周治.汉语听觉视觉双模态数据库CAVSR1.0[J].声学学报,2000,25(1):42-49. 被引量：16
4姚鸿勋,高文,王瑞,郎咸波.视觉语言——唇读综述[J].电子学报,2001,29(2):239-246. 被引量：30
5张泽梁,杨成佳,宋绍成.唇读研究进展综述[J].计算机工程与设计,2014,35(6):2135-2141. 被引量：1
6任玉强,田国栋,周祥东,吕江靖,周曦.高安全性人脸识别系统中的唇语识别算法研究[J].计算机应用研究,2017,34(4):1221-1225. 被引量：19
7马宁,田国栋,周曦.一种基于long short-term memory的唇语识别方法[J].中国科学院大学学报（中英文）,2018,35(1):109-117. 被引量：3
8赵富,杨洋,蒋瑞,张利君,任晓雷.融合词性的双注意力Bi-LSTM情感分析[J].计算机应用,2018,38(A02):103-106. 被引量：13
9冯兴杰,张乐,曾云泽.基于多注意力CNN的问题相似度计算模型[J].计算机工程,2019,45(9):284-290. 被引量：15
10纪红,吴善培.半连续隐马尔可夫模型在孤立数字识别中的应用[J].北京邮电学院学报,1993,16(3):76-82. 被引量：1

共引文献10

1马金林,巩元文,马自萍,陈德光,朱艳彬,刘宇灏.唇语识别的视觉特征提取方法综述[J].计算机科学与探索,2021,15(12):2256-2275. 被引量：2
2马金林,朱艳彬,马自萍,巩元文,陈德光,刘宇灏.唇语识别的深度学习方法综述[J].计算机工程与应用,2021,57(24):61-73. 被引量：4
3何立,庞善民.结合年龄监督和人脸先验的语音-人脸图像重建[J].浙江大学学报（工学版）,2022,56(5):1006-1016.
4迪力扎提·伊力哈木,米吉提·阿不里米提,郑方,艾斯卡尔·艾木都拉.跨信道环境下语种识别方法的研究[J].现代电子技术,2022,45(24):37-43.
5陈红顺,陈观明.基于深度学习的词语级中文唇语识别[J].电子技术应用,2022,48(12):54-58.
6马廷淮,孙圣杰,荣欢,钱敏峰.基于动态记忆和双层重构强化的知识图谱至文本转译模型[J].计算机科学,2023,50(3):12-22.
7刘培培,贾静平.基于时域卷积网络的中文句子级唇语识别算法[J].计算机应用研究,2023,40(9):2596-2602. 被引量：1
8马金林,刘宇灏,马自萍,巩元文,朱艳彬.HSKDLR:同类自知识蒸馏的轻量化唇语识别方法[J].计算机科学与探索,2023,17(11):2689-2702. 被引量：1
9宁佐金,蒋近,彭思齐.基于标注人脸轮廓的唇语识别方法[J].信息技术与信息化,2023(11):199-203.
10曾蔚,罗仙仙,王鸿伟.基于Transformer-LSTM的闽南语唇语识别[J].泉州师范学院学报,2024,42(2):10-17.

同被引文献16

1李睿,於俊,罗常伟,汪增福.发音过程中舌头运动的3D可视化方法[J].模式识别与人工智能,2016,29(5):385-392. 被引量：2
2任玉强,田国栋,周祥东,吕江靖,周曦.高安全性人脸识别系统中的唇语识别算法研究[J].计算机应用研究,2017,34(4):1221-1225. 被引量：19
3马金林,陈德光,郭贝贝,周洁.唇语语料库综述[J].计算机工程与应用,2019,55(22):1-13. 被引量：6
4王一鸣,陈恳,萨阿卜杜萨拉木·艾海提拉木.基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别[J].电信科学,2019,35(12):79-89. 被引量：2
5王小晨,朱明星,杨子健,汪鑫,黄剑平,陈世雄,李光林.基于高密度肌电的对称位置发音肌肉对语音识别贡献的研究[J].集成技术,2020,9(1):55-65. 被引量：1
6智娜,李爱军.基于可视化发音模型的语音训练研究[J].外国语,2020,43(1):59-74. 被引量：10
7李鹏,杨元维,高贤君,杜李慧,周意,蒋梦月,张净波.基于双向循环神经网络的汉语语音识别[J].应用声学,2020,39(3):464-471. 被引量：9
8梁玮.语音识别技术架构下的英语音标辅助学习平台开发及应用研究[J].计算技术与自动化,2020,39(2):155-159. 被引量：6
9张金溪,李永宏,寇贇.基于超声成像技术的发音生理舌体研究方法综述[J].计算机应用研究,2021,38(1):15-22. 被引量：4
10刘永存,贺慧勇.声音时延测量的数字电路实现与应用[J].仪表技术与传感器,2020(12):114-118. 被引量：2

引证文献2

1刘培培,贾静平.基于时域卷积网络的中文句子级唇语识别算法[J].计算机应用研究,2023,40(9):2596-2602. 被引量：1
2吴亚亚.基于传感器技术的三维发音可视化合成系统研究设计[J].自动化与仪器仪表,2024(4):102-105.

二级引证文献1

1曾蔚,罗仙仙,王鸿伟.基于Transformer-LSTM的闽南语唇语识别[J].泉州师范学院学报,2024,42(2):10-17.

1杜佩霖,王丽梅,卢玉竹.基于地域文化的IP形象设计研究[J].四川省干部函授学院学报,2021(3):101-105. 被引量：9
2张幸,王旭,赵文仓.基于监督注意力机制的语义标签生成图像[J].青岛科技大学学报（自然科学版）,2021,42(4):94-101.
3孙渊,王金明,汪鹏,张宏瑜.一种基于多任务学习的语音关键词检测与定位方法研究[J].通信技术,2021,54(8):1869-1873.
4张会云,黄鹤鸣.面向语音情感识别的SCBAMM网络[J].现代电子技术,2022,45(5):79-83.
5桂思思,张晓娟.面向查询意图歧义性的多样化检索模型研究[J].情报科学,2021,39(12):39-45. 被引量：2
6翁冰婷.自闭症学生数学结构化教学法的研究[J].教育艺术,2021(12):71-71. 被引量：1
7晏昱凌.视觉表达,新时代下的“沟通艺术”[J].中国眼镜科技杂志,2022(2):68-69.
8田会娟,刘嘉伟,翟佳豪,邓琳琳.基于多入侵线的视频车速检测方法[J].交通运输系统工程与信息,2022,22(1):49-56. 被引量：1
9贾鑫伟.智媒体时代下动态标志在品牌视觉形象设计中的应用与研究[J].西部皮革,2021,43(24):126-127. 被引量：3
10张东亮.“唇语女博士”江梦南:妈妈是我生命中的贵人[J].华人时刊,2022(1):30-33.

计算机工程与应用

2022年第4期

浏览历史

内容加载中请稍等...

基于中文发音视觉特点的唇语识别方法研究被引量：2

参考文献3

二级参考文献10

共引文献10

同被引文献16

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于中文发音视觉特点的唇语识别方法研究 被引量：2

参考文献3

二级参考文献10

共引文献10

同被引文献16

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于中文发音视觉特点的唇语识别方法研究被引量：2