利用汉语语音音素帧间相关性的唇形特征识别被引量：1

Lip Contour Recognition Based on Context Information of Chinese Phoneme

下载PDF

导出

摘要为了进一步提高针对汉语语音的唇形特征识别效果,分析实际汉语语音发音过程中声母韵母之间音素的变换规律,以及连读等发音习惯而造成的口形变化,利用唇形特征所对应的音素帧间的相关性,采用二阶隐马尔可夫模型来对唇形特征参数序列进行学习和识别,从而分析汉语唇形识别效果.基于独立汉字发音的实验表明,在针对特定人的识别条件下,在最优的加权因子(m∶n=1.5∶1)特征组合条件下,针对同一组融合得到的特征向量,考虑了音素帧间的相关性后,识别率提高了1.2%.可见汉语音节中音素帧间的相关性与唇形特征的变化规律相对应,有利于提高唇形识别的效果. In order to improve the recognition rate of lipreading for Chinese phoneme. The context information of Chinese phoneme is considered. Second-order Hidden Markov Model is implemented to train and test the lip＇ s feature sequences to capture the changing discipline between consonant and vowel in Chinese phoneme. The accuracy of recognition rates are tested with the same lip feature vectors. The experimental results based on isolated Chinese words show that the context information of Chinese phoneme can produce better recognition result when applied to lipreading. A maximum recognition rate was improved by 1.2% under the best weighted coefficients （m ： n = 1.5 ： 1）. It can see that the changing discipline of lip feature vectors fits for the context information of Chinese phoneme, which can produce better recognition result of lipreading.

作者王蒙军田间王霞李刚

机构地区河北工业大学信息工程学院天津大学精密仪器与光电子工程学院

出处《河北工业大学学报》 CAS 北大核心 2010年第3期37-41,共5页 Journal of Hebei University of Technology

基金国家自然科学基金(60674111) 天津大学985工程资助项目

关键词唇形识别音素帧间相关性加权组合特征向量二阶隐马尔可夫模型 lip contour recognition context information weighted feature second-order Hidden Markov Model

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Kaynak M N,Qi ZH,Cheok A D,et al.Audio-visual modeling for bimodal speech recognition[A].Proceedings of IEEE International Conference on Systems,Man,and Cybernetics[C].Tucson,Arizona,USA:IEEE,2001,1:181-186.
2Kumatani K,Stiefelhagen R.State Synchronous Modeling on Phone Boundary for Audio Visual Speech Recognition and Application to Muti-ViewFace Images[A].Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing[C].Honolulu,Hawaii,USA:IEEE,2007,4,417-420.
3Kumar K,Tsuhan Chen,Stern R M.Profile View Lip Reading[A].Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing[C].Honolulu,Hawaii,USA:IEEE,2007,4,429-432.
4Patel I,Rao S.Automated speech synthesize and converter in cue symbol generation for hearing impaired[J].International Journal of Recent Trends in Engineering,2009,2(7):108-113.
5Meng Li,Yiu-ming Cheung.A Novel Motion Based Lip Feature Extraction for Lip-Reading[A].Proceeding of 2008 International Conference on Computational Intelligence and Security[C].SuZhou,China,IEEE-CS,2008,1,361-365.
6王志明,蔡莲红,吴志勇,陶建华.汉语文本-可视语音转换的研究[J].小型微型计算机系统,2002,23(4):474-477. 被引量：9
7李刚,王蒙军,林凌.面向残疾人的汉语可视语音数据库[J].中国生物医学工程学报,2007,26(3):355-360. 被引量：3
8Othman H,Aboulnasr T A.simplified second-order HMM with application to face recognition[A].Proceedings of IEEE International Symposium on Circuits and Systems[C].USA:IEEE,2001,2:161-164.
9Kundu A,He Y,Bahl P.Recognition of handwritten word:first and second order hidden Markov model based approach[A].Proceedings of Computer Society Conference on Computer Vision and Pattern Recognition[C].Los Alamitos,USA:IEEE-CS 1988,Pages:57-462.
10王蒙军,李刚,林凌,曾锐利.唇动图像序列的加权组合特征分析[J].光学精密工程,2008,16(3):511-517. 被引量：2

二级参考文献32

1车翔.全喉切除发音重建术的研究进展[J].湖北省卫生职工医学院学报,2000,13(3):50-51. 被引量：1
2洪晓鹏,姚鸿勋,徐铭辉.基于句子级的唇读语料库及其切分算法[J].计算机工程与应用,2005,41(3):174-177. 被引量：7
3徐铭辉,姚鸿勋.基于句子级的唇语识别技术[J].计算机工程与应用,2005,41(8):86-88. 被引量：3
4李采,周梁,蒋家琪.电子喉研究进展[J].国外医学（耳鼻咽喉科学分册）,2005,29(5):295-297. 被引量：5
5李刚,王蒙军,林凌.采用非对称唇形轮廓模型提高汉语唇形识别效果[J].光学精密工程,2006,14(3):473-477. 被引量：5
6王志明蔡莲红.汉语音节与口形关系的研究.第九届全国多媒体技术学术会议（NCMT'2000）[M].北京,2000..
7[17]RABINER L R.A tutorial on hidden Markov model and selected application in speech recognition[J].IEEE,1989,77(2):257-286.
8[18]WILLIAMS J J,KATSAGGELOS A K,RANDOLPH M A.A hidden Markov model based visual speech synthesizerEC].Proceedings of International Conference on Acoustics,Speech,and Signal Processing,Piscataway,Nf,USA:fEEE,2000,4:2393-2396.
9[1]WANG R,YAO H X,GAO W.Recognition of sequence lip images and its application[C].Proceedings of IEEE Fourth International Conference on Signal Processing,Beijing,China,1998,1:849-854.
10[2]ZHANG X,MERSEREAU R M,CLEMENTS M,et al..Visual speech feature extraction for improved speech recognition[c].Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing,Pis-cataway,NJ,USA:IEEE,2002,2:1993-1996.

共引文献11

1王志明,蔡莲红,艾海舟.基于数据驱动方法的汉语文本-可视语音合成(英文)[J].软件学报,2005,16(6):1054-1063. 被引量：16
2张欣,杜利民,陈柯,赵向阳.汉语语音视觉合成研究数据库CVSS1.0[J].微计算机应用,2007,28(3):260-265. 被引量：3
3涂欢,周经野,刘军发,崔国勤,谢晨.一种语音和文本联合驱动的卡通人脸动画方法[J].小型微型计算机系统,2007,28(12):2238-2241. 被引量：1
4孙晓鹏,安丹丹,刘小丹.拼音文本驱动的任意嘴唇曲线的动画生成[J].计算机辅助设计与图形学学报,2008,20(12):1603-1608. 被引量：2
5苏伯超,陈刚,车仁生.改进隐马氏模型的运动人体模型学习(英文)[J].光学精密工程,2009,17(6):1485-1495. 被引量：1
6赵晖,唐朝京.基于汉语视频三音素的可视语音合成[J].电子与信息学报,2009,31(12):3010-3014.
7张小凤,杨卫英,蔡方方,田超.汉语复韵母的三维动态视位模型[J].电声技术,2009,33(12):54-57. 被引量：3
8葛美玲,姚莉秀,李鹃,杨杰.基于优化CANDIDE模型的人脸动画[J].上海交通大学学报,2010,44(11):1491-1495. 被引量：2
9司博宇,黄昭鸣.语音数据库在言语障碍儿童康复中的应用分析[J].中国听力语言康复科学杂志,2012,10(4):307-309.
10肖庆阳,张金,左闯,范娟婷,梁碧玮,邸硕临.基于语义约束的口型序列识别方法[J].计算机应用与软件,2012,29(9):226-229.

同被引文献4

1陈锼.网络语音传输丢包的恢复技术[D].哈尔滨:哈尔滨工业大学,2008.
2YOMA N B,BUSSO C,SOTO I.Packet-loss modeling in IP networks with state-duration constraints[J].IEEE Proc-Common,2005,152(1):1-5.
3张大陆,沈斌,胡治国,侯翠平.丢包对音频流体验质量的影响分析[J].计算机应用,2009,29(1):16-17. 被引量：2
4李延荣,周赞,刘爱连,李延伟.IP网络丢包情况下音视频实时通讯研究[J].工业控制计算机,2010,23(2):43-44. 被引量：2

引证文献1

1王锐,赵红东.一种网络传输中实时音频数据丢包恢复的方法[J].电子设计工程,2011,19(9):16-18. 被引量：3

二级引证文献3

1康敬欣,张田.嵌入式Linux下音频采集与远程回放的实现[J].电子设计工程,2017,25(13):130-134. 被引量：2
2周有,魏文敏.PIM稀疏模式RPT向SPT切换丢包研究[J].电子设计工程,2017,25(18):118-120.
3王宇.基于非线性状态估计的长时延丢包网络故障检测算法[J].微电子学与计算机,2019,36(10):91-95. 被引量：4

1王蒙军,李刚,林凌,曾锐利.唇动图像序列的加权组合特征分析[J].光学精密工程,2008,16(3):511-517. 被引量：2
2吴涛,王蒙军,杨珉,李刚.基于数据融合的唇形特征识别[J].河北工业大学学报,2009,38(3):68-71.
3王宁,李石君.基于模拟退火算法和隐马尔可夫模型的文本信息抽取[J].微电子学与计算机,2014,31(12):52-56.
4周顺先,林亚平,王耀南,易叶青.基于二阶隐马尔可夫模型的文本信息抽取[J].电子学报,2007,35(11):2226-2231. 被引量：25
5刘洁彬,宋茂强,赵方,杨志宇.基于上下文的二阶隐马尔可夫模型[J].计算机工程,2010,36(10):231-232. 被引量：6
6李春利,张磊,惠康华.HMM在手写数字结构信息建模中的应用[J].计算机工程与应用,2012,48(31):194-198.
7李荣,胡志军,郑家恒.基于遗传算法和隐马尔可夫模型的Web信息抽取的改进[J].计算机科学,2012,39(3):196-199. 被引量：8
8高贝.智能视频分析技术行业化开发势在必行[J].中国公共安全,2012(22):168-169. 被引量：1
9荀恩东,蔡萌,李生,赵铁军.TDPSOLA文语转换技术和建立汉语音节单元库的研究[J].计算机科学,1998,25(6):66-69. 被引量：1
10李刚,王蒙军,林凌.视觉驱动的语音合成系统中唇形轮廓的傅里叶描述[J].仪器仪表学报,2007,28(8):1464-1468. 被引量：1

河北工业大学学报

2010年第3期

浏览历史

内容加载中请稍等...

利用汉语语音音素帧间相关性的唇形特征识别被引量：1

参考文献10

二级参考文献32

共引文献11

同被引文献4

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

利用汉语语音音素帧间相关性的唇形特征识别 被引量：1

参考文献10

二级参考文献32

共引文献11

同被引文献4

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

利用汉语语音音素帧间相关性的唇形特征识别被引量：1