基于改进的隐马尔科夫模型的语音识别方法被引量：19

A speech recognition method based on improved hidden Markov model

下载PDF

导出

摘要针对隐马尔可夫(HMM)语音识别模型状态输出独立同分布等与语音实际特性不够协调的假设以及在使用段长信息时存在的缺陷,对隐马尔可夫模型进行改进,提出马尔可夫族模型。马尔可夫族模型可看作一个数学上由多个马尔可夫链构成的多重随机过程,HMM模型则是双重随机过程,因而,HMM模型可视为马尔可夫族模型的特例。马尔可夫族模型用条件独立性假设取代了HMM模型的独立性假设。相对条件独立性假设,独立性假设是过强假设,因而,基于马尔可夫族模型的语音模型更符合语音实际物理过程。在马尔可夫族语音识别模型中引入状态段长信息,能自动根据语速对语音单元段长进行调整。非特定人连续语音实验结果表明,利用状态段长信息的改进语音识别模型比经典HMM模型的性能明显提高。 In order to overcome the defects of the duration modeling of homogeneous hidden Markov model （HMM） in speech recognition and the unrealistic assumption that successive observations are independent and identically distribution within a state, Markov family model （MFM） was proposed. In the speech recognition model based on HMM, the time-sequence structure of speech signal was considered to be a double stochastic process, while Markov family model was a multiple stochastic process which consists of a few Markov chains, so HMM could be considered to be a special case of MFM. Moreover, independence assumption in HMM was placed by conditional independence assumption in MFM, and from the view of the statistics, the assumption of independence is stronger than that of conditional independence, so speech recognition model based on MFM is more realistic than HMM recognition mode. Markov Family model was applied to speech recognition, and duration distribution based MFM recognition mode which takes duration distribution into account and integrates the frame and segment based acoustic modeling techniques, was proposed. The speaker independent continuous speech recognition experiments show that this new recognition model has better performance than standard HMM recognition models.

作者袁里驰

机构地区中南大学信息科学与工程学院江西财经大学信息管理学院

出处《中南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2008年第6期1303-1308,共6页 Journal of Central South University:Science and Technology

基金国家自然科学基金资助项目(60663007) 中南大学博士后科学基金资助项目(2007)

关键词隐马尔可夫模型马尔可夫族模型段长语音识别 hidden Markov model Markov family model duration speech recognition

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献17

1Rabiner L, Juang B H. Fundamentals of speech recognition[M]. New Jersey: Prentice Hall, 1993.
2Chang E, ZHOU Jian-lai, SHOU Di, et al. Large vocabulary mandarin speech recognition with different approaches in modeling tones[C]//Proceedings of the 6th International Conference on Spoken Language Processing(ICSLP 2000). San Jose: IEEE Press, 2000: 983-986.
3Mitchell C D, Jamieson L H. Modeling duration in a hidden Markov model with the exponential family[C]//Proceedings of the IEEE International conference on Acoustic, Speech, Signal Process (ICASSP 1993). San Jose: IEEE Press, 1993: 331-334.
4Shinoda K, Lee C. A structural Bayes approach to speaker adaptation[J]. IEEE Transaction on Speech and Audio Processing, 2001, 9(3): 276-287.
5Vasehgi S V. State duration modeling in hidden Markov models[J]. Journal of Signal Processing, 1995, 41(1): 31-41.
6Lai W H, Chen S H. Analysis of syllable duration models for mandarin speech[C]//Proceedings of the IEEE International conference on Acoustic, Speech, Signal Process (ICASSP 2002). San Jose: IEEE Press, 2002: 497-500.
7王作英,肖熙.基于段长分布的HMM语音识别模型[J].电子学报,2004,32(1):46-49. 被引量：42
8Hon H W, Wang K S. Unified frame and segment based models for automatic speech recognition[C]//Proceedings of the IEEE International conference on Acoustic, Speech, Signal Process (ICASSP 2000). San Jose: IEEE Press, 2000:1017-1020.
9GONG Yi-fan. Stochastic trajectory modeling and sentence searching for continuous speech recognition[J]. IEEE Transactions on Speech Audio Processing, 1997, 5(1): 33-44.
10WANG W J, CHEN S H. The study of prosodic modeling for mandarin speech[C]//Proceedings of the International Computer Symposium (ICS). Hualien: IEEE Computer Society Press, 2002 1777-1784.

二级参考文献57

1冷京.小波变换在语音变速上的应用[J].上海师范大学学报（自然科学版）,1999,28(1):44-50. 被引量：1
2王仁华.面向2000年通信的语音处理技术[J].中兴新通讯,1996,2(1):40-43. 被引量：1
3马明,张焱,王建宇,黄志同.对语音识别中短时自关特征的研究[J].电脑开发与应用,1997,10(1):2-4. 被引量：1
4齐士钤张家禄.汉语普通话辅音音长分析[J].声学学报,1982,(1):8-13.
5GibsonJD 李煜晖等译.多媒体数字压缩原理与标准[M].北京：电子工业出版社,2000..
6王作英.基于段长分布的HMM语音识别模型 [A]..第二届全国汉字汉语识别会议 [C].庐山,1989.9.
7Kleijn W B, Kroon P. A 5.85kb/s CELP Algorithm for Cellular Applications[J]. ICASSP,1993, 2:596-599.
8Griffin D W, Lira J S. Multi-band excitation voeoder[J].IEEE Trans on ASSP, 1998,36(8):1223-1235.
9Tufekci Z.and Gowdy J.N,Feature Extraction Using Discrete Wavelet Transform for Speech Recognition[A].Southeastcon 2000.In:Proceedings of the IEEE[C].7-9 April 2000,116-123.
10Yuri Romanyshyn,Wavelet Transforms Applications for Speech Signals Processing[A].CADSM * 2001 Proceedings[C],297-298

共引文献72

1曹剑芬,李爱军,胡方,张利刚.语音学知识在语音识别中的应用:案例分析[J].清华大学学报（自然科学版）,2008,48(S1):748-753. 被引量：3
2李明琴,李涓子,王作英,陆大.语义分析和结构化语言模型[J].软件学报,2005,16(9):1523-1533. 被引量：7
3刘敬伟,王作英,肖熙.基于自回归模型的加性噪声环境稳健语音识别[J].清华大学学报（自然科学版）,2006,46(1):50-53. 被引量：2
4陈立伟,张晔.基于改进的隐马尔可夫和神经网络混合模型的语音识别[J].应用声学,2006,25(2):90-95.
5王宏,郭艳丽,贾新民.基于HMM的孤立字识别[J].昌吉学院学报,2006(1):94-98. 被引量：3
6范斐斐,李振波,陈佳品.基于K均值分段的语音识别在微机器人控制系统中的应用[J].电子技术应用,2006,32(5):4-6. 被引量：2
7李浈祯,颜国正.相位调整法实现语音变速的实时处理[J].测控技术,2006,25(7):17-19.
8赵蕤,王作英.语音识别中信道和噪音的联合补偿[J].声学学报,2006,31(5):466-470. 被引量：11
9贺无名.语音识别技术及其研究进展[J].中国科技信息,2006(18):157-158. 被引量：3
10李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1

同被引文献162

1李明节,陶洪铸,许洪强,刘金波,张强,张伟.电网调控领域人工智能技术框架与应用展望[J].电网技术,2020,44(2):393-400. 被引量：78
2毛旭亭,王春蕾.基于Python的深度学习语音识别分析[J].产业科技创新,2020,2(2):81-82. 被引量：1
3赵博,檀晓红.基于语音识别技术的英语口语教学系统[J].计算机应用,2009,29(3):761-763. 被引量：10
4傅国通,蔡勇飞,鲍士杰,方松熹,傅佐之,郑张尚芳.吴语的分区(稿)[J].方言,1986,8(1):1-7. 被引量：34
5刘颖超,张纪元.梯度下降法[J].华东工学院学报,1993(2):12-16. 被引量：43
6杜利民,谢凌云,刘斌.HMM非特定人连续语音识别的嵌入式实现[J].电子与信息学报,2005,27(1):60-63. 被引量：6
7梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
8金学骥,叶秀清,顾伟康.预加重与MMSE结合的语音增强方法[J].传感技术学报,2005,18(2):300-302. 被引量：1
9王国梁,梁维谦,刘加,刘润生.嵌入式中等词汇量英语语音识别片上系统[J].清华大学学报（自然科学版）,2005,45(10):1393-1396. 被引量：2
10赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20

引证文献19

1袁里驰.基于依存关系的句法分析统计模型[J].中南大学学报（自然科学版）,2009,40(6):1630-1635. 被引量：13
2林春丽,齐欣,王克成.SVM-KNN分类器在异常行为检测中的应用[J].辽宁科技大学学报,2010,33(5):449-452. 被引量：3
3李青,邓月明,王赟,莫崇晟,刘斌,贺洪平,李慧玲.基于声纹识别的智能小区认证系统设计[J].网络安全技术与应用,2011(4):36-38. 被引量：3
4袁里驰.基于词聚类的依存句法分析[J].中南大学学报（自然科学版）,2011,42(7):2023-2027. 被引量：10
5樊启高,李威,王禹桥,范孟豹,杨雪锋.一种采用灰色马尔科夫组合模型的采煤机记忆截割算法[J].中南大学学报（自然科学版）,2011,42(10):3054-3058. 被引量：31
6袁里驰.基于改进的隐马尔科夫模型的词性标注方法[J].中南大学学报（自然科学版）,2012,43(8):3053-3057. 被引量：15
7王凯.免疫粒子群改进LBG的孤立词语音识别算法研究[J].数字技术与应用,2013,31(1):111-113. 被引量：1
8刘妍秀,孙一鸣,杨华民.基于归一化算法的噪音鲁棒性连续语音识别[J].吉林大学学报（理学版）,2015,53(3):519-524. 被引量：5
9贺彬,刘泉.基于EMD-MPE与HMM的滚动轴承故障诊断[J].组合机床与自动化加工技术,2016(12):76-79. 被引量：8
10林麒麟,包广清,宋旭辉,张宝强,陶佳.基于语音识别的电梯辅助控制系统设计[J].计算机与数字工程,2017,45(3):544-548. 被引量：11

二级引证文献142

1李雯雯.基于依存树库的英汉语主语句法计量特征的对比研究[J].语言研究集刊,2020(1):173-191. 被引量：1
2徐严军,刘波,刘伟,张晋川.综采装备姿态协同控制研究[J].工矿自动化,2022,48(S02):112-115. 被引量：3
3贾文,李玉虎,丰界泽,赵义,邸晟钧,刘顺,闫孝姮.基于记忆割煤方法的采煤机监控系统设计[J].煤炭工程,2020,52(1):148-153. 被引量：13
4黄莉.浅析汉语语言处理中的句法分析方法[J].价值工程,2010,29(17):162-163.
5陈晓芸,林海颖.股票期权离我们还有多远[J].企业活力,2000(4):10-11.
6袁里驰.基于配价结构的词汇化句法分析模型[J].中南大学学报（自然科学版）,2012,43(5):1808-1813. 被引量：2
7袁里驰.融合语言知识的统计句法分析[J].中南大学学报（自然科学版）,2012,43(3):986-991. 被引量：5
8张达夫.基于依存关系匹配的长难查询处理[J].电脑知识与技术,2012,8(7):4720-4724.
9苏朋程.管理复杂性分析[J].商业时代,2012(36):70-72. 被引量：2
10苏秀平,李威,樊启高.采煤机滚筒调高滑模变结构控制策略[J].煤炭学报,2012,37(12):2107-2111. 被引量：35

1叶顺舟,付仕明.基于维纳滤波的改进语音增强算法研究[J].广东通信技术,2011,31(12):63-66. 被引量：2
2张冰.基于计算机仿真的语音增强算法研究[J].中国科技纵横,2015,0(9):25-26.
3王作英,肖熙.基于段长分布的HMM语音识别模型[J].电子学报,2004,32(1):46-49. 被引量：42
4高集成度线性LED驱动器[J].今日电子,2011(7):67-67.
5朱小燕,王昱,徐伟.基于循环神经网络的语音识别模型[J].计算机学报,2001,24(2):213-218. 被引量：23
6马杰,刘元安,冯锡平.基于IEEE 802.11无线局域网的视频流接入控制[J].电子技术应用,2006,32(8):118-121.
7秦焕丁,娄景艺,刘昭.基于最小均方误差幅度谱的改进语音增强算法研究[J].电子技术（上海）,2016,0(7):11-14. 被引量：5
8欧阳玲,宋克.一种基于FPGA实现的改进语音端点检测算法[J].中原工学院学报,2011,22(1):70-73. 被引量：1
9王继曾,王婵飞.基于最小均方误差估计的改进语音增强算法[J].兰州理工大学学报,2008,34(2):87-90. 被引量：2
10郝杰,李星.汉语连续语音识别中经典HMM的实验评测[J].计算机工程与应用,2001,37(13):1-4. 被引量：6

中南大学学报（自然科学版）

2008年第6期

浏览历史

内容加载中请稍等...

基于改进的隐马尔科夫模型的语音识别方法被引量：19

参考文献17

二级参考文献57

共引文献72

同被引文献162

引证文献19

二级引证文献142

相关作者

相关机构

相关主题

浏览历史

基于改进的隐马尔科夫模型的语音识别方法 被引量：19

参考文献17

二级参考文献57

共引文献72

同被引文献162

引证文献19

二级引证文献142

相关作者

相关机构

相关主题

浏览历史

基于改进的隐马尔科夫模型的语音识别方法被引量：19