基于声调建模的带噪汉语数字串语音识别被引量：2

Noisy Chinese digit string speech recognition based on tone modeling

下载PDF

导出

摘要尝试利用声调信息来改善噪声下汉语数字串语音识别性能。为解决声调特征不连续问题,提出采用基于多空间概率分布的隐马尔可夫模型进行声调建模。简要分析噪声对声调特征提取的影响,论证了在带噪数字串语音识别中利用声调信息的可行性。实验结果显示,与不采用声调信息的方法相比,在5 dB到20 dB的测试数据上,所提方法可使错误率平均相对下降17.2%。这说明声调信息及所提建模方法对于改善带噪汉语数字串语音识别性能是有效的。 It is attempted to utilize tone information to improve the performance of noisy Chinese digit string speech recognition. Multi-space probability distribution based HMM （MSD-HMM） is used to model the discontinuous tone features. The effect of noisy environment on tone features is analyzed and the feasibility of utilizing tone information to improve noisy speech recognition is discussed. Experimental results show that the proposed method can averagely obtain 17.2% relative reduction of digit error rate for the noisy data SNR from 5 dB to 20 dB, comparing with the method without tone information. The study concludes that it is effective to apply MSD-HMM based tone model to enhancing noisy Chinese digit string speech recognition.

作者王欢良钱瑶 F.K.Soong 韩纪庆

机构地区哈尔滨工业大学计算机科学与技术学院微软亚洲研究院

出处《声学学报》 EI CSCD 北大核心 2007年第5期454-460,共7页 Acta Acustica

基金国家自然科学基金(60575030)

关键词汉语数字串声调特征语音识别建模方法隐马尔可夫模型识别性能不连续问题概率分布 Feature extraction Hidden Markov models Noise abatement Parameter estimation Probability distributions Signal to noise ratio

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献16

1Chen C J, Gopinath R A, Monkowski M D, Picheny M A, Shen K. New methods in continuous mandarin speech recognition. In: Proc. of Eurospeech, 1997:1543-1546 Hirst D. and Espesser, R. Automatic
2Modeling of fundamental frequency using a quadratic spline function. Travaux de l'Institut de Phonetique d'Aix 15, 1993:71-85
3Tian Y, Zhou J L, Chu M, Chang E. Tone recognition with fractionized models and outlined features. In: Proc. of ICASSP, 2004:105-108
4Qian Y. Use of Tone information in cantonese LVCSR based on generalized character posterior probability decoding. PhD. Thesis, CUHK, 2005
5Tokuda K, Masuko T, Miyazaki N, Kobayashi T. Multispace probability distribution HMM. IEICE Trans. Inf. & Syst., 2002; E85-D(3): 455-464
6Wang H L, Qian Y, Soong F K, Zhou J L, Han J Q. A Multi-Space Distribution (MSD) approach to speech recognition of tonal languages. In: Proc. of ICSLP, 2006: 1047-1050
7张家禄齐士钤宋美珍等.汉语声调在言语可懂度中的重要作用.声学学报,1981,7:237-237.
8Chen S H, Wang J F. Noise-robust pitch detection method using wavelet transform with aliasing compensation. IEE Proceedings of Vision, Image and Signal Processing, 2002; 149(6): 327-334
9张红,张红,黄泰翼,宋俊寿.一种频域基频提取新方法[J].声学学报,1999,24(4):438-445. 被引量：7
10赵蕤,王作英.语音识别中信道和噪音的联合补偿[J].声学学报,2006,31(5):466-470. 被引量：11

二级参考文献21

1张家騄.超音段特征间的相互作用[J].声学学报,1993,18(4):263-271. 被引量：3
2张家騄.元音的内在基频与讲话方式对共振峰的影响[J].声学学报,1989,14(6):401-406. 被引量：6
3国立新,莫福源,李昌立.基于连续高斯混合密度HMM的汉语全音节语音识别研究[J].声学学报,1995,20(5):321-329. 被引量：11
4Qu F，4th National Conf Man-Machines Peech Communication，337页
5Acero A, Stern R M. Environmental robustness in automatic speech recognition. In: Proc. IEEE Int. Conf.Acoustics, Speech and signal Processing, Albuquerque,NM, 1990; 1:849-852
6Alejandro Acero. Acoustical and environmental robustness in automatic speech recognition. PH.D. Thesis. Department of Electrical and Computer Engineering CMU, AAT 9117502, 1990
7Moreno P J. Speech recognition in noisy environments.PH.D. Thesis. Department of Electrical and Computer Engineering CMU, AAT 9625546, 1996
8Kim D Y, Un C K, Kim N S. Speech recognition in noisy environments using first-order vector Taylor series. Speech Communication, 1998; 24(1): 39-49
9Fujimoto, Masakiyo, Ariki, Yasuo. Robust speech recognition in additive and channel noise environments using GMM and EM algorithm. In: IEEE International Conference on Acoustics, Speech, and Signal Processing. Montreal, 2004; 1:I941-I944
10Segura J C, Torre A de la, Benitez M C, Peinado A M.Model-based compensation of the additive noise for continuous speech recognition - experiments using AURORA Ⅱ database and tasks. EuroSpeech, 2001; 1:221-224

共引文献26

1黄秀轩,韦岗.一种混叠语音清浊音判断方法[J].计算机工程,2004,30(18):29-30.
2张家騄.汉语普通话区别特征系统[J].声学学报,2005,30(6):506-514. 被引量：26
3郑贵滨,韩纪庆,李海峰,郑铁然.基于分段的实时声频检索方法[J].声学学报,2006,31(2):101-108. 被引量：5
4郑燕萍.汉族姓名语音修辞考察[J].修辞学习,2007(1):47-50. 被引量：3
5马会丽,唐红,赵国锋.电话外呼系统的研究与实现[J].计算机应用,2007,27(9):2343-2345. 被引量：5
6张军,韦岗,余华.基于特征分量输出概率加权的多数据流鲁棒语音识别方法[J].声学学报,2008,33(2):102-108. 被引量：2
7王智国,吴及,戴礼荣,王仁华.一种对加性噪声和信道函数联合补偿的模型估计方法[J].声学学报,2008,33(3):238-243. 被引量：5
8郭莹,陈雪清,郭连生,杨宜林,于红玉,周婉荣,吴燕君,武文芳,张华,刘学宗.滤除低频音对听力正常人声调识别的影响[J].听力学及言语疾病杂志,2008,16(6):477-480. 被引量：1
9曾毓敏,吴镇扬.基于浊音语音谐波谱子带加权重建的抗噪声说话人识别[J].东南大学学报（自然科学版）,2008,38(6):935-941. 被引量：5
10张岩,李风华,李整林,张仁和.爆炸信号中气泡脉动去除方法及其应用[J].声学学报,2009,34(2):124-130. 被引量：5

同被引文献36

1王韫佳.音高和时长在普通话轻声知觉中的作用[J].声学学报,2004,29(5):453-461. 被引量：33
2刘海滨,吴镇扬,赵力,曾毓敏.噪声环境下基于最大后验非线性变换的隐马尔可夫模型自适应算法[J].声学学报,2004,29(5):467-471. 被引量：4
3孙暐,吴镇扬,刘海滨.非线性统计匹配用于子带鲁棒语音识别[J].电子与信息学报,2006,28(3):480-484. 被引量：4
4赵蕤,王作英.语音识别中信道和噪音的联合补偿[J].声学学报,2006,31(5):466-470. 被引量：11
5Kim W, Hansen J H L. Feature compensation in the cepstral domain employing model combination. Speech Com- munication, 2009; 51(2): 83-96.
6Cui X, Alwan A. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR. IEEE Trans. on Speech and Audio Processing, 2005; 13(6): 1161-1172.
7Gauvain J L, Lee C H. Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains. IEEE Trans. on Speech and Audio Processing, 1994; 2(2): 291-298.
8Leggetter C J, Woodland P C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Computer Speech and Language, 1995; 9(2): 171-185.
9Gales M J F, Woodland P C. Mean and variance adaptation within the MLLR framework. Computer Speech and Language, 1996; 10(4): 249-264.
10Doh S J. Enhancements to transformation-based speaker adaptation: principal component and inter-class maximum likelihood linear regression. Carnegie Mellon University, 2000.

引证文献2

1黄浩,朱杰.汉语语音识别中基于区分性权重训练的声调集成方法[J].声学学报,2008,33(1):1-8. 被引量：2
2吕勇,吴镇扬.基于最大似然多项式回归的鲁棒语音识别[J].声学学报,2010,35(1):88-96. 被引量：3

二级引证文献5

1侯丽敏,黄振华,谢娟敏.声门下共鸣的谱规整用于非特定人的语音识别[J].声学学报,2010,35(5):580-586.
2黄永明,章国宝,李雄,达飞鹏.全局特征及弱尺度融合策略的小样本语音情感识别[J].声学学报,2012,37(3):330-338. 被引量：9
3吴海洋,杨飞然,周琳,吴镇扬.矢量泰勒级数特征补偿的说话人识别[J].声学学报,2013,38(1):105-112. 被引量：6
4晁浩,杨占磊,刘文举.基于发音特征的汉语声调建模方法及其在汉语语音识别中的应用[J].计算机应用,2013,33(10):2939-2944. 被引量：2
5杨勇,李劲松,孙明伟.基于REMOS的远距离语音识别模型补偿方法[J].重庆邮电大学学报（自然科学版）,2014,26(1):117-123. 被引量：3

1汤霖,蔡莲红.训练方法对汉语数字串识别率影响的研究[J].湘潭大学自然科学学报,2003,25(3):16-20.
2王世刚.浅析高校数据中心的现状与发展趋势[J].电子制作,2014,22(14):110-111. 被引量：3
3唐赟,刘文举,徐波.基于后验概率解码段模型的汉语语音数字串识别[J].计算机学报,2006,29(4):635-641. 被引量：12
4倪崇嘉,刘文举,徐波.基于多空间概率分布的汉语连续语音声调识别研究[J].计算机科学,2011,38(9):224-226. 被引量：3
5晁浩,宋成,刘志中.语音识别中基于发音特征的声调集成算法[J].计算机工程与应用,2014,50(23):21-25. 被引量：2
6禹加宽.巧解“分栏页码不连续”问题[J].网络与信息,2010,24(3):65-65.
7顾明亮,夏玉果,杨亦鸣.支持矢量机的汉语声调识别[J].声学技术,2007,26(6):1186-1190. 被引量：2
8季云起.声调特征在言语识别技术中的价值[J].中国司法鉴定,2010(5):75-78.
9王晨迪,汪丰.一种脉搏波小波降噪算法[J].中国体视学与图像分析,2009,14(1):99-105. 被引量：3
10汤霖,尹俊勋,粟志昂,赖国庭.基于两级BP模型的普通话声调识别系统[J].计算机工程与应用,2004,40(25):96-99. 被引量：8

声学学报

2007年第5期

浏览历史

内容加载中请稍等...

基于声调建模的带噪汉语数字串语音识别被引量：2

参考文献16

二级参考文献21

共引文献26

同被引文献36

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于声调建模的带噪汉语数字串语音识别 被引量：2

参考文献16

二级参考文献21

共引文献26

同被引文献36

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于声调建模的带噪汉语数字串语音识别被引量：2