基于HMM模型的语音单元边界的自动切分被引量：4

Automatic Phonetic Segmentation Using HMM Model

下载PDF

导出

摘要基于隐尔马可夫模型(HMM)的强制对齐方法被用于文语转换系统(TTS)语音单元边界切分。为提高切分准确性,本文对HMM模型的特征选择,模型参数和模型聚类进行优化。实验表明:12维静态M e l频率倒谱系数(M FCC)是最优的语音特征;HMM模型中的状态模型采用单高斯;对于特定说话人的HMM模型,使用分类与衰退树(CART)聚类生成的绑定状态模型个数在3 000左右最优。在英文语音库中音素边界切分的实验中,切分准确率从模型优化前的77.3%提高到85.4%。 HMM models are widely used in the automatic speech recognition system to segment text-to-speech （TTS） units in the forced alignment mode. To improve the segmentation performance, the optimal acoustic feature selection and the training condition of the HMM model are discussed. Experimental results show that the static 12-D Mel-frequency cepstral coefficient （MFCC） feature is the optimal acoustic feature; the optimal number of Gaussian mixture components per state is 1; the optimal number of tied states after model clustering by the classification and regreession tree （CART） is about 3 000 for speaker-dependent tri-phone HMM models. With optimized parameters, the segmentation accuracy on English test corpus is increased from 77.3% to 85.4%.

作者王丽娟曹志刚

机构地区清华大学电子工程系

出处《数据采集与处理》 CSCD 北大核心 2005年第4期381-384,共4页 Journal of Data Acquisition and Processing

关键词语音单元边界自动切分隐尔马可夫模型文语转换系统 acoustic unit boundary automatic segmentation HMM text-to-speech system

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献6

1Paulo S, Oliveira L C. DTW-based phonetic alignment using multiple acoustic features[A]. Proceeding of Eurospeech [C]. Geneva, Switzerland, 2003.309～312.
2Wu Y J, Kawai H, Ni J, et al. Minimum segmentation error based discriminative training for speech synthesis application[A]. Proceeding of ICASSP [C]. 2004. 629～632.
3Toledano D T, Luis A, Gómez H. Automatic phonetic segmentation[J]. IEEE Transactions on Speech and Audio Processing, 2003,11(6):617～625.
4Kim Y J, Conkie A. Automatic segmentation combining an HMM-based approach and spectral boundary correction[A]. Proceeding of ICSLP[C]. 2002. 145～148.
5Odell J, Ollason D, Woodland P, et al. The HTK book for HTK V3.0[M]. Cambridge, Cambridge University Press, UK,2001.116～132.
6Huang X D, Acero A, Hon H W. Spoken language processing[M]. Prentice Hall PTR, Upper Saddle River, New Jersey, 2001.304～316.

同被引文献19

1郝静,张刚.基于粒计算的清浊音检测算法[J].太原理工大学学报,2008,39(S1):39-41. 被引量：2
2陈锴,柴佩琪.基于HMM的中文语音自动切分中的静音添加[J].计算机工程,2004,30(9):40-41. 被引量：1
3王丽娟,曹志刚.TTS语音单元边界的自动切分[J].微电子学与计算机,2005,22(12):8-11. 被引量：3
4李永宏,于洪志.安多藏语语音合成语料库的设计[J].西北民族大学学报（自然科学版）,2006,27(1):36-39. 被引量：16
5姑丽加玛丽·麦麦提艾力.基于二级语音基元及其韵律参数的UTTS技术研究与实现[D].乌鲁木齐:新疆大学,2009.
6艾斯卡尔·肉孜.基于HMM的维吾尔语音合成系统的研究与实现[J].新疆大学学报,2008.
7Gao Lu, Yu Hongzhi, et al. Study on SAMPA-ST for Lhasa Tibetan and Realization of Automatic Labelling System[ C]. IASP 2010. Vol I, PP- 133 - 137.
8Htkbook[EB/OL].http://users.ece.gatech.edu/-antonio/htk.book/htkbook.html.
9GAO Lu, YU Hong-zhi, LI Yong-hong, et al. Study on SAMPA_ST for Lhasa Tibetan and realization of automatic labelling system [ C ]//Proc of International Conference on Image Analysis and Signal Processing. 2010 : 133-137.
10HTS [ EB/OL ]. http ://hts. sp. nitech, ac. jp/.

引证文献4

1阿依木尼萨.胡甫尔,艾斯卡尔.艾木都拉.面向语音合成的维吾尔语音素自动切分算法研究[J].计算机应用与软件,2011,28(9):18-21. 被引量：4
2张金溪,李照耀,肖俊生,李艾林.面向语音合成的藏语音素切分算法研究[J].西北民族大学学报（自然科学版）,2012,33(4):27-31.
3张金溪,李永宏,单广荣,李照耀,江静.面向语音合成的藏语单音素与三音素自动切分算法研究[J].计算机应用研究,2013,30(11):3272-3275. 被引量：5
4李洺宇,金小峰.朝鲜语语音音节自动切分算法的研究[J].延边大学学报（自然科学版）,2019,45(2):128-135.

二级引证文献8

1井晓阳,罗飞,王亚棋.汉语语音合成技术综述[J].计算机科学,2012,39(S3):386-390. 被引量：13
2卡斯木江.卡迪尔,古丽娜尔.艾力,艾斯卡尔.艾木都拉.基于最小合成单元的维吾尔音库设计[J].通信技术,2012,45(4):83-85. 被引量：1
3张亚军,吴晓林,贺琛琛.浅谈新疆多语种智能化研究现状[J].电脑知识与技术,2014(1):138-140.
4徐世鹏,杨鸿武,王海燕.面向藏语语音合成的语音基元自动标注方法[J].计算机工程与应用,2015,51(6):199-203. 被引量：6
5刘学杰,赵晖.改进参数控制的可视语音合成方法[J].计算机工程与设计,2017,38(4):989-995.
6黄晓辉,李京,马睿.藏语口语语音语料库的设计与研究[J].计算机工程与应用,2018,54(13):231-235. 被引量：8
7刘梦媛,杨鉴.基于HMM的缅甸语语音合成系统设计与实现[J].云南大学学报（自然科学版）,2020,42(1):19-27. 被引量：9
8冯夫健,吴磊,谭棉,蔡姗,张学文,王林.苗语语音音节自适应切分算法[J].科学技术与工程,2024,24(14):5863-5871.

1王丽娟,曹志刚.TTS语音单元边界的自动切分[J].微电子学与计算机,2005,22(12):8-11. 被引量：3
2朱启贤.常隆推出第3代马可系列客车[J].商用汽车,2008(11):20-20.
3杨晏海.北京电信传输网络的管理和优化[J].中国电信建设,2001,13(2):25-26.
4海默.马可尼:坚持到最后一秒[J].意林（少年版）,2009(9):23-23.
5张晓东,崔仁涛.文本文件的语音识别中音节的自动切分[J].皖西学院学报,2004,20(2):18-20.
6李颖.最时尚马可中国时装的本土化荣耀[J].西部广播电视,2009,30(10):36-37.
7徐筱麟,张兴国.一种基于马可夫过程统计模型的语音激活检测方法[J].解放军理工大学学报（自然科学版）,2003,4(1):7-10. 被引量：5
8李冰.新的iOS木马可通过PC感染未越狱的iOS设备[J].计算机与网络,2016,42(6):61-61.
9姚徐,于洪志,单广荣.音段自动切分系统的设计与实现[J].电脑知识与技术,2008(5):737-740. 被引量：1
10尚斌.Windows 8助力诺基亚平板电脑突出重围[J].通信世界,2012(11):13-13.

数据采集与处理

2005年第4期

浏览历史

内容加载中请稍等...

基于HMM模型的语音单元边界的自动切分被引量：4

参考文献6

同被引文献19

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于HMM模型的语音单元边界的自动切分 被引量：4

参考文献6

同被引文献19

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于HMM模型的语音单元边界的自动切分被引量：4