维吾尔语连续语音识别声学模型优化研究被引量：4

Optimization of acoustic model for Uyghur continuous speech recognition

下载PDF

导出

摘要综合了语音识别中常用的高斯混合模型和人工神经网络框架优点的Tandem特征提取方法应用于维吾尔语声学模型训练中,经过一系列后续处理,将原始的MFCC特征转化为Tandem特征,以此作为基于隐马尔可夫统计模型的语音识别系统的输入,并使用最小音素错误区分性训练准则训练声学模型,进而完成在测试集上的识别实验。实验结果显示,Tandem区分性训练方法使识别系统的单词错误率比原先的基于最大似然估计准则的系统相对减少13%。 This paper gives an introduction to the application of Tandem feature extraction method which holds the advantages of Gaussian mixture model and artificial neural network frameworks to Uyghur acoustic modeling. At the beginning, a series of processes convert the original Mel Frequency Cepstrum Coefficient（MFCC） feature to Tandem feature as the input to the hid- den Markov model based speech recognition system, then the acoustic model is discriminatively trained according to the mini- mum phone error discriminative criterion, finally the experiments are carried out on the test set. Experimental results show that minimum phone error trained acoustic model on Tandem feature can give a relative word error rate reduction of 13% over the maximum likelihood estimated system.

作者努尔麦麦提.尤鲁瓦斯吾守尔.斯拉木

机构地区新疆大学信息科学与工程学院

出处《计算机工程与应用》 CSCD 2013年第2期145-147,共3页 Computer Engineering and Applications

基金国家自然科学基金(No.61063024) 新疆多语种信息处理重点实验室开放课题(No.049807)

关键词维吾尔语语音识别最小音素错误 Tandem特征 Uyghur speech recognition minimum phone error Tandem feature

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献7

1郭人玮.最小化音素错误鉴别式声学模型学习于中文大词汇连续语音辨识之初步研究[D].中国台湾:台湾大学,2005.
2Hermansky H, Ellis D P W, Sharma S.Tandem connectionist feature extraction for conventional HMM systems[C]//Acous- tics, Speech and Signal Processing, ICASSP2000.Istanbul: [s.n.],2000,3 : 1635-1638.
3Ellis W, Singh R, Sivadas S.Tandem acoustic modeling in large-vocabulary recognition[C]//Acoustics, Speech and Signal Processing, ICASSP2001.Salt Lake City, Utah, USA: [s.n.], 2001,1:517-520.
4Povey D, Woodland P C.Minimum phone error and I-smoothing for improved discriminative training[C]//Acoustics, Speech and Signal Processing, ICASSP2002.Orlando, Florida, USA: [s.n.], 2002,1 : 105-108.
5Faria A.An investigation of Tandem MLP feature for ASR, TR-07-003 [R].USA : ICSI, 2007.
6Stolcke A.SRILM-an extensible language modeling toolkit[C]// Proc Intl Conf on Spoken Language Processing.Denver:[s.n.], 2002,2:901-904.
7Young S,Kershaw D,Odell J,et al.The HTK book[EB/OL]. ( 2006-08-06 ). [2011-09-20].http ://htk.eng.cam.ac.uk/.

同被引文献36

1肉克艳木.买买提,热依曼.吐尔逊,吾守尔.斯拉木.维吾尔语语音标注复查软件的研究与实现[J].新疆大学学报（自然科学版）,2013,30(1):87-90. 被引量：2
2热依曼.吐尔逊,吾守尔.斯拉木,努尔麦麦提.多文种手机混合输入/输出技术及实现[J].计算机工程与科学,2006,28(4):103-104. 被引量：5
3蔡琴,吾守尔.斯拉木.基于HTK的维吾尔语连续数字语音识别[J].现代计算机,2007,13(4):14-16. 被引量：7
4郑方.连续无限制语音流中关键词识别方法研究[D],1997.
5韩起,梁泉.Android系统原理及开发要点详解[M].北京:电子工业出版社,2010:340-343.
6Bridle J S.An Efficient Elastic-Template Method for Detecting Given Words in Running Speech[C]Brit.Acoust.Soc.Meeting,1973.
7Myers C S,Rabiner L R,Rosenberg A E.An Investigation of the Use of Dynamic Time Warping for Word Spotting and Connected Word Recognition[C]Proc.Conf.ASSP,April.1980:173-177.
8Steve Young,Gunnar Evermann,Mark Gales,et al.HTKB00K[M].HTK Version 3.4.Cambridge University Engineering Department,March,2009:199-211.
9Wilpon J G,Lee C H,Rabiner L R.Application of Hidden Markov Models for Recognition of a Limited Set of Words in Unconstrained Speech[C]ICASSP,1989,3(1):254-257.
10Rohlicek J R,Russel W,Roukos S,et al.Continuous Hidden Markov Modeling for Speaker-Independent WordSpotting[C]ICASSP,1989,1(1):627-630.

引证文献4

1艾斯卡尔·肉孜,殷实,张之勇,王东,艾斯卡尔·艾木都拉,郑方.THUYG-20：免费的维吾尔语语音数据库[J].清华大学学报（自然科学版）,2017,57(2):182-187. 被引量：13
2亚尔肯·阿吉,努尔麦麦提·尤鲁瓦斯,许辉,木合塔尔·霍加,白慧子.基于HMM的维吾尔语腭裂患儿语音理解度评估方法[J].电脑知识与技术,2017,13(1):200-203. 被引量：1
3徐健,热依曼.吐尔逊,吾守尔.斯拉木.在线多语种语音语料库平台的研究与实现[J].信息通信,2018,31(4):150-153. 被引量：3
4米尔阿迪力江·麦麦提,吾守尔·斯拉木,努尔麦麦提·尤鲁瓦斯,热依曼·吐尔逊,艾尼宛尔·托乎提.基于智能手机的维吾尔语语音控制系统的开发[J].计算机应用与软件,2016,33(6):220-223. 被引量：2

二级引证文献19

1阿依先木.卡得尔,邱自成.维吾尔语三音素决策树的欠拟合调优[J].塔里木大学学报,2018,30(2):98-108.
2热合曼.吾拉音,吾守尔.斯拉木,热依曼.吐尔逊,努尔麦麦提.尤鲁瓦斯.基于移动智能设备的汉语学习软件的研究与实现[J].电脑知识与技术（过刊）,2016,22(10X):183-186.
3王俊超,黄浩,徐海华,胡英.基于迁移学习的低资源度维吾尔语语音识别[J].计算机工程,2018,44(10):281-285. 被引量：6
4张晓.一种网络多模态语料库构建方法[J].软件导刊,2018,17(11):49-51.
5孙杰,吾守尔.斯拉木,热依曼.吐尔逊.基于CMN网络的低资源柯尔克孜语识别研究[J].现代电子技术,2018,41(24):132-136. 被引量：3
6马仕瑛.基于语音识别技术的维蒙藏语音产品开发及应用[J].计算机时代,2020,0(5):27-29. 被引量：1
7林正柏.重开发、重研制——“互联网+”背景下多语种平行语料库的建设思路[J].海外英语,2020(15):238-239.
8郑文婕,张敬谊,李静,佘盼.医疗语义众包标注平台设计和应用研究[J].医学信息学杂志,2020,41(7):49-52. 被引量：2
9孙杰,王宏,吾守尔·斯拉木.结合注意力机制和因果卷积网络的维吾尔语方言识别[J].声学技术,2020,39(6):697-703. 被引量：3
10曹中辉,黄志华,葛文萍,黄浩.注意力机制对生成对抗网络语音增强迁移学习模型的影响[J].声学技术,2021,40(1):77-81. 被引量：2

1朱忠磊.判别式训练方法在连续语音识别中的应用[J].大众科技,2009,11(12):15-17.
2齐耀辉,潘复平,葛凤培,颜永红.鉴别性最大后验概率声学模型自适应[J].计算机应用,2014,34(1):265-269. 被引量：2
3祁均,梁维谦.区分性训练算法在英语语音评测中的应用[J].电声技术,2011,35(8):42-44.
4陈斌,陈琦,张连海,屈丹,李弼程.一种区分性互补系统构造与融合的语音识别方法[J].声学学报,2016,41(1):125-134.
5李伟,李媛媛.基于中英文混合模型的语音识别研究[J].电声技术,2011,35(7):42-44. 被引量：1
6茅晓泉,胡光锐.一种基于梯度的HMM参数重估方法[J].上海交通大学学报,2002,36(5):683-685. 被引量：2
7陈斌,牛铜,张连海,屈丹,李弼程.不相关匹配追踪的分段区分性特征变换方法[J].电子学报,2016,44(12):2924-2931. 被引量：1
8茅晓泉,胡光锐.基于最大互信息的离散隐马尔柯夫模型训练方法[J].上海交通大学学报,2001,35(11):1713-1716. 被引量：7
9茅晓泉,胡光锐,唐斌.语音识别中结合进化计算的 MMI训练方法[J].应用科学学报,2002,20(3):251-253.
10张玲华,石操,张子菁,杨震,郑宝玉.说话人辨认系统中码本生成的新算法[J].信号处理,2004,20(4):391-394.

计算机工程与应用

2013年第2期

浏览历史

内容加载中请稍等...

维吾尔语连续语音识别声学模型优化研究被引量：4

参考文献7

同被引文献36

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

维吾尔语连续语音识别声学模型优化研究 被引量：4

参考文献7

同被引文献36

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

维吾尔语连续语音识别声学模型优化研究被引量：4