基于三音素动态贝叶斯网络模型的大词汇量连续语音识别被引量：3

Continuous Speech Recognition for Large Vocabulary Based on Triphone DBN Model

下载PDF

导出

摘要考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-DBN)模型。WTS-DBN模型是三音素模型,识别基元为三音素,以显式的方式模拟了基于三音素状态捆绑的隐马尔可夫模型(HMM)。大词汇量语音识别实验结果表明:在纯净语音环境下,WTS-DBN模型的识别率比HMM,WT-DBN,WP-DBN和WPS-DBN模型的识别率分别提高了20.53%,40.77%,42.72%和7.52%。 To avoid coarticulatory effects in continuous speech recognition, based on word- phone structure dynamic bayesian network （WP-DBN） model and word-phone-state structure DBN （WPS-DBN） model, context-dependent triphone units are introduced. Two novel single stream DBN models, that is, word-triphone structure DBN （WT-DBN） and＇word-triphone-state structure DBN （WTS-DBN） models, are proposed for continuous speech recognition. WTS-DBN model is a triphone model and its modeling unit is triphone. It simulates a conventional HMM （hidden markov model） based triphone state-tying. Experimental results in large-vocabulary and clean speech environment show that the speech recognition rates of WTS-DBN model increase 20.53%, 40.77%, 42.72% and 7.52% than those of the HMM, WT-DBN, WP-DBN and WPS-DBN models.

作者吕国云赵荣椿张艳宁樊养余 Sahli Hichem

机构地区西北工业大学电子信息学院西北工业大学计算机学院布鲁塞尔自由大学电子与信息处理系

出处《数据采集与处理》 CSCD 北大核心 2009年第1期1-6,共6页 Journal of Data Acquisition and Processing

基金中国博士后基金(20080431251)资助项目国家"八六三"高技术研究发展计划(2007AA01Z324)资助项目

关键词语音识别动态贝叶斯网络三音素音素 speech recognition dynamic Bayesian network triphone phone

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Murphy K. Dynamic Bayesian networks:representation,inference and learning[D]. Berkeley: University of California, 2002.
2Bilmes J, Zweig G. The graphical modelds toolkit: an open source software system for speech and timeseries processing[C]//Proceedings of the IEEE International Conf on Acoustic Speech and Signal Processing (ICASSP). OrLando, Florida, USA:[s. n.], 2002(4): 3916-3919.
3Bilmes J, Bartels C. Graphical model architectures for speech recognition [J]. IEEE Signal Processing Magazine, 2005, 22(5): 89-100.
4Zweig G. Speech recognition with dynamic Bayesian networks [D]. Berkeley: University of California, 1998.
5Bilmes J, Zweig G, Richardson T, et al. Discriminatively structured graphical models for speech recognition: JHU-WS-2001 final workshop report [EB/OL]. http://www, clsp. jhu. edu/ws2001/ groups/gmsr/GMRO-final-rpt, pdf, Johns Hopkins Univ, Baltimore, MD, Tech Rep CLSP, 2001.
6Lv Guoyun, Jiang Dongmei, Sahli H, et al. A novel DBN model for large vocabulary continuous speech recognition and phone segmentation [C]//International Conference on Artificial Intelligence and Pattern Recognition (AIPR-07). Orlando, USA.. [s. n.] 2007, 1:397-402.
7Young S J, Odell J, Woodland P C. Tree-based state tying for high accuracy acoustic modeling [C]//Proceedings ARPA Workshop on Human Language Technology. Plainsboro, NJ, USA: [s. n. ].1994: 307-312.
8Bilmes J. GMTK: the graphical models toolkit[EB/ OL]. http://ssli, ee. washington, edu/-bilmes/ gmtk/, 2002.

同被引文献30

1荣传振,岳振军,贾永兴,王渊,杨宇.唇语识别关键技术研究进展[J].数据采集与处理,2012,27(S2):277-283. 被引量：4
2赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
3盛骤,谢式千,潘乘毅.概率论与数理统计[M].北京:高等教育出版社,2010.
4MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..
5Sebastiani F. Machine learning in automated text cat- egorization[J]. ACM Computing Surveys, 2002, 34 (1) : 1-9.
6Finn A, Kushmeick N, Smyth B. Genre classifica- tion and domain transfer for information filtering[C] //Proceedings of the 24th BCS-IRSG European Col- loquium on Information Retrieval Research.. Ad- vances in Information Retrieval. UK.. Springer, 2002: 353-362.
7Yu H, Hatzivassiloglou V. Towards answering opin- ion questions: Separating facts /rom opinions and i- dentifying the polarity of opinion sentences [C]// Proceedings of the 2003 Conference on EMNLP. USA: ACL, 2003: 129-136.
8Pang B, Lee L. A sentimental education: sentiment analysis using subjectivity summarization based on minimum cuts [C] // Proceedings of the 42nd Annual Meeting of the Association for Computational Lin- guistics. Morristown, NJ, USA.. ACL, 2004.. 271- 278.
9中国科学院计算技术研究所.ICTCLAS特色[EB/OL].http://ictclas.org/index.html,2008/2013.InstituteofComputingTechnology.ICTCLAS[EB/OL].http://ictclas.org/index.html,2008/2013.
10Rosenfeild R. Two decades of statistical language modeling: Where do we go from here? [J]. Proceedings of the IEEE, 2000, 88(8): 1270-1278.

引证文献3

1成培.移动式智能化广播影视视听节目监管平台解决方案[J].科技创新与应用,2013,3(17):23-23. 被引量：2
2邸鹏,段利国.一种新型朴素贝叶斯文本分类算法[J].数据采集与处理,2014,29(1):71-75. 被引量：51
3张剑,屈丹,李真.基于循环神经网络语言模型的N-best重打分算法[J].数据采集与处理,2016,31(2):347-354. 被引量：3

二级引证文献56

1柴丹炜,邵思思,张若昕,乐光学,刘建生.网络舆论话题分类算法研究与实证分析[J].嘉兴学院学报,2014,26(6):116-123. 被引量：2
2杨阳,张文生.基于深度学习的图像自动标注算法[J].数据采集与处理,2015,30(1):88-98. 被引量：26
3吴斌,李冠辰,刘宇,张雷,王柏.基于微博重复发送的垃圾用户甄别[J].数据采集与处理,2015,30(1):117-125. 被引量：1
4裴向杰,唐红昇,陈鹏.一种改进的贝叶斯算法在短信过滤中的研究[J].计算机技术与发展,2015,25(9):89-93. 被引量：2
5郭金玲,樊东燕,郭虎升.一种动态的主动多分类方法[J].数据采集与处理,2016,31(1):152-159.
6赵文涛,孟令军,赵好好,王春春.朴素贝叶斯算法的改进与应用[J].测控技术,2016,35(2):143-147. 被引量：24
7魏芬,刘建平,徐松松,曹飞.基于多特征值的服装检测与识别算法[J].实验室研究与探索,2016,35(5):118-122. 被引量：4
8蒋铭初,潘志松,尤峻.基于PLSA主题模型的多标记文本分类[J].数据采集与处理,2016,31(3):541-547. 被引量：5
9赵文涛,孟令军,赵好好,韩炳权,成亚飞.分布式朴素贝叶斯算法在文本分类中的应用[J].测控技术,2016,35(6):50-55. 被引量：2
10岳丹阳.移动通信客户投诉的智能诊断方法研究[J].中国新通信,2016,0(17):1-3. 被引量：5

1吕国云,蒋冬梅,张艳宁,赵荣椿,H Sahli,Ilse Ravyse,W Verhelst.基于多流多状态动态贝叶斯网络的音视频连续语音识别[J].电子与信息学报,2008,30(12):2906-2911. 被引量：1
2杨凤芹,孙吉贵,张长胜,张长海.大词汇量连续语音识别中搜索空间的表示及相关搜索方法的研究进展[J].计算机科学,2008,35(2):191-195. 被引量：2
3吕国云,蒋冬梅,张艳宁,赵荣椿,Hichem Sahli.基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究[J].西北工业大学学报,2008,26(2):173-178. 被引量：1
4杨志波,董明.动态贝叶斯网络在设备剩余寿命预测中的应用研究[J].计算机集成制造系统,2007,13(9):1811-1815. 被引量：12
5张卫强,宋贝利,蔡猛,刘加.基于音素后验概率的样例语音关键词检测方法[J].天津大学学报（自然科学与工程技术版）,2015,48(9):757-760. 被引量：3
6麦麦提艾力.吐尔逊,戴礼荣.深度神经网络在维吾尔语大词汇量连续语音识别中的应用[J].数据采集与处理,2015,30(2):365-371. 被引量：12
7姑丽加玛丽.麦麦提艾力,艾斯卡尔.肉孜,艾斯卡尔.艾木都拉.三音素模型的维吾尔语最佳文本选取算法[J].计算机工程与应用,2009,45(18):242-244. 被引量：5
8谢华燕,崔远.有限状态机的方法描述与应用研究[J].自动化与仪器仪表,2013(6):12-14. 被引量：3
9吕东岳,黄志蓓,陶冠宏,俞能海,吴健康.使用简易深度成像设备的高尔夫挥杆动态贝叶斯网络三维重建[J].电子与信息学报,2015,37(9):2076-2081. 被引量：6
10侯亭亭,肖秦琨,杨永侠.基于动态贝叶斯网络的手势识别[J].国外电子测量技术,2015,34(1):36-39. 被引量：19

数据采集与处理

2009年第1期

浏览历史

内容加载中请稍等...

基于三音素动态贝叶斯网络模型的大词汇量连续语音识别被引量：3

参考文献8

同被引文献30

引证文献3

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

基于三音素动态贝叶斯网络模型的大词汇量连续语音识别 被引量：3

参考文献8

同被引文献30

引证文献3

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

基于三音素动态贝叶斯网络模型的大词汇量连续语音识别被引量：3