基于SGMM和DNN结合提高音素识别率的研究被引量：1

Research on Improving Phoneme Recognition Rate Based on Subspace Gaussian Mixture Model and Deep Neural Network Combination

下载PDF

导出

摘要为降低声学特征在语音识别系统中的音素识别错误率,提高系统性能,提出一种子空间高斯混合模型和深度神经网络结合提取特征的方法,分析了子空间高斯混合模型的参数规模并在减少计算复杂度后将其与深度神经网络串联进一步提高音素识别率。把经过非线性特征变换的语音数据输入模型,找到深度神经网络结构的最佳配置,建立学习与训练更可靠的网络模型进行特征提取,通过比较音素识别错误率来判断系统性能。实验仿真结果证明,基于该系统提取的特征明显优于传统声学模型。 In order to reduce the phoneme recognition error rate of acoustic features in speech recognition system and improve system performance,a Subspace Gaussian Mixture Model(SGMM)and Deep Neural Network(DNN)combined with extraction features are proposed.The parameter size of SGMM is analyzed and the computational complexity is reduced.After the degree is connected with DNN,the phoneme recognition rate is further improved.The speech data transformed by nonlinear feature is input into the model to find the optimal configuration of the deep neural network structure,and a more reliable network model for learning and training is established for feature extraction.The phoneme recognition error rate is compared to judge the system performance.Experimental simulation results show that the features extracted based on the system are significantly better than the traditional acoustic model.

作者贾兵兵曹辉秦驰杰 JIA Bingbing;CAO Hui;QIN Chijie(School of Physics and Information Technology,Shaanxi Normal University,Xi’an 710119,China)

机构地区陕西师范大学物理学与信息技术学院

出处《计算机工程与应用》 CSCD 北大核心 2019年第24期117-121,127,共6页 Computer Engineering and Applications

基金国家自然科学基金（No.1202020368,No.11074159,No.11374199）

关键词声学特征音素识别子空间高斯混合模型深度神经网络 acoustic feature phoneme recognition subspace Gaussian mixture model deep neural network

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献1

1陈雷,杨俊安,王一,王龙.LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法[J].信号处理,2015,31(3):290-298. 被引量：9

二级参考文献12

1Hinton G, Salakhutdinov R. Reducing the Dimensionality of Data with Neural Networks [ J ]. Science 2006, 313 (5786): 504-507.
2Li Deng, Dong Yu. Deep Learning for Signal and Infor- mation Processing. Microsoft Research. 2013.
3Li Deng. An Overview of Deep-Structured Learning for In- formation Processing[ C ]//Proceedings of the Asian-Pacif- ic Signal and Information Processing-Annual Summit and Conference, Xian, China, 1-14.
4October 2011. Krizhevsky A, Hinton G. Learning Multiple Layers of Fea- tures from Tiny Images [ C ]//Computer Science Depart- merit, University of Toronto,Tech. Rep. 2009.
5Dong Yu, Seltzer M. Improved Bottleneck Features Using Pretrained Deep Neural Networks [ C ] ///Proceedings of INTERSPEECH 2011, Italy, 237-240, August 2011.
6Mohamed A, Hinton G, Penn G. Acoustic modeling using deep belief networks. Audio, Speech, and Language Pro- cessing[ J ]. IEEE Transactions on, 2012,1 (20) : 14-22.
7Veselr K, Ghoshal A, Burget L, Povey D. Sequence-dis- criminative training of deep neural networks [ C ] //[N- TERSPEECH. 2013,8.
8Nguyen P, Kuhn R, Junqua J C, Niedzielski N. Rapid speaker adaptation in eigenvoice space [ J ]. IEEE Trans- actions on Speech and Audio Processing, 2000, 8 ( 6 ) : 695 -707.
9Siniscalchi S M, Dong Yu, Li Deng, Chin-Hui Lee. Speech Recognition Using Long-Span Temporal Patterns in a Deep Network Mode. IEEE Signal Processing Let- ters. 2013 : 20 ( 3 ) :201 - 204.
10Yebo Bao, Hui Jiang, Cong Liu, Yu Hu. Investigation on dimensionality reduction of concatenated features with deep neural network for LVCSR systems [ C ]///Proceed- ings of the IEEE l lth International Conference on Signal Processing ( ICSP2012), Beijing, China, 2012 : 562-566.

共引文献8

1谈建慧,景新幸,杨海燕.深度信念网络的Bottleneck特征提取方法[J].桂林电子科技大学学报,2016,36(2):118-122. 被引量：3
2李姗,徐珑婷.基于语谱图提取瓶颈特征的情感识别算法研究[J].计算机技术与发展,2017,27(5):82-86. 被引量：7
3龙星延,屈丹,张文林,徐思颖.采用最少门单元结构的改进注意力声学模型[J].信号处理,2018,34(6):739-748. 被引量：1
4李涛,曹辉,郭乐乐.深度神经网络的语音深度特征提取方法[J].声学技术,2018,37(4):367-371. 被引量：4
5龙星延,屈丹,张文林.结合瓶颈特征的注意力声学模型[J].计算机科学,2019,46(1):260-264. 被引量：3
6王嘉伟.基于卷积神经网络的语音识别研究[J].科学技术创新,2019(31):71-73. 被引量：7
7周涛,陆惠玲,霍兵强.深度信念网络研究进展[J].计算机工程与应用,2020,56(9):24-32. 被引量：9
8郑文秀,赵峻毅,文心怡,姚引娣.基于瓶颈复合特征的声学模型建立方法[J].计算机工程,2020,46(11):301-305. 被引量：3

同被引文献12

1徐冬冬,蒋志翔.基于深度优化残差卷积神经网络的端到端语音识别[J].计算机应用研究,2020,37(S02):139-141. 被引量：9
2李阳春,俞一彪.倒谱本征空间结构化高斯混合模型语音转换方法[J].声学学报,2015,40(1):12-19. 被引量：9
3王智超,徐及,张鹏远,颜永红.卷积神经网络声学模型的结构优化和加速计算[J].重庆邮电大学学报（自然科学版）,2018,30(3):416-422. 被引量：5
4涂中文,张勤,靳聪,赵薇.基于特征融合矩阵语音音色的厚薄度客观评价[J].北京理工大学学报,2018,38(5):531-536. 被引量：2
5钟鸣拓,蔡文郁.基于特征融合的海洋哺乳动物声音识别[J].电子科技,2019,32(5):32-37. 被引量：9
6李云红,梁思程,贾凯莉,张秋铭,宋鹏,何琛,王刚毅,李禹萱.一种改进的DNN-HMM的语音识别方法[J].应用声学,2019,38(3):371-377. 被引量：18
7侯一民,李永平.基于卷积神经网络的孤立词语音识别[J].计算机工程与设计,2019,40(6):1751-1756. 被引量：21
8王建永,廖丹,郭威,唐乐.多媒体网络语音模糊音调数据准确识别方法[J].电子设计工程,2019,27(21):50-53. 被引量：2
9侯勇,王铮,舒乔晔,傅山.一种防范电网调度员语音失误的语音辅助系统[J].微型电脑应用,2019,35(12):19-22. 被引量：4
10唐海桃,薛嘉宾,韩纪庆.一种多尺度前向注意力模型的语音识别方法[J].电子学报,2020,48(7):1255-1260. 被引量：21

引证文献1

1彭冲,赵轩,徐涛,武永泉,李懂理.基于注意力机制的电网巡检前端智能交互作业技术研究[J].电子设计工程,2023,31(14):177-181.

1阎艺璇,葛万成.循环神经网络在端到端语音识别中的应用[J].通信技术,2019,52(11):2659-2663.
2周钧锴,毕君郁.基于卷积神经网络的语音识别系统在养老软件中的实现[J].电脑知识与技术,2019,15(10):229-230. 被引量：3
3孙凌琳.语音教学在小学英语单词教学中的运用[J].小学生作文辅导（读写双赢）,2019,0(11):63-63. 被引量：1
4杨波.基于RNN的桂柳方言语音识别系统研究[J].现代计算机,2019,0(31):6-9.
5蒋畅江,温登峰,唐贤伦,巴莉芳.基于改进型轻门控循环单元的语音识别[J].计算机工程与设计,2019,40(11):3265-3268. 被引量：2
6张静.高校教育管理问题及措施分析[J].智富时代,2019,0(10):0125-0125. 被引量：1
7陈焕泽.基于隐马尔科夫模型的语音识别技术实现[J].数码世界,2019,0(12):17-17.
8侯秀芳,王征,韩斌如.北京市某三甲医院介入手术室护理人力资源配置的探讨[J].中华现代护理杂志,2019,25(28):3622-3627. 被引量：7
9郑纯军,贾宁.基于Deep Speech与多层LSTM的儿童朗读语音评价模型[J].计算机科学,2019,46(S11):108-111. 被引量：2
10石备知.汉泰语同音词对比研究[J].文化创新比较研究,2019,3(25):95-96.

计算机工程与应用

2019年第24期

浏览历史

内容加载中请稍等...

基于SGMM和DNN结合提高音素识别率的研究被引量：1

参考文献1

二级参考文献12

共引文献8

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于SGMM和DNN结合提高音素识别率的研究 被引量：1

参考文献1

二级参考文献12

共引文献8

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于SGMM和DNN结合提高音素识别率的研究被引量：1