一种改进的DNN-HMM的语音识别方法被引量：17

An improved speech recognition method based on DNN-HMM model

下载PDF

导出

摘要针对深度神经网络与隐马尔可夫模型(DNN-HMM)结合的声学模型在语音识别过程中建模能力有限等问题,提出了一种改进的DNN-HMM模型语音识别算法.首先根据深度置信网络(DBN)结合深度玻尔兹曼机(DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数(MFCC)和对数域的Mel滤波器组系数(Fbank)作为声学特征参数,通过TIMIT语音数据集进行实验.实验结果表明:结合了DBM的DNN-HMM模型相比DNN-HMM模型更具优势,其中,使用MFCC声学特征在词错误率与句错误率方面分别下降了1.26% 和0.20%.此外,使用默认滤波器组的Fbank特征在词错误率与句错误率方面分别下降了0.48% 和0.82%,并且适量增加滤波器组可以降低错误率.总之,研究取得句错误率与词错误率分别降低到21.06% 和3.12% 的好成绩. The acoustic model combined with deep neural network and hidden Markov model (DNN-HMM) has been used extensively in today's speech recognition system.In this paper, an improved DNN-HMM model speech recognition algorithm is proposed. First, a deep neural network acoustic model is built by the deep belief network (DNN) and the deep Boltzmann machine (DBM). Then the Mel frequency cepstral coefficient (MFCC) and the log filter coefficient of the log domain (Fbank) are extracted as an acoustic feature parameter. Finally, the experiment is performed on the TIMIT speech data set. The experimental results show that the DNN-HMM model combined with DBM has more advantages than DNN-HMM model, in which the MFCC acoustic features can reduce the word error rate and sentence error rate by 1.26% and 0.20% respectively. Moreover, using the Fbank feature default filter group rate decreased the word error rate and sentence error rate by 0.48% and 0.82% respectively, and an appropriate increase in the filter bank group can reduce the error rate. In brief the sentence error rate and the word error rate were reduced to 21.06% and 3.12% respectively.

作者李云红梁思程贾凯莉张秋铭宋鹏何琛王刚毅李禹萱 LI Yunhong;LIANG Sicheng;JIA Kaili;ZHANG Qiuming;SONG Peng;HE Chen;WANG Gangyi;LI Yuxuan(School of Electronics and Information, Xi’an Polytechnic University, Xi’an 710048, China;State Grid Xi’an Power Supply Company, Xi’an 710032, China)

机构地区西安工程大学电子信息学院国网西安供电公司

出处《应用声学》 CSCD 北大核心 2019年第3期371-377,共7页 Journal of Applied Acoustics

基金国家自然科学基金资助项目(61471161) 陕西省科技厅自然科学基础研究重点项目(2016JZ026) 国家级大学生创新创业项目(201810709009)

关键词语音识别深度神经网络声学模型声学特征 Speech recognition Deep neural network Acoustic model Acoustic feature

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献5

1胡政权,曾毓敏,宗原,李梦超.说话人识别中MFCC参数提取的改进[J].计算机工程与应用,2014,50(7):217-220. 被引量：29
2赵涛涛,杨鸿武.结合EMD和加权Mel倒谱的语音共振峰提取算法[J].计算机工程与应用,2015,51(9):207-212. 被引量：7
3侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：81
4邓侃,欧智坚.深层神经网络语音识别自适应方法研究[J].计算机应用研究,2016,33(7):1966-1970. 被引量：15
5张劲松,高迎明,解焱陆.基于DNN的发音偏误趋势检测[J].清华大学学报（自然科学版）,2016,56(11):1220-1225. 被引量：7

二级参考文献59

1赵铭,崔慧娟,唐昆,杜文.谱包络参数的平滑算法[J].清华大学学报（自然科学版）,2005,45(4):448-451. 被引量：5
2赵毅,尹雪飞,陈克安.一种新的基于倒谱的共振峰频率检测算法[J].应用声学,2010,29(6):416-424. 被引量：9
3何峰,陈晓清,李国锁,林嘉宇.一种新的语音信号共振峰提取的算法[J].信号处理,2007,23(4):618-621. 被引量：6
4荣薇,陶智,顾济华,赵鹤鸣.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用,2007,43(30):213-216. 被引量：17
5Bouzid M.Robust quantization of LPC parameters for speech communication over noisy channel[C]//Proceedings of the 2nd International Conference on the Applications of DigtialInformation and Web Technologies, Aug 2009 : 713-718.
6Zhang X Y, Guo Y L,Hou X M.A speech recognition method of isolated words based on modified LPC ceps- trum[C]//Proceedings of the IEEE International Confer- ence on Granular Computing,Nov 2007:481-485.
7Hosseinzadeh D, Krishnan S.Combining vocal source and MFCC features for enhanced speaker recognition perfor- mance using GMMs[C]//Proceedings of the IEEE 9th Workshop on Multimedia Signal Processing, Oct 2007: 365-368.
8Skowronski M D,Harris J G.Increased MFCC filter band- width for noise-robust phoneme recognition[C]//Proc of IEEE Int'l Conf on Acoustics Speech and Signal Pro- cessing, 2002 : 801-804.
9Ezzaidi H, Rouat J.Pitch and MFCC dependent GMM models for Speaker Identification systems[C]//Proceedings of the Canadian Conference on Electrical and Computer Engineering, May 2004 : 43-44.
10Shannon B J,Paliwal K K.Feature extraction fxom higher- lag autocorrelation coefficients for robust speech recog- nition[J].Speech Communication, 2006,48(1 1):1458-1485.

共引文献130

1师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：11
2朱梦帆,汪志成,戴诗柏.基于语谱图与稠密卷积神经网络的性别与年龄识别研究[J].仪表技术,2022(1):66-70. 被引量：3
3杨秀芳,陈卓,王驰.基于隐Markov模型的齿轮箱故障识别方法研究[J].电子测量与仪器学报,2020,32(11):115-123. 被引量：6
4李明节,陶洪铸,许洪强,刘金波,张强,张伟.电网调控领域人工智能技术框架与应用展望[J].电网技术,2020,44(2):393-400. 被引量：78
5易雪蓉,黄巍,胡迪,蒋怡.基于HMM的声调语音模型研究[J].武汉工程大学学报,2018,40(6):691-695. 被引量：2
6佘堃,潘松松,田文洪.基于虚拟化的声纹识别系统性能研究[J].成都信息工程学院学报,2015,30(2):107-112. 被引量：1
7朱健晨,刘增力,袁洪,程桐.孤立词识别系统的算法改进及优化[J].计算机仿真,2015,32(9):249-253. 被引量：2
8秦晓慧,侯霞,赵雪.一种融合语义角色和依存句法的实体关系抽取算法[J].北京信息科技大学学报（自然科学版）,2019,34(1):64-67. 被引量：4
9黄婷,周萍,景新幸,杨青.改进型Mel混合参数应用于说话人识别[J].微电子学与计算机,2016,33(4):60-63. 被引量：2
10王民,曹清菁,贠卫国,周军妮.改进MFCC算法在朱鹮鸣声个体识别中的应用[J].计算机工程与科学,2016,38(5):1052-1056. 被引量：4

同被引文献175

1陈国平,梁志峰,董昱.基于能源转型的中国特色电力市场建设的分析与思考[J].中国电机工程学报,2020,40(2):369-379. 被引量：122
2李帅永,毛维培,程振华,韩明秀,夏传强.基于VMD和K-SVD字典学习的供水管道泄漏振动信号压缩感知方法[J].仪器仪表学报,2020,41(3):49-60. 被引量：25
3徐冬冬,蒋志翔.基于深度优化残差卷积神经网络的端到端语音识别[J].计算机应用研究,2020,37(S02):139-141. 被引量：6
4陶洪铸,翟明玉,许洪强,季学纯,刘金波,徐丽燕.适应调控领域应用场景的人工智能平台体系架构及关键技术[J].电网技术,2020,44(2):412-419. 被引量：36
5罗辉,韩纪庆.基于自适应结构图的半监督语音情感特征选择[J].智能计算机与应用,2021,11(3):1-8. 被引量：1
6杜志浩,韩纪庆.基于听觉掩蔽生成对抗网络的单通道语音增强方法[J].智能计算机与应用,2021,11(3):209-214. 被引量：1
7吕丹桔,B.Hoffmeister.汉语语音声学特征复合的研究[J].云南大学学报（自然科学版）,2010,32(S1):368-371. 被引量：3
8韩清华,于洪志.基于HMM的安多藏语非特定人孤立词语音识别研究[J].软件导刊,2010,9(7):173-175. 被引量：9
9徐国强.“语音输入”提高临床现场的诊疗效率——探索在撰写读片报告时的语音识别软件的应用[J].中国信息界（e医疗）,2010(12):51-52. 被引量：3
10徐利军.基于DTW的孤立词语音识别研究[J].软件导刊,2012,11(2):137-139. 被引量：6

引证文献17

1谢将剑,杨俊,邢照亮,张卓,陈新.多特征融合的鸟类物种识别方法[J].应用声学,2020,39(2):199-206. 被引量：15
2张威,翟明浩,黄子龙,李巍,曹毅.SE-MCNN-CTC的中文语音识别声学模型[J].应用声学,2020,39(2):223-230. 被引量：10
3周红锴.基于单片机控制的孤立词语音自动识别系统设计[J].现代电子技术,2020,43(18):64-66. 被引量：3
4郑文秀,赵峻毅,文心怡,姚引娣.基于瓶颈复合特征的声学模型建立方法[J].计算机工程,2020,46(11):301-305. 被引量：3
5宓林晖,袁骏毅,潘常青,沈晓冬.基于智能语音识别技术的医技报告交互系统的设计与应用[J].中国医疗设备,2021,36(2):92-95. 被引量：17
6林思岑.基于去相关化的低秩矩阵分解对口语能力的评估方法[J].微型电脑应用,2021,37(2):33-36.
7张允耀,黄鹤鸣,张会云.复杂噪声环境下语音识别研究[J].计算机与现代化,2021(9):68-74. 被引量：4
8郑文秀,连晓飞,张旭东,黄琼丹.基于稀疏DNN的声学复合特征构造方法[J].传感器与微系统,2021,40(12):69-72. 被引量：1
9张学文,王林,冯夫健,谭棉,李学林.基于卷积神经网络的苗语孤立词语音识别[J].软件导刊,2022,21(2):21-26. 被引量：6
10李小燕.智能语音代理的图书馆多媒体阅读应用探析[J].自动化与仪器仪表,2022(1):148-152.

二级引证文献78

1张旭,赵东阳,任海艳,刘卿,朱艺,曾繁华,张雨辰,牛光宇,王力华.医院智能语音交互服务平台的建设与应用[J].中国数字医学,2021,16(8):28-31. 被引量：3
2吕秀丽,陈帅男.基于卷积神经网络的丹顶鹤定位识别[J].电子测量技术,2020,43(20):104-108. 被引量：4
3柏财通,高志强,李爱,崔翛龙.基于门控网络的军事装备控制指令语音识别研究[J].计算机工程,2021,47(7):301-306. 被引量：5
4邵帮丽,朱寅,朱润,潘晨曦,王坚,奚雪峰,杨颢.一种面向智能家居设备控制的多模态人机智能交互方法[J].林业工程学报,2021,6(4):190-196. 被引量：11
5阙鑫华,乔倩,蒋慧,吴旭成,柴晨思,王瑞,郑红.基于改进DTW算法的海岛水鸟鸣声识别应用研究[J].农村经济与科技,2021,32(11):320-322. 被引量：2
6蒋雨肖,丁晟春,吴鹏.基于BiLSTM-VGG16的多模态信息特征分类研究[J].情报理论与实践,2021,44(11):180-186. 被引量：14
7张猛,李健.鸟类音频数据预处理方法[J].数据与计算发展前沿,2021,3(5):130-140. 被引量：1
8卢瑞鸿,王毅,张顺霞,吴震天.与RIS报告系统深度结合的超声语音录入系统设计与实现[J].现代计算机,2021,27(28):116-120.
9张婷,马延周,李宏欣.基于DCNN的语音识别降噪方法研究[J].现代电子技术,2021,44(23):48-51. 被引量：3
10黄淼,陈仁,钟浩,王强钢,文旭.面向电力系统潮流仿真的语音交互研究[J].电工电能新技术,2021,40(12):40-47. 被引量：3

1刘悦,林军,游俊.语音识别技术在车载领域的应用及发展[J].控制与信息技术,2019(2):1-6. 被引量：13
2关健,王敏.基于深度神经网络和多元损失的说话人识别[J].电子测量技术,2019,42(5):39-43. 被引量：6
3邱意,贾桂敏,杨金锋,刘远庆.民航陆空通话语音识别BiLSTM网络模型[J].信号处理,2019,35(2):293-300. 被引量：8
4杨瑞花.小学科学“技术与工程”领域中建模教学方法研究[J].华夏教师,2019,0(10):92-93. 被引量：2
5毕馨文.基于深度学习的语音识别方法[J].电子技术与软件工程,2019,0(8):245-245. 被引量：2
6龙星延,屈丹,张文林.结合瓶颈特征的注意力声学模型[J].计算机科学,2019,46(1):260-264. 被引量：3
7田祥宏.一种结合局部线性嵌入与支持向量机的语音识别方法[J].电视技术,2019,43(2):61-65. 被引量：1
8宋寿鹏,刘明宇.基于二进制编码的管道缺陷超声检测方法研究[J].压电与声光,2018,40(6):936-941. 被引量：1
9黎煊,赵建,高云,刘望宏,雷明刚,谭鹤群.基于连续语音识别技术的猪连续咳嗽声识别[J].农业工程学报,2019,35(6):174-180. 被引量：21
10林朗,王让定,严迪群,李璨.基于修正倒谱特征的回放语音检测算法[J].计算机应用,2018,38(6):1648-1652. 被引量：2

应用声学

2019年第3期

浏览历史

内容加载中请稍等...

一种改进的DNN-HMM的语音识别方法被引量：17

参考文献5

二级参考文献59

共引文献130

同被引文献175

引证文献17

二级引证文献78

相关作者

相关机构

相关主题

浏览历史

一种改进的DNN-HMM的语音识别方法 被引量：17

参考文献5

二级参考文献59

共引文献130

同被引文献175

引证文献17

二级引证文献78

相关作者

相关机构

相关主题

浏览历史

一种改进的DNN-HMM的语音识别方法被引量：17