基于瓶颈复合特征的声学模型建立方法被引量：3

Acoustic Model Construction Method Based on Bottleneck Compound Feature

下载PDF

导出

摘要针对梅尔频率倒谱系数(MFCC)语音特征不能有效反映连续帧之间有效信息的问题,基于深度神经网络相关性和紧凑性特征,提出一种融合神经网瓶颈特征与MFCC特征的复合特征构造方法,提高语音的表征能力和建模能力。从语音数据中提取MFCC特征作为输入数据,将MFCC特征和BN特征进行串接得到新的复合特征,并进行GMM-HMM声学建模。在TIMIT数据库上的实验结果表明,与单一的瓶颈特征和深度神经网络后验特征相比,该方法识别率明显提升。 The Mel-Frequency Cepstral Coefficient(MFCC)speech features cannot effectively reflect the effective information between consecutive frames.To address the problem,this paper uses deep neural network to extract bottleneck features with long-term correlation and compactness of speech,and on this basis proposes a compound feature construction method that combines the neural network bottleneck features and the MFCC feature,so as to improve the speech characterization and modeling capabilities.The MFCC feature is extracted from the speech data as the input,and then concatenated with the BN feature to obtain a new compound feature.On this basis the acoustic modeling of Mixture Model-Hidden Markov Model(GMM-HMM)is implemented.Experimental results on the TIMIT database show that compared with the methods based on the single bottleneck feature and deep neural network posterior feature,the proposed method can significantly increases the recognition rate.

作者郑文秀赵峻毅文心怡姚引娣 ZHENG Wenxiu;ZHAO Junyi;WEN Xinyi;YAO Yindi(School of Communication and Information Engineering,Xi’an University of Posts and Telecommunications,Xi’an 710121,China)

机构地区西安邮电大学通信与信息工程学院

出处《计算机工程》 CAS CSCD 北大核心 2020年第11期301-305,314,共6页 Computer Engineering

基金国际科技合作项目一般项目“基于大数据信息决策的智慧农业自动灌溉系统研究”(2018KW-025)。

关键词深度神经网络梅尔频率倒谱系数瓶颈特征复合特征高斯混合模型-隐马尔科夫模型 Deep Neural Networks(DNN) Mel-Frequency Cepstral Coefficient(MFCC) bottleneck feature compound feature Gaussian Mixture Model-Hidden Markov Model(GMM-HMM)

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1刘宇晴,王天昊,徐旭.深度学习神经网络的新型自适应激活函数[J].吉林大学学报（理学版）,2019,57(4):857-859. 被引量：20
2陈雷,杨俊安,王一,王龙.LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法[J].信号处理,2015,31(3):290-298. 被引量：9
3吕丹桔,B.Hoffmeister.汉语语音声学特征复合的研究[J].云南大学学报（自然科学版）,2010,32(S1):368-371. 被引量：3
4王一,杨俊安,刘辉,柳林.基于层次稀疏DBN的瓶颈特征提取方法[J].模式识别与人工智能,2015,28(2):173-180. 被引量：10
5李晋徽,杨俊安,王一.一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用[J].计算机科学,2014,41(3):263-266. 被引量：10
6王兆凯,李亚星,冯旭鹏,刘利军,黄青松,刘晓梅.基于深度信念网络的个性化信息推荐[J].计算机工程,2016,42(10):201-206. 被引量：5
7秦楚雄,张连海.基于DNN的低资源语音识别特征提取技术[J].自动化学报,2017,43(7):1208-1219. 被引量：25
8李海霞,吴苏怡.基于主成分分析方法的海量地震数据属性降维优化[J].地震工程学报,2019,41(3):757-762. 被引量：5
9周楠,赵悦,李要嫱,徐晓娜,才旺拉姆,吴立成.基于瓶颈特征的藏语拉萨话连续语音识别研究[J].北京大学学报（自然科学版）,2018,54(2):249-254. 被引量：9
10李云红,梁思程,贾凯莉,张秋铭,宋鹏,何琛,王刚毅,李禹萱.一种改进的DNN-HMM的语音识别方法[J].应用声学,2019,38(3):371-377. 被引量：17

二级参考文献93

1马光志,倪国元.一种增量式模糊聚类算法[J].微计算机应用,2005,26(1):5-7. 被引量：8
2李思一,戴蓓蒨,王海祥.基于子带GMM-UBM的广播语音多语种识别[J].数据采集与处理,2007,22(1):14-18. 被引量：2
3Rabiner L R,Sambur M R.An algorithm for determining the endpoints of isolated utterances[J].The Bell System Technical Journal,1975,54(2):297-315.
4Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models[C] //Digital Signal Processing.2000:19-41.
5Campbell W M,Sturim D E,Reynolds D A.Support vector machines using GMM supervectors for speaker verification[J].IEEE Signal Processing Letters,2006,13:308-11.
6Bilmes JA.Maximum mutual information based reduction strategies for cross-correlation based joint distribution modeling[C] //IEEE Int.Conf.Acoust.,Speech,Signal Processing (ICASSP).Seattle,USA,May 1998.
7Yang H H,Sharna S,van Vuuren S,et al.Relevance of timefrequency features for phonetic and speaker-channel classification[J].Speech Communication,2000,31 (1):35-50.
8Fousek P,Lamel L,Gauvain J-L.Transcribing Broadcast Data using MLP Features[C] //Proceedings of Interspeech.2008.
9Park J,Diehl F,Gales M,et al.Training and Adapting MLPFeatures for Arabic Speech Recognition[C] //Proc,of IEEE Conf.Acoust.Speech Signal Process(ICASSP).2009.
10Picheny M,Nahamoo D,Goel V,et al.Trends and Advances in Speech Recognition[J].IBM Journal of Research and Development,2011,55(5):2.

共引文献95

1张会云.语音情感识别研究综述[J].信息通信,2019,0(11):58-60. 被引量：2
2袁松范.中国进入世贸组织的前景[J].中国医药情报,2000,6(1):34-37. 被引量：3
3高强,李倩.基于多尺度主线方向特征的DBN分类方法[J].电视技术,2015,39(15):120-124. 被引量：1
4谈建慧,景新幸,杨海燕.深度信念网络的Bottleneck特征提取方法[J].桂林电子科技大学学报,2016,36(2):118-122. 被引量：3
5王媛媛,周涛,吴翠颖.深度学习及其在医学图像分析中的应用研究[J].电视技术,2016,40(10):118-126. 被引量：15
6李姗,徐珑婷.基于语谱图提取瓶颈特征的情感识别算法研究[J].计算机技术与发展,2017,27(5):82-86. 被引量：7
7侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：81
8茅正冲,王俊俊.基于耳蜗倒谱系数和Teager能量算子相位融合的说话人识别系统[J].南京理工大学学报,2018,42(1):82-88. 被引量：4
9龙星延,屈丹,张文林,徐思颖.采用最少门单元结构的改进注意力声学模型[J].信号处理,2018,34(6):739-748. 被引量：1
10王民,许娟,要趁红,赵渊.基于ADSABC算法优化WNN的语音识别研究[J].液晶与显示,2018,33(7):615-623. 被引量：4

同被引文献11

1Wei LIU,Ai-qun HU.A subband excitation substitute based scheme for narrowband speech watermarking[J].Frontiers of Information Technology & Electronic Engineering,2017,18(5):627-643. 被引量：2
2宋懿,安小米.国际标准中的智慧城市概念及其概念体系:基于ISO,ITU-T和IEC术语定义的分析[J].标准科学,2018(1):127-132. 被引量：13
3陈强普,桑军,项志立,罗红玲,郭沛,蔡斌.BN对VGG神经网络的影响研究[J].合肥工业大学学报（自然科学版）,2018,41(1):35-39. 被引量：12
4姚煜,RYAD Chellali.基于双向长短时记忆联结时序分类和加权有限状态转换器的端到端中文语音识别系统[J].计算机应用,2018,38(9):2495-2499. 被引量：16
5陆全昊,高勇.基于奇异谱分析的音频信息隐藏算法[J].计算机工程与设计,2019,40(2):301-305. 被引量：3
6唐美丽,胡琼,马廷淮.基于循环神经网络的语音识别研究[J].现代电子技术,2019,42(14):152-156. 被引量：19
7牛盼盼,杨思宇,王丽,杨红颖,李丽,王向阳.基于稳健特征点的平稳小波域数字水印算法[J].通信学报,2019,40(11):187-198. 被引量：11
8张威,翟明浩,黄子龙,李巍,曹毅.SE-MCNN-CTC的中文语音识别声学模型[J].应用声学,2020,39(2):223-230. 被引量：10
9刘娟宏,胡彧,黄鹤宇.端到端的深度卷积神经网络语音识别[J].计算机应用与软件,2020,37(4):192-196. 被引量：30
10李鹏,杨元维,高贤君,杜李慧,周意,蒋梦月,张净波.基于双向循环神经网络的汉语语音识别[J].应用声学,2020,39(3):464-471. 被引量：9

引证文献3

1雷杰,赵宏亮,艾宁智,邹万冰,詹毅.基于BN-SGMM-HMM模型的低资源语音识别系统[J].合肥工业大学学报（自然科学版）,2021,44(12):1627-1632. 被引量：8
2刘威,袁键.基于信道扩频和感知滤波的改进语音水印算法[J].计算机工程与设计,2022,43(11):3037-3044. 被引量：1
3王先欢,孙自强.基于QRNN-CTC的中文语音识别声学模型[J].计算机应用与软件,2023,40(12):184-188.

二级引证文献9

1李美燕,李慧瑛,李德,马勇虎.基于扩频通信技术的语音水印方法[J].电声技术,2023,47(2):58-60.
2陈琳.面向语音特征提取的英语机器人识别方法构建[J].自动化与仪器仪表,2022(8):234-239.
3陈严,李浩.基于机器学习算法的中文语音识别效果评估方法[J].信息记录材料,2022,23(8):97-99. 被引量：3
4汪晟磊,宋星,杨彦青.智能家居语音控制系统的设计[J].自动化与仪器仪表,2023(4):117-122. 被引量：3
5范雪扬.基于语音识别技术的在线语言交互学习系统的设计与实现[J].自动化与仪器仪表,2023(7):187-190. 被引量：4
6曹茂俊,崔欣锋.基于一维卷积神经网络的地层智能识别方法[J].计算机技术与发展,2023,33(9):133-140.
7汪玉秀,苏战波.基于轻量化神经网络的多语音识别方法研究[J].自动化与仪器仪表,2023(10):167-169. 被引量：1
8夏美艺,范灵,牛青松,桂鹂娟.面向政务系统的大数据语音识别系统应用及研究[J].现代科学仪器,2024,41(1):155-160.
9林勇升,田美艳,王鑫.基于DNN-LSTM模型的智能家居语音识别系统设计[J].安阳师范学院学报,2024,26(5):15-18.

1杨德举,马良荔,谭琳珊,裴晶晶.基于门控卷积网络与CTC的端到端语音识别[J].计算机工程与设计,2020,41(9):2650-2654. 被引量：14
2董洁,游培航,彭开香.基于动态内部主元分析和隐马尔科夫模型的动态过程故障检测与分类方法[J].控制理论与应用,2020,37(10):2073-2080. 被引量：4
3王博洋,龚建伟,张瑞增,陈慧岩.基于真实驾驶数据的运动基元提取与再生成[J].机械工程学报,2020,56(16):155-165. 被引量：6
4何春龙,周月华,钱恭斌,丁雪.基于机器学习的集群双向DAS能效技术[J].深圳大学学报（理工版）,2020,37(6):567-575. 被引量：1
5洪旭升,李世贵,杨江伟,罗红玉,张宁,司怀军.马铃薯StCDPKs基因家族成员鉴定与表达分析[J].甘肃农业大学学报,2020,55(5):73-83. 被引量：4
6刘金硕,冯阔,Jeff Z.Pan,邓娟,王丽娜.MSRD:多模态网络谣言检测方法[J].计算机研究与发展,2020,57(11):2328-2336. 被引量：19
7无,田德安,谢渭芬,王红,刘梅.药物性肝损伤基层诊疗指南(2019年)[J].中华全科医师杂志,2020,19(10):868-875. 被引量：68
8蒿峰,王小海,庞传军.基于Word2vec的电网调度词汇词向量生成方法及语音识别应用[J].内蒙古电力技术,2020,38(5):72-76. 被引量：11
9朱再生,施红旗,周鹏飞,徐礼臻,朱伊祎,陈加俊.前列腺周围盆筋膜内神经网尸体解剖的分布特征[J].解剖学报,2020,51(5):778-783. 被引量：1
10姚泽鹏,汤子跃,孙永健,陈一畅,王万田.基于卷积神经网络的人体动作识别方法[J].空军预警学院学报,2020,34(5):360-364. 被引量：2

计算机工程

2020年第11期

浏览历史

内容加载中请稍等...

基于瓶颈复合特征的声学模型建立方法被引量：3

参考文献10

二级参考文献93

共引文献95

同被引文献11

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于瓶颈复合特征的声学模型建立方法 被引量：3

参考文献10

二级参考文献93

共引文献95

同被引文献11

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于瓶颈复合特征的声学模型建立方法被引量：3