复杂环境下基于自适应深度神经网络的鲁棒语音识别被引量：5

Robust speech recognition based onadaptive deep neural network in complex environment

下载PDF

导出

摘要在连续语音识别系统中,针对复杂环境(包括说话人及环境噪声的多变性)造成训练数据与测试数据不匹配导致语音识别率低下的问题,提出一种基于自适应深度神经网络的语音识别算法。结合改进正则化自适应准则及特征空间的自适应深度神经网络提高数据匹配度;采用融合说话人身份向量i-vector及噪声感知训练克服说话人及环境噪声变化导致的问题,并改进传统深度神经网络输出层的分类函数,以保证类内紧凑、类间分离的特性。通过在TIMIT英文语音数据集和微软中文语音数据集上叠加多种背景噪声进行测试,实验结果表明,相较于目前流行的GMM-HMM和传统DNN语音声学模型,所提算法的识别词错误率分别下降了5.151%和3.113%,在一定程度上提升了模型的泛化性能和鲁棒性。 In a continuous speech recognition system,aiming at the complex environments(including the variability of speakers and environmental noise),the training data does not match the test data,which results in a low voice recognition rate.A speech recognition method based on adaptive deep neural network is studied.The improved regularized adaptive criterion and the adaptive deep neural network in the feature space are combined to improve data matching.The fusion of speaker identity vector i-vector and noise perception training are used to overcome speaker and environmental noise changes and improve the classification function of the output layer of the traditional deep neural network,which ensures the characteristics of compactness within the class and separation between classes.The test experiment was carried out by superimposing various background noises under the TIMIT English speech data set and the Microsoft Chinese speech data set.The results show that,compared with the current popular GMM-HMM and traditional DNN speech acoustic models,our proposal decreases the recognition word error rate by 5.151%and 3.113%respectively,which improves the generalization performance and robustness of the model to a certain extent.

作者张开生赵小芬 ZHANG Kai-sheng;ZHAO Xiao-fen(School of Electrical and Control Engineering,Shaanxi University of Science and Technology,Xi’an 710021,China)

机构地区陕西科技大学电气与控制工程学院

出处《计算机工程与科学》 CSCD 北大核心 2022年第6期1105-1113,共9页 Computer Engineering & Science

基金国家自然科学基金(61601271) 陕西省科技计划(2017GY-063) 陕西省榆林市2020年科技计划(CXY-2020-090)。

关键词语音识别深度神经网络改进自适应准则特征空间 speech recognition deep neural network improved adaptive criterion feature space

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1刘建伟,丁熙浩,罗雄麟.多模态深度学习综述[J].计算机应用研究,2020,37(6):1601-1614. 被引量：34
2侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：78
3李云红,梁思程,贾凯莉,张秋铭,宋鹏,何琛,王刚毅,李禹萱.一种改进的DNN-HMM的语音识别方法[J].应用声学,2019,38(3):371-377. 被引量：17
4曹晶晶,许洁萍,邵聖淇.多噪声环境下的层级语音识别模型[J].计算机应用,2018,38(6):1790-1794. 被引量：8
5张宇,计哲,万辛,张震,葛凤培,颜永红.基于DNN的声学模型自适应实验[J].天津大学学报（自然科学与工程技术版）,2015,48(9):765-770. 被引量：5
6屈丹,张文林.基于本征音子说话人子空间的说话人自适应算法[J].电子与信息学报,2015,37(6):1350-1356. 被引量：4
7金超,龚铖,李辉.语音识别中神经网络声学模型的说话人自适应研究[J].计算机应用与软件,2018,35(2):200-205. 被引量：12
8娄英丹,徐静林,黄丽霞,张雪英.MLLR和MAP在远场噪声混响下的语音识别研究[J].计算机工程与应用,2020,56(10):122-126. 被引量：7
9Bosheng LIU,Xiaoming CHEN,Yinhe HAN,Jiajun LI,Haobo XU,Xiaowei LI.Accelerating DNN-based 3D point cloud processing for mobile computing[J].Science China(Information Sciences),2019,62(11):36-46. 被引量：5
10张文林,牛铜,张连海,李弼程.基于最大似然可变子空间的快速说话人自适应方法[J].电子与信息学报,2012,34(3):571-575. 被引量：3

二级参考文献86

1Lee C H,Lin C H,and Juang B H.A study on speakeradaptation of the parameters of continuous density hiddenMarkov models[J].IEEE Transactions on Signal Processing,1991,39(4):806-814.
2Ghoshal A,Povey D,Agarwal M,et al..A novel estimationof feature-space MLLR for full-covariance models[C].International Conference on Acoustics,Speech and SignalProcessing,Dallas,Texas,USA,2010:4310-4313.
3Kuhn R,Junqua J C,Nguyen P,et al..Rapid speakeradaptation in eigenvoice space[J].IEEE Transactions onSpeech and Audio Processing,2000,8(6):695-707.
4Teng W X,Gravier G,Bimbot F,et al..Rapid speakeradaptation by reference model interpolation[C].Interspeech,Antwerp,Belgium,2007:258-261.
5Teng W X,Gravier G,Bimbot F,et al..Speaker adaptationby variable reference model subspace and application tolarge vocabulary speech recognition[C].InternationalConference on Acoustics,Speech and Signal Processing,Taipei,China,2009:4381-4384.
6Jeong Y and Sim H S.New speaker adaptation method using2-D PCA[J].IEEE Signal Processing Letters,2010,17(2):193-196.
7Jeong Y.Speaker adaptation based on the multilineardecomposition of training speaker models[C].InternationalConference on Acoustics,Speech and Signal Processing,Dallas,Texas,USA,2010:4870-4873.
8Young S,Evermann G,Gales M,et al..The HTK Book.HTKVersion 3.4,2009.
9Chang E,Shi Y,Zhou J,et al..Speech lab in a box:aMandarin speech toolbox to jumpstart speech relatedresearch[C].EUROSPEECH-2001,Aalborg,Denmark,2001:2799-2802.
10Zhang Wen-lin,Zhang Wei-qiang,Li Bi-cheng,et al..Bayesian speaker adaptation based on a new hierarchical probabilistic model[J].IEEE Transactions on Audio,Speech and Language Processing,2012,20(7): 2002-2015.

共引文献168

1师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：9
2朱梦帆,汪志成,戴诗柏.基于语谱图与稠密卷积神经网络的性别与年龄识别研究[J].仪表技术,2022(1):66-70. 被引量：3
3杨秀芳,陈卓,王驰.基于隐Markov模型的齿轮箱故障识别方法研究[J].电子测量与仪器学报,2020,32(11):115-123. 被引量：6
4李明节,陶洪铸,许洪强,刘金波,张强,张伟.电网调控领域人工智能技术框架与应用展望[J].电网技术,2020,44(2):393-400. 被引量：73
5齐耀辉,潘复平,葛凤培,颜永红.鉴别性最大后验概率声学模型自适应[J].计算机应用,2014,34(1):265-269. 被引量：2
6张文林,张连海,陈琦,李弼程.语音识别中基于低秩约束的本征音子说话人自适应方法[J].电子与信息学报,2014,36(4):981-987. 被引量：3
7易雪蓉,黄巍,胡迪,蒋怡.基于HMM的声调语音模型研究[J].武汉工程大学学报,2018,40(6):691-695. 被引量：2
8秦晓慧,侯霞,赵雪.一种融合语义角色和依存句法的实体关系抽取算法[J].北京信息科技大学学报（自然科学版）,2019,34(1):64-67. 被引量：4
9邢安昊,张鹏远,潘接林,颜永红.基于SVD的DNN裁剪方法和重训练[J].清华大学学报（自然科学版）,2016,56(7):772-776. 被引量：3
10张毅,颜博,王可佳.混响环境下基于倒谱BRIR的双耳互相关声源定位算法[J].自动化学报,2016,42(10):1562-1569. 被引量：2

同被引文献48

1李业良,张二华,唐振民.基于混合式注意力机制的语音识别研究[J].计算机应用研究,2020,37(1):131-134. 被引量：9
2倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112-123. 被引量：38
3刘加.汉语大词汇量连续语音识别系统研究进展[J].电子学报,2000,28(1):85-91. 被引量：50
4赵云静,孙洪伟,麻宏伟,李书娟.功能性构音障碍患儿语音均衡式识别能力评估[J].中国康复,2012,27(2):89-90. 被引量：4
5刘加,陈谐,单煜翔,史永哲.大规模词表连续语音识别引擎紧致动态网络的构建[J].清华大学学报（自然科学版）,2012,52(11):1530-1534. 被引量：1
6马兴录,张中,朱甜甜.基于语音控制的自动进样器系统设计[J].电子测量技术,2018,41(3):78-82. 被引量：3
7张敏,杜丹阳,李洪海.智能语音控制系统设计[J].工业控制计算机,2019,32(1):144-145. 被引量：10
8钟琳,陈强,吴艳国,朱义.消防车工况及装备状态实时监测系统设计[J].消防科学与技术,2019,38(3):397-399. 被引量：8
9陈明建,胡振彪,陈林.一种基于加权TOPS的宽带DOA估计新方法[J].数据采集与处理,2019,34(3):453-461. 被引量：3
10高飞,黄哲莹,王子腾,李军锋,颜永红.早晚期混响划分对理想比值掩蔽在语音识别性能上的影响[J].声学学报,2019,44(4):788-795. 被引量：5

引证文献5

1王雨佳.基于语音合成的机器翻译机器人设计[J].自动化与仪器仪表,2023(4):185-190.
2高长丰,程高峰,张鹏远.面向鲁棒自动语音识别的一致性自监督学习方法[J].声学学报,2023,48(3):578-587. 被引量：1
3张静宇,高志刚,仝瑶瑶,张玉凤,张勇.具有语音控制功能的举高类消防车控制系统设计[J].工程设计学报,2023,30(3):281-287.
4刘育坤,郑霖,黎塔,张鹏远.多声学场景下端到端语音识别声学编码器的自适应[J].声学学报,2023,48(6):1260-1268. 被引量：1
5董胡.基于嵌入式平台与DNN-HMM的中文儿童语音能力评估研究[J].办公自动化,2024,29(4):84-86.

二级引证文献2

1高适,金宇,黄宇.基于改进卷积神经网络的汉语连续语音识别方法[J].信息与电脑,2023,35(18):114-116.
2王雪宝,汤永涛,王青波,唐文龙.人工智能语音识别技术在国外军事领域的应用分析[J].电脑知识与技术,2024,20(5):21-23.

1郑文秀,连晓飞,张旭东,黄琼丹.基于稀疏DNN的声学复合特征构造方法[J].传感器与微系统,2021,40(12):69-72. 被引量：1
2黄多林,刘栋,郑智燊.基于对抗不变性解散的说话人识别[J].计算机与数字工程,2022,50(4):833-838.
3赵小芬,张开生.基于三层结构优化卷积神经网络的语音识别[J].石河子大学学报（自然科学版）,2022,40(1):127-132. 被引量：3
4张守叶.探究端到端的深度卷积神经网络语音识别[J].软件,2022,43(3):173-176.
5杨俊美,雷杨,陈习坤.基于Flatten-CNN的语音带宽扩展研究[J].华南理工大学学报（自然科学版）,2021,49(11):87-94. 被引量：1
6王云琼,刘雪梅,王瑶,罗梦蕾,严德萍.快乐感知训练团体对抑郁症患者负性情绪及自杀风险干预的效果观察[J].护理学报,2022,29(9):73-78. 被引量：12
7雷杰,赵宏亮,艾宁智,邹万冰,詹毅.基于BN-SGMM-HMM模型的低资源语音识别系统[J].合肥工业大学学报（自然科学版）,2021,44(12):1627-1632. 被引量：7

计算机工程与科学

2022年第6期

浏览历史

内容加载中请稍等...

复杂环境下基于自适应深度神经网络的鲁棒语音识别被引量：5

参考文献12

二级参考文献86

共引文献168

同被引文献48

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

复杂环境下基于自适应深度神经网络的鲁棒语音识别 被引量：5

参考文献12

二级参考文献86

共引文献168

同被引文献48

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

复杂环境下基于自适应深度神经网络的鲁棒语音识别被引量：5