基于DNN的声学模型自适应实验被引量：5

An Experiment of Acoustic Model Adaptation Based on Deep Neural Network

下载PDF

导出

摘要声学模型自适应算法研究目的是缓解由测试数据和训练数据不匹配而引起的识别性能下降问题.基于深度神经网络(DNN)模型框架的自适应技术中,重训练是最直接的方法,但极容易出现过拟合现象,尤其是自适应数据稀疏的情况下.文章针对领域相关的自动语音识别任务,对典型的两种声学模型自适应算法进行了尝试,实验了基于线性变换网络的自适应方法和基于相对熵正则化准则的自适应方法,并对两种算法进行了详尽的系统性能比较.结果表明,在不同的自适应数据量下,相对熵正则化自适应方法均能表现出较好的性能. Acoustic model adaptation algorithm aims at reducing the recognition performance degradation caused by the mismatch between training and testing data. Among the many adaptation techniques based on deep neural net- work （DNN）, retraining is the most straightforward way. However it is prone to over-fitting, especially when adap- tation data is sparse. In this paper, two typical acoustic adaptation methods, namely linear transformation network adaptation and Kullback-Leibler divergence regularization adaptation, are experimentally explored for task- adaptation purpose. An elaborate comparison is made, and results show that KL divergence regularization technique achieves better performance under different amounts of adaptation data.

作者张宇计哲万辛张震葛凤培颜永红

机构地区中国科学院声学研究所国家计算机网络应急技术处理协调中心

出处《天津大学学报（自然科学与工程技术版）》 EI CAS CSCD 北大核心 2015年第9期765-770,共6页 Journal of Tianjin University：Science and Technology

基金国家高技术研究发展计划(863计划)资助项目(2012AA012503) 中国科学院战略性先导科技专项(XDA06030100,XDA 06030500) 国家自然科学基金资助项目(11461141004,91120001,61271426) 中科院重点部署资助项目(KYGD-EW-103-2)

关键词声学模型自适应语音识别深度神经网络 acoustic model adaptation speech recognition deep neural network （DNN）

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献17

1Seide F, Li G, Yu D. Conversational speech transcrip- tion using context-dependent deep neural networks [C]// Proceedings of the 12th Annual Conference of the Inter- national Speech Communication Association. Florence, Italy, 2011: 437-440.
2Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. 1EEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 30- 42.
3Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J~. Signal Processing Magazine, IEEE, 2012, 29(6): 82-97.
4Eide E, Gish H. A parametric approach to vocal tract length normalization [C]// IEEE International Confer- ence on Acoustics, Speech, and Signal Processing. At- lanta, USA, 1996: 346-348.
5Gauvain J L, Lee C H. Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains[J]. IEEE Transactions on Speech and Audio Processing, 1994, 2(2): 291-298.
6Leggetter C J, Woodland P C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models [J]. Computer Speech and Language, 1995, 9(2): 171-185.
7Li Bo, Sim Khe Chai. Comparison of discriminative input and output transformations for speaker adaptation in the hybrid NN/HMM systems [C] // Proceedings of the llth Annual Conference of the International Speech Communication Association. Makuhari, Japan, 2010: 526-529.
8Gemello R, Mana F, Scanzio S, et al. Linear hiddentransformations for adaptation of hybrid ANN/HMM models[J]. Speech Communication, 2007, 49(10) ~ 827-835.
9Seide F, Li G, Chen X, et al. Feature engineering in context-dependent deep neural networks for conversa- tional speech transcription EC~//2011 IEEE Workshop on Automatic Speech Recognition and Understanding. Ha- waii, USA, 2011: 24-29.
10Yao K, Yu D, Seide F, et al. Adaptation of context dependent deep neural networks for automatic speech recognition EC]// Spoken Language Technology Work- shop. Miami, USA, 2012: 366-369.

同被引文献46

1邹政达,孙雅明,张智晟.基于蚁群优化算法递归神经网络的短期负荷预测[J].电网技术,2005,29(3):59-63. 被引量：46
2南建设.信号细微特征分析技术研究[J].电讯技术,2007,47(2):68-71. 被引量：10
3唐贤伦,庄陵,李银国,曹长修.混合粒子群优化算法优化前向神经网络结构和参数[J].计算机应用研究,2007,24(12):91-93. 被引量：15
4Hinton G,Deng L,Yu D,et al.Deep neural networks for acoustic modeling in speech recognition[J].IEEE Signal Processing Magazine,2012,29(6):82-97.
5Mohamed A,Dahl G,Hinton G.Acoustic modeling using deep belief networks[J].IEEE Trans.on Audio,Speech,and Language Processing,2012,20(1):14-22.
6Deng L,Yu D,Platt J.Scalable stacking and learning for building deep architectures[C]//ICASSP.Kyoto,Japan:IEEE Press,2012:2133-2136.
7Liu C,Zhang Z,Wang D.Pruning Deep Neural Networks by Optimal Brain Damage[C]//Proc Interspeech.Singapore,2014.
8LeCun Y,Denker J,Solla S,et al.Optimal brain damage[J].Advances in Neural Information Processing Systems(NIPS),1989,2:598-605.
9Li J,Zhao R,Huang J,et al.Learning Small-Size DNN with Output-Distribution-Based Criteria[C]//Proc Interspeech.Singapore,2014.
10Xue J,Li J,Gong Y.Restructuring of deep neural network acoustic models with singular value decomposition[C]//Proc Interspeech.Lyon,France,2013.

引证文献5

1邢安昊,张鹏远,潘接林,颜永红.基于SVD的DNN裁剪方法和重训练[J].清华大学学报（自然科学版）,2016,56(7):772-776. 被引量：3
2于惠鸣,撖奥洋,于立涛,张智晟.基于PSO-DNN的电力系统短期负荷预测模型研究[J].青岛大学学报（工程技术版）,2017,32(2):62-66. 被引量：6
3徐雄.采用改进型AlexNet的辐射源目标个体识别方法[J].电讯技术,2018,58(6):625-630. 被引量：18
4刘赐麟.金融科技赋能乡村振兴——方言智慧银行建设研究[J].金融科技时代,2022,30(1):71-74.
5张开生,赵小芬.复杂环境下基于自适应深度神经网络的鲁棒语音识别[J].计算机工程与科学,2022,44(6):1105-1113. 被引量：12

二级引证文献39

1岳远波,撖奥洋,于立涛,安树怀,张智晟.基于脊波递归神经网络的短期负荷预测模型[J].青岛大学学报（工程技术版）,2018,33(3):82-86. 被引量：3
2刘赢,田润澜,王晓峰.基于深层卷积神经网络和双谱特征的雷达信号识别方法[J].系统工程与电子技术,2019,41(9):1998-2005. 被引量：27
3马天男,王超,彭丽霖,郭小帆,付明.计及需求响应和深度结构多任务学习的电力系统短期负荷预测[J].电测与仪表,2019,56(16):50-60. 被引量：33
4邢书豪,孙文慧,颜勇,张智晟.基于改进随机森林算法的电力系统短期负荷预测模型[J].青岛大学学报（工程技术版）,2019,34(3):7-10. 被引量：7
5王文益,吴庆.利用改进型AlexNet的ADS-B欺骗式干扰检测[J].信号处理,2020,36(5):741-747. 被引量：5
6陈一鸣,朱磊,俞璐,姚艳艳,张海波.基于深度学习的通信辐射源识别研究综述[J].通信技术,2020,53(8):1846-1850. 被引量：11
7谭磊,余欣洋,罗伟洋,曾维,代云强.基于深度学习的移动端语音识别系统设计[J].单片机与嵌入式系统应用,2020,20(9):28-31. 被引量：10
8李岩,王璐,李佳琪.基于改进ALEXNET卷积神经网络的电容层析成像三维图像重建[J].哈尔滨理工大学学报,2020,25(4):109-115. 被引量：5
9石礼盟,杨承志,吴宏超.基于深层残差网络和三元组损失的雷达信号识别方法[J].系统工程与电子技术,2020,42(11):2506-2512. 被引量：10
10张威,刘晨,费鸿博,李巍,俞经虎,曹毅.基于DL-T及迁移学习的语音识别研究[J].工程科学学报,2021,43(3):433-441. 被引量：9

1樊炳义,张金生.不同匹配网络对天线性能影响的研究[J].甘肃科技,2006,22(3):112-113.
2张碧清.PSM短波发射机调谐系统及其维护[J].广播与电视技术,2002,29(3):168-171.
3齐耀辉,潘复平,葛凤培,颜永红.鉴别性最大后验概率声学模型自适应[J].计算机应用,2014,34(1):265-269. 被引量：2
4周淑华.时／空变换网络集成电路MT8980[J].电信技术,1991(8):40-42.
5邢安昊,张鹏远,潘接林,颜永红.基于SVD的DNN裁剪方法和重训练[J].清华大学学报（自然科学版）,2016,56(7):772-776. 被引量：3
6王坚,张媛媛.基于深度神经网络的汉语语音合成的研究[J].计算机科学,2015,42(S1):75-78. 被引量：10
7贾海蓉,王栋,郭欣.基于DNN的子空间语音增强算法[J].太原理工大学学报,2016,47(5):647-650. 被引量：1
8薛少飞,宋彦,戴礼荣.基于多GPU的深层神经网络快速训练方法[J].清华大学学报（自然科学版）,2013,53(6):745-748. 被引量：4
9向北海,于肇贤,曲寒冰.一种基于MFRAT和ICP的掌纹主线提取和配准算法[J].模式识别与人工智能,2015,28(3):260-265. 被引量：3
10方振贤,孙永浩,王铁流.任意BCD码的B/BCD组合逻辑变换网络[J].黑龙江大学自然科学学报,1989,6(4):44-48.

天津大学学报（自然科学与工程技术版）

2015年第9期

浏览历史

内容加载中请稍等...

基于DNN的声学模型自适应实验被引量：5

参考文献17

同被引文献46

引证文献5

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

基于DNN的声学模型自适应实验 被引量：5

参考文献17

同被引文献46

引证文献5

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

基于DNN的声学模型自适应实验被引量：5