低资源条件下基于i-vector特征的LSTM递归神经网络语音识别系统被引量：21

Long short term memory recurrent neural network acoustic models using i-vector for low resource speech recognition

下载PDF

导出

摘要在低资源条件下,由于带标注训练数据较少,搭建的语音识别系统性能往往不甚理想。针对此问题,首先在声学模型上研究了长短时记忆(LSTM)递归神经网络,通过对长序列进行建模来充分挖掘上下文信息,并且引入线性投影层减小模型参数;然后研究了在特征空间中对说话人进行建模的技术,提取出能有效反映说话人和信道信息的身份认证矢量(i-vector);最后将上述研究结合构建了基于i-vector特征的LSTM递归神经网络系统。在Open KWS 2013标准数据集上进行实验,结果表明该技术相比于深度神经网络基线系统有相对10%的字节错误率降低。 Under the condition of low resource, little labeled training data is available and the performance of speech recogni- tion system is not ideal. To solve this problem. First, this paper investigated long short term memory recurrent neural network （ LSTM RNN） for acoustic modeling. It was a powerful tool to model long time series and could make full use of the context in- formation. Linear projection layer reduced the number of model parameters. Then, it explored speaker modeling methods in the feature space, and extracted identity vector （i-vector） which contained the speaker and channel information simultaneously. Finally, it presented a novel system, which combined the LSTM RNN model and i-vector feature. Results on the standard Open KWS 2013 data set show that this technology produces a relative improvement of about 10% in TER over the DNN base-line system.

作者黄光许田垚康健刘加夏善红

机构地区中国科学院大学中国科学院电子学研究所传感技术国家重点实验室清华大学电子工程系清华信息科学与技术国家实验室

出处《计算机应用研究》 CSCD 北大核心 2017年第2期392-396,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61273268 61370034 61403224)

关键词语音识别长短时记忆神经网络身份认证矢量 speech recognition long short term memory（LSTM） i-vector

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1栗志意,张卫强,何亮,刘加.基于总体变化子空间自适应的i-vector说话人识别系统研究[J].自动化学报,2014,40(8):1836-1840. 被引量：17

二级参考文献14

1Kinnunen T, Li H Z. An overview of text-independent speaker recognition: from features to supervectors. Speech Communication, 2010, 52(1): 12-40.
2Dehak N, Kenny P, Ouellet P, Dumouchel P. Front-end factor analysis for speaker verification. IEEE Transactions on Audio, Speech and Language Processing, 2011, 19(4): 788-798.
3Campbell W M, Campbell J P, Reynolds D A, Singer E, Torres-Carrasquillo P A. Support vector machines for speaker and language recognition. Computer Speech and Language, 2006, 20(2-3): 210-229.
4Kenny P, Boulianne G, Ouellet P, Dumouchel P. Speaker and session variability in GMM-based speaker verification. IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(4): 1448-1460.
5Kenny P, Boulianne G, Ouellet P, Dumouchel P. Joint factor analysis versus eigenchannels in speaker recognition. IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(4): 1435-1447.
6Reynolds D A, Quatieri T F, Dunn R B. Speaker verifica- tion using adapted Gaussian mixture models. Digital Signal Processing, 2000, 10(1-3): 19-41.
7Cortes C, Vapnik V. Support vector networks. Machine Learning, 1995, 20(3): 273-297.
8Kenny P, Boulianne G, Dumouchel P. Eigenvoice model- ing with sparse training data. IEEE Transactions on Audio, Speech, and Language Processing, 2005, 13(3): 345-354.
9Bishop C M. Pattern Recognition and Machine Learning. Berlin: Springer, 2008.
10Hatch A O, Kajarekar S, Stolcke A. Within-class covari- ance normalization for SVM-based speaker recognition. In: Proceedings of the International Conference on Spoken Lan- guage Processing. Pittsburgh, PA, 2006. 1471-1474.

共引文献16

1王晓华,屈雷.基于时频参数融合的自适应语音端点检测算法[J].计算机工程与应用,2015,51(20):203-207. 被引量：7
2王明合,唐振民,张二华.基于i-vector局部加权线性判别分析的说话人识别[J].仪器仪表学报,2015,36(12):2842-2848. 被引量：6
3王晓华,屈雷,张超,蒋细伟.基于Fisher比的Bark小波包变换的语音特征提取算法[J].西安工程大学学报,2016,30(4):452-457. 被引量：6
4哈尔肯别克.木哈西,钟珞,达瓦.伊德木草.用说话人相似度i-vector的非负值矩阵分解说话人聚类[J].计算机应用与软件,2017,34(4):165-168.
5冯辉宗,王芸芳.语谱特征的身份认证向量识别方法[J].重庆大学学报（自然科学版）,2017,40(5):88-94. 被引量：4
6林舒都,邵曦.基于i-vector和深度学习的说话人识别[J].计算机技术与发展,2017,27(6):66-71. 被引量：10
7屈召贵,鲁顺昌.说话人识别的不确定性i-vector分析[J].计算机工程与设计,2017,38(6):1647-1650. 被引量：5
8缑新科,王跃.基于T矩阵归一化PLDA的说话人确认[J].计算机与现代化,2017(10):53-56.
9酆勇,熊庆宇,石为人,曹俊华.深度非线性度量学习在说话人确认中的应用[J].声学学报,2018,43(1):112-120. 被引量：3
10仲伟峰,方祥,范存航,温正棋,陶建华.深浅层特征及模型融合的说话人识别[J].声学学报,2018,43(2):263-272. 被引量：11

同被引文献188

1宁晖,周文文.基于滚动时间窗的ε-SVR煤炭价格预测模型研究[J].煤炭经济研究,2020,0(3):12-18. 被引量：4
2张子戌,袁崇孚.矿井瓦斯涌出量预测方法探讨[J].焦作矿业学院学报,1993,12(6):78-81. 被引量：6
3华涛,郝克刚,葛玮.基于Hibernate和Spring框架的Web应用研究[J].计算机技术与发展,2006,16(11):84-86. 被引量：8
4邸洪涛,王长林.关于客运专线列车运行控制系统的探讨[J].铁路计算机应用,2007,16(5):21-22. 被引量：2
5王晓燕,郭国兵.矿井瓦斯涌出量预测在实践中的应用[J].煤,2007,16(5):67-68. 被引量：3
6詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计算机,2008,14(9):43-45. 被引量：44
7刘宏杰,刘波,夏夕盛.CBTC列车安全定位中通信延时的研究[J].市政技术,2010,28(S2):361-365. 被引量：1
8张飞,张建.基于Spring与Hibernate的数据库访问技术研究[J].计算机工程与设计,2009,30(7):1668-1670. 被引量：13
9虞国平.水稻在我国粮食安全中的战略地位分析[J].新西部（理论版）,2009(11):31-33. 被引量：49
10丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10. 被引量：871

引证文献21

1夏明,蒋仁钢.城际铁路列控系统车-地通信延迟时间估计的深度学习算法研究[J].铁路计算机应用,2018,27(1):55-58. 被引量：3
2任君,王建华,王传美,王建祥.基于正则化LSTM模型的股票指数预测[J].计算机应用与软件,2018,35(4):44-48. 被引量：34
3陈威,祁伟彦,袁福香,李哲敏.基于时间序列与横截面数据的吉林省水稻产量预测对比分析[J].中国农业信息,2018,30(5):91-101. 被引量：4
4李伟山,王琳,卫晨.LSTM在煤矿瓦斯预测预警系统中的应用与设计[J].西安科技大学学报,2018,38(6):1027-1035. 被引量：36
5王彦哲,张立民,张兵强,李振宇.基于LFMMI准则的低资源普通话识别改进[J].计算机工程与设计,2019,40(9):2638-2642.
6于重重,陈运兵,孙沁瑶,刘畅,徐世璇,尹蔚彬.基于动态BLSTM和CTC的濒危语言语音识别研究[J].计算机应用研究,2019,36(11):3334-3337. 被引量：8
7全龙翔,阿不力克木·吾甫尔,马超,武江波.基于上下文敏感区块的模糊语音准确识别方法[J].电子设计工程,2020,28(1):32-35.
8杨志杰,张梅,李冠龙,黄昌达.基于长短时记忆元的语音智能识别系统设计[J].电子设计工程,2020,28(1):55-58. 被引量：3
9曾春艳,马超峰,王志锋,朱栋梁,赵楠,王娟,刘聪.深度学习框架下说话人识别研究综述[J].计算机工程与应用,2020,56(7):8-16. 被引量：9
10俞建强,颜雁,刘葳,孙一鸣.基于改进门控单元神经网络的语音识别声学模型研究[J].长春理工大学学报（自然科学版）,2020,43(1):104-111. 被引量：1

二级引证文献121

1潘红光,张奇,米文毓,马彪.基于长短期记忆网络的解码器设计及闭环脑机接口系统构建[J].西安科技大学学报,2019,39(6):1057-1064. 被引量：1
2张沛泓,李殿维,张喜乐.基于变分模态分解的瓦斯浓度多尺度组合预测[J].辽宁工程技术大学学报（自然科学版）,2023(1):18-24.
3王萍.上市公司经营业绩评价指标研究[J].经济管理,2000,26(4):54-55. 被引量：4
4葛海燕,左国华,高明发.^(131)I标记抗CEA单抗预防人结肠癌肝转移的实验研究[J].第三军医大学学报,2000,22(5):430-432. 被引量：5
5陈建婷.一种基于深度学习的数据预测方法[J].电子技术与软件工程,2019(6):151-152. 被引量：7
6王森,雷卫军,刘健,张伯林.基于LSTM-RNN的质子交换膜燃料电池故障检测方法[J].电子技术与软件工程,2019(4):74-78. 被引量：7
7彭楚宁,杜新纲,李天阳,储鹏飞.基于业务特征的智能电能表需求预测模型研究[J].电测与仪表,2019,56(3):139-143. 被引量：13
8商艳红,张静.基于局部化双向LSTM和状态转移约束的养殖水质分类预测[J].渔业现代化,2019,46(2):28-34. 被引量：6
9徐高扬,刘姚.LSTM网络在台风路径预测中的应用[J].计算机与现代化,2019(5):64-68. 被引量：7
10王鹏,伍永平,王栓林,宋超,吴学明.矿井瓦斯浓度Lagrange-ARIMA实时预测模型研究[J].煤炭科学技术,2019,47(4):141-146. 被引量：14

1刘桐彤.基于长短期记忆神经网络的短期负荷预测方法[J].黑龙江科技信息,2016(31):81-81. 被引量：4
2唐明珠,杨艳,郭雪泉,沈中辉,钟颖莉.KWSDS:关系数据库中Top-k关键词搜索系统[J].计算机研究与发展,2012,49(10):2251-2259. 被引量：2
3唐寅.长短时记忆神经网络模型改进[J].时代金融,2016(24):281-282. 被引量：5
4姜铁兵,杨俊杰,梁年生,曾杰,余培国.记忆神经网络洪水预报方法研究[J].华中电力,1998,11(2):41-45.
5王伟,韩纪庆,郑铁然,郑贵滨,陶耀.基于Fisher判别字典学习的说话人识别[J].电子与信息学报,2016,38(2):367-372. 被引量：6
6哈尔肯别克.木哈西,钟珞,达瓦.伊德木草.用说话人相似度i-vector的非负值矩阵分解说话人聚类[J].计算机应用与软件,2017,34(4):165-168.
7秦阳,莫凌飞,郭文科,李钒.3D CNNs与LSTMs在行为识别中的组合及其应用[J].测控技术,2017,36(2):28-32. 被引量：19
8琚炜,李锐,李辉.使用置信区间的基频特征对Ⅰ-Vector系统的性能补偿[J].小型微型计算机系统,2016,37(7):1629-1632.
9龙艳花,倪继锋,叶宏.基于深度神经网络的说话人信道自适应方法[J].四川大学学报（工程科学版）,2016,48(2):151-155.
10栗志意,何亮,张卫强,刘加.基于鉴别性i-vector局部距离保持映射的说话人识别[J].清华大学学报（自然科学版）,2012,52(5):598-601. 被引量：11

计算机应用研究

2017年第2期

浏览历史

内容加载中请稍等...

低资源条件下基于i-vector特征的LSTM递归神经网络语音识别系统被引量：21

参考文献1

二级参考文献14

共引文献16

同被引文献188

引证文献21

二级引证文献121

相关作者

相关机构

相关主题

浏览历史

低资源条件下基于i-vector特征的LSTM递归神经网络语音识别系统 被引量：21

参考文献1

二级参考文献14

共引文献16

同被引文献188

引证文献21

二级引证文献121

相关作者

相关机构

相关主题

浏览历史

低资源条件下基于i-vector特征的LSTM递归神经网络语音识别系统被引量：21