基于改进的LSTM深度神经网络语音识别研究被引量：25

Research on Speech Recognition Based on Improved LSTM Deep Neural Network

下载PDF

导出

摘要当前基于LSTM结构的神经网络语言模型中,在隐藏层引入了LSTM结构单元,这种结构单元包含一个信息储存较久的存储单元,对历史信息有良好的记忆功能.但LSTM中当前输入信息的状态不能影响到输出门最后的输出信息,对历史信息的获取较少.针对以上问题,笔者提出了基于改进的LSTM(long short-term memory)网络模型建模方法,该模型增加从当前输入门到输出门的连接,同时将遗忘门和输入门合成一个单一的更新门.信息通过输入门和遗忘门将过去与现在的记忆进行合并,可以选择遗忘之前累积的信息,使得改进的LSTM模型可以学到长时期的历史信息,解决了标准LSTM方法的缺点,具有更强的鲁棒性.采用基于改进的LSTM结构的神经网络语言模型,在TIMIT数据集上进行模型测试,结果表明,改进的LSTM识别错误率较标准的LSTM识别错误率降低了5%. The language model based on neural network LSTlVl structure, the LSTM structure used in the hid- den layer unit, the structure unit comprises a storage unit to store information for a long time, which has a good memory for historical information. But the LSTM in the current input information state does not affect the final output information of the output gate, get less historical information. To solve the above problems, this paper puts forward based on improved LSTM （long short-term memory） modeling method of network model. The model increases the connection from the current input gate to the output gate, and simultaneously com- bines the oblivious gate and the input gate into a single update gate. The door keeper input and forgotten past and present memory consolidation, can choose to forget before the accumulation of information, the improved LSTM model can learn the long history of information, solve the drawback of the LSTM method is more robust. This paper uses the neural network language LSTM model based on the improved model on TIMIT data sets show that the accuracy of test. The results illustrate that the improved LSTM identification error rate is 5% lower than the standard LSTM identification error rate.

作者赵淑芳董小雨 ZHAO Shufang;DONG Xiaoyu(Institute of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024,China)

机构地区太原科技大学计算机科学与技术学院

出处《郑州大学学报（工学版）》 CAS 北大核心 2018年第5期63-67,共5页 Journal of Zhengzhou University（Engineering Science）

基金国家自然科学基金资助项目(61202163) "十二五"山西省科技重大专项资助项目(20121101001) 山西省教研项目(J2017078)

关键词长短时记忆(LSTM) 深度神经网络语音识别 long-short term memory（LSTM） deep neural network speech recognition

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1陶佰睿,郭琴,苗凤娟,李青龙.基于自适应Mel滤波器组的MFCC特征提取的SOC设计[J].郑州大学学报（工学版）,2016,37(3):11-15. 被引量：3
2余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：596
3史笑兴,顾明亮,王太君,何振亚.一种时间规整算法在神经网络语音识别中的应用[J].东南大学学报（自然科学版）,1999,29(5):47-51. 被引量：9
4孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：598

二级参考文献52

1Chen Sinhorng，IEEE Trans Speech Audio Processing，1995年，3卷，2期，141页
2BENGIO Y, DELALLEAU O. On the expressive power of deep archi- tectures[ C ]//Proc of the 14th International Conference on Discovery Science. Berlin : Springer-Verlag, 2011 : 18 - 36.
3BENGIO Y. Leaming deep architectures for AI[ J]. Foundations and Trends in Machine Learning ,2009,2 ( 1 ) : 1-127.
4HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets [ J ]. Neural Computation ,2006,18 (7) : 1527-1554.
5BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks [ C ]//Proc of the 12th Annual Conference on Neural Information Processing System. 2006:153-160.
6LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning ap- plied to document recognition[ J]. Proceedings of the iEEE, 1998, 86( 11 ) :2278-2324.
7VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[ C ]//Proc of the 25th International Conference on Machine Learning. New York: ACM Press ,2008 : 1096-1103.
8VINCENT P, LAROCHELLE H, LAJOIE I, et aL Stacked denoising autoencoders:learning useftd representations in a deep network with a local denoising criterion [ J ]. Journal of Machine Learning Re- search ,2010,11 ( 12 ) :3371-3408.
9YU Dong, DENG Li. Deep convex net: a scalable architecture for speech pattern classification [ C]//Proc of the 12th Annual Confe-rence of International Speech Comunication Association. 2011 : 2285- 2288.
10POON H, DOMINGOS P. Sum-product networks:a new deep architec- ture[ C ]//Proc of IEEE Intemational Conference on Computer Vi- sion. 2011:689-690.

共引文献1145

1贾彦哲.论人工智能研发者过失犯的注意义务[J].华中师范大学研究生学报,2020(2):40-46.
2毕思文,Henri Jaffrès,Chandra Sekhar Roychoudhuri.量子遥感发展新态势——世界首次量子遥感国际会议评述[J].全球变化数据学报（中英文）,2019,3(4):317-325. 被引量：1
3高嵩.深度学习在机场能见度预测中的应用[J].计算机产品与流通,2020,0(4):260-260. 被引量：2
4张永玲.以深度学习为核心的小学数学有效教学策略研究[J].理科爱好者（教育教学版）,2019,0(5):248-249. 被引量：2
5范敏,胥小波,聂小明.基于字符级扩张卷积网络的Web攻击检测方法[J].计算机应用研究,2020,37(S02):234-237. 被引量：4
6孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：2
7华夏,王新晴,马昭烨,王东,邵发明.基于递归神经网络的视频多目标检测技术[J].计算机应用研究,2020,37(2):615-620. 被引量：8
8周帆,陈晓蝶,钟婷,吴劲.面向金融科技的深度学习技术综述[J].计算机科学,2022,49(S02):20-36. 被引量：2
9李灿强,夏志方,丁邡.基于人工智能技术的“数字政府”研究[J].中国经贸导刊,2019(5Z):138-139. 被引量：6
10彭婉,田良臣.信息技术支持下促进深度学习的教学研究——基于语文课程的研究[J].汉字文化,2022(15):159-161. 被引量：1

同被引文献195

1刘迎军,王康,李立.基于LSTM神经网络的流域污染物通量预测[J].水力发电学报,2020,39(10):72-81. 被引量：16
2张庆龙,安再展,刘天云,张兆省,皇甫泽华,李庆斌.土石坝压实的智能控制理论[J].水力发电学报,2020(7):34-40. 被引量：16
3杨晶东,洪炳熔,朴松昊.基于模糊行为融合的移动机器人避障算法[J].华中科技大学学报（自然科学版）,2008,36(S1):310-313. 被引量：50
4魏泽鼎,贾俊国,王占永.基于视觉传感器的棉花果实定位方法[J].农机化研究,2012,34(6):66-68. 被引量：104
5肇刚,李言俊.基于时间序列数据挖掘的航天器故障诊断方法[J].飞行器测控学报,2010,29(3):1-5. 被引量：10
6颜丙新,郭晋媛,黄涛.美国最新高可靠性空间电源标准介绍[J].航天标准化,2013(1):38-41. 被引量：3
7戴新宇,尹存燕,陈家骏,郑国梁.机器翻译研究现状与展望[J].计算机科学,2004,31(11):176-179. 被引量：27
8车爱静,文环明,张艳.基于凌阳SPCE061A单片机的语音控制系统[J].电脑开发与应用,2006,19(10):49-51. 被引量：13
9房军,方小宇,吕东玉,古今用.丘陵半干旱区作物需水规律的研究进展[J].安徽农业科学,2006,34(19):4847-4849. 被引量：20
10娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006,26(11):2622-2625. 被引量：64

引证文献25

1王怡,普运伟.基于CNN-BiLSTM-Attention融合神经网络的大气温度预测[J].中国水运（下半月）,2023(1):25-27. 被引量：2
2李卉,何晶,程富强,王晓薇,詹炳光.基于LSTM模型的卫星电源系统异常检测方法[J].装甲兵工程学院学报,2019,33(3):90-96. 被引量：3
3郭龙银,扎西多吉,尚慧杰,旦增.基于LSTM的藏语语音识别[J].电脑知识与技术,2020,0(4):154-155. 被引量：2
4唐铠,陆鹏.SOM-LSTM递归神经网络语音端点检测系统[J].信息通信,2019,0(5):50-53. 被引量：1
5王龙葛,王敏.基于用户评论的情感量化评分模型研究[J].数字技术与应用,2019,37(6):71-72. 被引量：1
6高金峰,庞昊,杜耀恒.基于GRU网络的配电网故障数量等级预测方法[J].郑州大学学报（工学版）,2019,40(5):38-43. 被引量：2
7叶興,薛家祥.改进型LSTM网络光伏发电功率预测研究[J].中国测试,2019,45(11):14-20. 被引量：13
8吕飞亚,张英俊,潘理虎.注意力机制的BiLSTM模型在招聘信息分类中的应用[J].计算机系统应用,2020,29(4):242-247. 被引量：2
9张瑞珍,韩跃平,张晓通.基于深度LSTM的端到端的语音识别[J].中北大学学报（自然科学版）,2020,41(3):244-248. 被引量：12
10沙尔旦尔·帕尔哈提,米吉提·阿不里米提,艾斯卡尔·艾木都拉.基于稳健词素序列和LSTM的维吾尔语短文本分类[J].中文信息学报,2020,34(1):63-70. 被引量：3

二级引证文献101

1张华赢,李艳,汪清,王昕,陈琳,张文海.基于LSTM的电能质量监测装置量测精度在线评估[J].中国测试,2022,48(S01):253-259. 被引量：3
2任燕龙,谷建伟,崔文富,张以根.基于改进果蝇算法和长短期记忆神经网络的油田产量预测模型[J].科学技术与工程,2020,20(18):7245-7251. 被引量：13
3何青,何永秀,张岩,吕媛,苏凤宇,光峰涛,李德智.基于EWT-GM-LSTM模型的配网广义负荷短期预测[J].电力科学与工程,2020,36(10):1-8. 被引量：1
4赵皎谷,马延周,周默草.西班牙语发音词典构建及标注研究[J].电脑知识与技术,2020,16(34):249-253.
5刘建军,邓洁清,郭世雄,朱奕楠,杨文,王德佳.基于知识学习的储能电站健康监测与预警[J].电力系统保护与控制,2021,49(4):64-71. 被引量：12
6蓝善根.基于ZigBee组网的温室大棚监测技术研究[J].电子技术与软件工程,2020(24):9-10. 被引量：2
7黄树帮,陈耀,金宇清.碳中和背景下多通道特征组合超短期风电功率预测[J].发电技术,2021,42(1):60-68. 被引量：19
8南兆营.基于参数迁移和C-LSTM的说话人识别研究[J].电声技术,2020,44(11):37-41. 被引量：1
9梁海珍.语音识别技术在智能家居领域应用[J].电子技术与软件工程,2021(4):100-101. 被引量：4
10王维,胡慧君,刘茂福.基于逆类别注意力机制的电商文本分类[J].计算机系统应用,2021,30(5):247-252.

1张琦,燕娜,王珂,赵培之.基于卷积神经网络的人脸识别研究[J].中国新通信,2018,20(18):13-13.
2许宁,徐昌荣.改进型LSTM变形预测模型研究[J].江西理工大学学报,2018,39(5):45-51. 被引量：16
3周勇.浅谈初中英语课内外听力训练设计[J].电子乐园,2018(2):101-101.
4费明富.学会用“从（在）这个意义上说”表达批判性思维[J].大学（A版）（阅读独唱团）,2018,0(12):56-59.
5李洋,董红斌.基于CNN和BiLSTM网络特征融合的文本情感分析[J].计算机应用,2018,38(11):3075-3080. 被引量：107
6严朝阳.营养与食品卫生学课程体系的改革实践[J].现代食品,2018,3(19):50-52. 被引量：2
7张剑波.浅谈小学数学课堂提问的“度”[J].数学学习与研究,2018(18):160-161.
8刘雨心,王莉,张昊.基于分层注意力机制的神经网络垃圾评论检测模型[J].计算机应用,2018,38(11):3063-3068. 被引量：3
9黎筱惠,晏力,裴峥.广义犹豫模糊语言项集及其似然关系[J].西华大学学报（自然科学版）,2018,37(6):95-101.
10李禾.手机电池要浅充浅放[J].百姓生活,2018,0(11):77-77.

郑州大学学报（工学版）

2018年第5期

浏览历史

内容加载中请稍等...

基于改进的LSTM深度神经网络语音识别研究被引量：25

参考文献4

二级参考文献52

共引文献1145

同被引文献195

引证文献25

二级引证文献101

相关作者

相关机构

相关主题

浏览历史

基于改进的LSTM深度神经网络语音识别研究 被引量：25

参考文献4

二级参考文献52

共引文献1145

同被引文献195

引证文献25

二级引证文献101

相关作者

相关机构

相关主题

浏览历史

基于改进的LSTM深度神经网络语音识别研究被引量：25