基于递归神经网络的端到端语音识别被引量：4

End-to-End Speech Recognition Based on Recurrent Neural Network

下载PDF

导出

摘要论文提出了一种直接利用文本对音频数据进行转录的语音识别系统。采用基于深度双向长短期记忆(LSTM)的递归神经网络(RNN)结构和连接时间分类(CTC)目标函数相结合。引入了对目标函数的修正方法,进而使得训练网络对任意转录损失函数的期望最小化。即使在没有词典或语言模型的情况下,也可直接优化单词错误率。该系统在没有语言信息情况下,对《华尔街日报》语料库实现了27.3%的单词错误率(WER),在只有允许单词词典的情况下达到了21.9%,在三元语言模型下达到了8.2%。将所提方法与基准系统结合,进一步将错误率降低到6.7%。 This paper presents a speech recognition system that transcribes audio data directly from text.A recursive neural network(RNN)structure based on deep bidirectional long-term and short-term memory(LSTM)is combined with the objective function of connection time classification(CTC).The objective function is modified to minimize the expectation of the training network for any transcription loss function.Even in the absence of dictionaries or language models,word error rates can be directly optimized.In the absence of language information,the system achieves 27.3%word error rate(WER)for the wall street journal corpus,21.9%under the condition of only allowing word dictionaries,and 8.2%under the ternary language model.By combining the proposed method with the benchmark system,the error rate is further reduced to 6.7%.

作者王子龙李俊峰张劭韡王宏岩王思杰 WANG Zilong;LI Junfeng;ZHANG Shaowei;WANG Hongyan;WANG Sijie(Marketing Department of State Grid Customer Service Center Co.,Ltd.,Beijing 100031;State Grid Customer Service Center Co.,Ltd.,Tianjin 300306;Beijing China Power Information Technology Co.,Ltd.,Beijing 100031)

机构地区国家电网有限公司营销部国家电网有限公司客户服务中心北京中电普华信息技术有限公司

出处《计算机与数字工程》 2019年第12期3099-3106,共8页 Computer & Digital Engineering

基金国家自然科学基金项目(编号：51776082)资助

关键词递归神经网络语音识别长短期记忆连接时间分类单词错误率 RNN speech recognition LSTM CTC WER

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献14

1张艺玮,赵一嘉,王馨悦,董兰芳.结合密集神经网络与长短时记忆模型的中文识别[J].计算机系统应用,2018,27(11):35-41. 被引量：3
2刘建国,代芳,詹涛.基于卷积神经网络的车牌识别技术[J].物流技术,2018,37(10):62-66. 被引量：6
3黄晓辉,李京.基于循环神经网络的藏语语音识别声学模型[J].中文信息学报,2018,32(5):49-55. 被引量：16
4张俊飞,毕志升,吴小玲.基于词向量Doc2vec的双向LSTM情感分析[J].计算机与数字工程,2018,46(12):2385-2389. 被引量：7
5杨洋,汪毓铎.深度学习在语音识别声学建模中的应用[J].电脑知识与技术,2018,14(6X):190-192. 被引量：9
6张小强,韩宪军,孟晓欢.基于随机场和Monte-Carlo法的随机有限元分析[J].洛阳理工学院学报（自然科学版）,2014,24(4):27-30. 被引量：1
7王庆楠,郭武,解传栋.基于端到端技术的藏语语音识别[J].模式识别与人工智能,2017,30(4):359-364. 被引量：8
8陈慧.基于动态规划和描述长度的Context模型量化[J].中国科技信息,2017(1):66-68. 被引量：1
9柯健,徐志京.基于生成对抗网络的语音增强算法研究[J].信息技术与网络安全,2018,37(5):54-57. 被引量：5
10高筱娴,龙春,魏金侠,赵静,宋丹劼.基于端到端记忆神经网络的可解释入侵检测模型[J].计算机系统应用,2018,27(10):170-176. 被引量：3

二级参考文献45

1陈云敏,李育超,凌道盛.蒙特卡洛法与有限元结合搜索边坡临界滑动面[J].岩土力学,2004,25(z2):75-80. 被引量：20
2德庆卓玛.藏语语音识别研究综述[J].西藏大学学报（社会科学版）,2010,25(S1):192-195. 被引量：5
3张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
4杜小平.利用蒙特卡罗法与数值解法相结合进行可靠度计算[J].机械强度,1995,17(4):71-74. 被引量：3
5张黔,胡庆,杨静宇,蒋韧.统计和结构模式识别方法结合的多特征印鉴真伪鉴别方法[J].计算机学报,1995,18(3):190-198. 被引量：12
6武青玺.结构可靠性分析及随机有限元法[M].北京:机械工业出版社,2005.
7Sh inozuka M, Astill J.Random e igenva lue problems in structural echanics[J].AIAA J,1972,10(4):456-462.
8Sung Eun Cho, Ph D.Probabilistic Assessment of Slope Stability That Considers the Spatial Variability of Soil Properties [J]. Journal of the fourth eivil/geotechnicai engineering geotecbnical,2010:975-983.
9Amit Srivastava ,Sivakumar Babu G L, Sumanta Haldar.Influence of spatial variability of permeability property on steady state seepage flow and slope stability analysis[J].Engineering Geology,2010,110:93-101.
10Dianqing Li ,Yifeng Chen,Wenbo Lu,Chnangbing Zhou.Stochastic response surface method for reliability analysis of rock slopes involving correlated non-normal variables[J|.Computers and Geotechnics,2011,38:58-68.

共引文献80

1刘润奇,贺兴时,南夷非,王博.网络多媒体数据中舆情关联主题的挖掘方法[J].深圳大学学报（理工版）,2020,37(1):72-78. 被引量：5
2杨洋,汪毓铎.深度学习在语音识别声学建模中的应用[J].电脑知识与技术,2018,14(6X):190-192. 被引量：9
3张小博,王婷,秦浩,李晖,徐铁军,佟芳.基于循环神经网络的95598小尺度网络流量预测[J].电力信息与通信技术,2019,17(2):9-14. 被引量：6
4吴洋洋,杨丰,黄靖,刘娅琴.生成对抗网络的血管内超声图像超分辨率重建[J].南方医科大学学报,2019,39(1):82-87. 被引量：7
5张澎,崔梦天,谢琪,姜玥.基于深度卷积生成对抗网络的植物图像识别方法的研究[J].西南民族大学学报（自然科学版）,2019,45(2):185-191. 被引量：8
6唐铠,陆鹏.SOM-LSTM递归神经网络语音端点检测系统[J].信息通信,2019,0(5):50-53. 被引量：1
7王馨悦,董兰芳.Attention机制在脱机中文手写体文本行识别中的应用[J].小型微型计算机系统,2019,40(9):1876-1880. 被引量：5
8于重重,陈运兵,孙沁瑶,刘畅,徐世璇,尹蔚彬.基于动态BLSTM和CTC的濒危语言语音识别研究[J].计算机应用研究,2019,36(11):3334-3337. 被引量：8
9李卓茜,高镇,王化,刘俊南,朱光旭.短语音及易混淆语种识别改进系统[J].中文信息学报,2019,33(10):135-142. 被引量：2
10黄成龙.2018年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2019,40(4):61-69. 被引量：1

同被引文献43

1周意乔,徐昱琳.基于双向LSTM的复杂环境下实时人体姿势识别[J].仪器仪表学报,2020,41(3):192-201. 被引量：3
2李业良,张二华,唐振民.基于混合式注意力机制的语音识别研究[J].计算机应用研究,2020,37(1):131-134. 被引量：9
3Shuai Liu,Ruipeng Gang,Chenghua Li,Ruixia Song.Adaptive deep residual network for single image super-resolution[J].Computational Visual Media,2019,5(4):391-401. 被引量：4
4于巧梅,蒋锋.综合BP神经网络及气温因素的日负荷预测方法[J].云南电力技术,2006,34(2):5-7. 被引量：3
5段建东,张保会,周艺,罗四倍,任晋峰,杭乃善,刁桂平.基于暂态量的超高压输电线路故障选相[J].中国电机工程学报,2006,26(3):1-6. 被引量：63
6沈家芬,张凌,莫测辉,冯建军.广州市空气污染物和气象要素的主成分与典型相关分析[J].生态环境,2006,15(5):1018-1023. 被引量：38
7倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112-123. 被引量：39
8王冀,宋瑞艳,郭文利.统计降尺度方法在北京月尺度预测中的应用[J].气象,2011,37(6):693-700. 被引量：9
9刘加.汉语大词汇量连续语音识别系统研究进展[J].电子学报,2000,28(1):85-91. 被引量：50
10林圣,梅俊涛,陈双,何正友,钱清泉.基于暂态行波时频特征的输电线路故障检测与选相方法[J].电网技术,2012,36(7):48-53. 被引量：15

引证文献4

1金乐.基于双向长短期记忆网络的高压输电线路短路故障识别方法[J].内蒙古电力技术,2021,39(2):66-72. 被引量：3
2陈晓红,滕华.基于深度机器学习的英语语音识别研究[J].贵阳学院学报（自然科学版）,2021,16(3):1-4. 被引量：3
3杨乐,马驰,胡辉,黄冬.基于改进LSTMs模型的区域中长期气温预测方法研究[J].惠州学院学报,2021,41(6):75-79. 被引量：1
4刘育坤,郑霖,黎塔,张鹏远.多声学场景下端到端语音识别声学编码器的自适应[J].声学学报,2023,48(6):1260-1268. 被引量：1

二级引证文献8

1蓝泽如.基于人工智能深度学习的语音识别方法及发展趋势[J].新一代信息技术,2022,5(1):104-106. 被引量：1
2方洪波,万广,陈忠辉,黄以卫,张文勇,谢本亮.基于改进YOLOv5s的离线手写数学符号识别[J].图学学报,2022,43(3):387-395. 被引量：2
3杨雪晴.基于语音识别的英语翻译器设计[J].自动化与仪器仪表,2022(8):221-225. 被引量：3
4顾彬,郭焘,王义成,纪大伟,祁步仁.2M光接口的继电保护装置线路隐藏故障检测方法[J].电力设备管理,2022(17):36-37.
5梁亚敏,李亚峰.基于语音识别的智能英语翻译机器人人机交互系统[J].自动化与仪器仪表,2022(9):196-200. 被引量：5
6乔显栋,史贺龙.昔阳县基于Autoformer模型气温预测探究[J].科技资讯,2023,21(15):54-57.
7周楠,梁馨予,于向华,秦彦玮,孙斌,陈俊,徐烨.基于DRL的综合能源系统优化运行研究[J].电力大数据,2023,26(6):49-57.
8王雪宝,汤永涛,王青波,唐文龙.人工智能语音识别技术在国外军事领域的应用分析[J].电脑知识与技术,2024,20(5):21-23.

1杜刚,朱艳云,张晨,杜雪涛.基于声学模型的不良语音识别技术研究[J].电信工程技术与标准化,2019,32(12):18-22. 被引量：1
2和文杰,刘敬彪,潘勉,吕帅帅.基于Attention-CTC的自然场景文本识别算法[J].电子科技,2019,32(12):32-36. 被引量：1
3李苑,李智星,滕磊,王化明,王国胤.基于注意力机制的评论情感分析及情感词检测[J].计算机科学,2020,47(1):186-192. 被引量：12
4成琳寒.中职服装技能大赛对服装专业教学的促进作用[J].中华传奇,2019,0(14):0137-0138.
5欧阳宁,王先傲,蔡晓东,林乐平.结合小波与递归神经网络的低分辨率人脸识别[J].西安电子科技大学学报,2019,46(6):95-101. 被引量：6
6侯振堂,郑志辉,赵娜,张素萍.视频会议系统在集团型企业中的应用研究[J].中国管理信息化,2019,22(22):71-72. 被引量：4
7熊有成,赵鸿.长短期记忆网络预测混沌时间序列[J].中国科学：物理学、力学、天文学,2019,49(12):88-95. 被引量：10
8延常姣,黄美玲,肖晶晶,凌瑞.甲状腺癌相关多原发癌的临床及病理特征分析[J].现代肿瘤医学,2020,28(1):40-43. 被引量：14
9周祥生,林震亚,郭斌.编码器中自注意力机制的替代方案[J].现代信息科技,2019,3(19):64-68.
10余强.基于GRU神经网络研究不同证券市场对股票收益的影响——以恒生和上证指数为例[J].经济研究导刊,2019,0(35):117-120.

计算机与数字工程

2019年第12期

浏览历史

内容加载中请稍等...

基于递归神经网络的端到端语音识别被引量：4

参考文献14

二级参考文献45

共引文献80

同被引文献43

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于递归神经网络的端到端语音识别 被引量：4

参考文献14

二级参考文献45

共引文献80

同被引文献43

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于递归神经网络的端到端语音识别被引量：4