期刊文献+

基于递归神经网络的端到端语音识别 被引量:4

End-to-End Speech Recognition Based on Recurrent Neural Network
下载PDF
导出
摘要 论文提出了一种直接利用文本对音频数据进行转录的语音识别系统。采用基于深度双向长短期记忆(LSTM)的递归神经网络(RNN)结构和连接时间分类(CTC)目标函数相结合。引入了对目标函数的修正方法,进而使得训练网络对任意转录损失函数的期望最小化。即使在没有词典或语言模型的情况下,也可直接优化单词错误率。该系统在没有语言信息情况下,对《华尔街日报》语料库实现了27.3%的单词错误率(WER),在只有允许单词词典的情况下达到了21.9%,在三元语言模型下达到了8.2%。将所提方法与基准系统结合,进一步将错误率降低到6.7%。 This paper presents a speech recognition system that transcribes audio data directly from text.A recursive neural network(RNN)structure based on deep bidirectional long-term and short-term memory(LSTM)is combined with the objective function of connection time classification(CTC).The objective function is modified to minimize the expectation of the training network for any transcription loss function.Even in the absence of dictionaries or language models,word error rates can be directly optimized.In the absence of language information,the system achieves 27.3%word error rate(WER)for the wall street journal corpus,21.9%under the condition of only allowing word dictionaries,and 8.2%under the ternary language model.By combining the proposed method with the benchmark system,the error rate is further reduced to 6.7%.
作者 王子龙 李俊峰 张劭韡 王宏岩 王思杰 WANG Zilong;LI Junfeng;ZHANG Shaowei;WANG Hongyan;WANG Sijie(Marketing Department of State Grid Customer Service Center Co.,Ltd.,Beijing 100031;State Grid Customer Service Center Co.,Ltd.,Tianjin 300306;Beijing China Power Information Technology Co.,Ltd.,Beijing 100031)
出处 《计算机与数字工程》 2019年第12期3099-3106,共8页 Computer & Digital Engineering
基金 国家自然科学基金项目(编号:51776082)资助
关键词 递归神经网络 语音识别 长短期记忆 连接时间分类 单词错误率 RNN speech recognition LSTM CTC WER
  • 相关文献

参考文献14

二级参考文献45

共引文献80

同被引文献43

引证文献4

二级引证文献8

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部