基于双向长短时记忆联结时序分类和加权有限状态转换器的端到端中文语音识别系统被引量：16

End-to-end Chinese speech recognition system using bidirectional long short-term memory networks and weighted finite-state transducers

下载PDF

导出

摘要针对隐马尔可夫模型(HMM)在语音识别中存在的不合理条件假设,进一步研究循环神经网络的序列建模能力,提出了基于双向长短时记忆神经网络的声学模型构建方法,并将联结时序分类(CTC)训练准则成功地应用于该声学模型训练中,搭建出不依赖于隐马尔可夫模型的端到端中文语音识别系统;同时设计了基于加权有限状态转换器(WFST)的语音解码方法,有效解决了发音词典和语言模型难以融入解码过程的问题。与传统GMM-HMM系统和混合DNN-HMM系统对比,实验结果显示该端到端系统不仅明显降低了识别错误率,而且大幅提高了语音解码速度,表明了该声学模型可以有效地增强模型区分度和优化系统结构。 For the assumption of unreasonable conditions in speech recognition by Hidden Markov Model(HMM),the ability of sequence modeling of recurrent neural networks was further studied,an acoustic model based on Bidirectional Long Short-Term Memory(BLSTM)neural networks was proposed.The training criterion based on Connectionist Temporal Classification(CTC)was successfully applied to the acoustic model training,and an end-to-end Chinese speech recognition system was built which does not rely on HMM.Meanwhile,a speech decoding method based on Weighted Finite-State Transducer(WFST)was designed to effectively solve the problem that lexicon and language model are difficult to integrate into the decoding process.Compared with the traditional GMM-HMM system and hybrid DNN-HMM system,the experimental results show that the end-to-end system not only significantly reduces the recognition error rate,but also significantly improves the speech decoding speed,indicating that the proposed acoustic model can effectively enhance the model discrimination and optimize the system structure.In view of the unreasonable conditional hypotheses of hidden Markov model in speech recognition,an acoustic model based on Bidirectional Long Short-Term Memory(BLSTM)network was proposed after further studying the ability of recurrent neural network.We have successfully applied the training criterion based on connectionist temporal classification to the training of this acoustic model,and built our end-to-end Chinese speech recognition system without hidden Markov model.Meanwhile,a speech decoding method base on weighted finite-state transducer was designed to effectively solve the problem that lexicon and language model are difficult to integrate into the decoding process.Compared with the traditional GMM-HMM system and the hybrid DNN-HMM system,the experimental results show our end-to-end system significantly reduces the recognition error rate,while at the same time speeding up decoding dramatically.It is shown that the acoustic model proposed in this paper can effectively enhance the model discrimination and optimize the structure of speech recognition system.

作者姚煜 RYAD Chellali YAO Yu;RYAD Chellali(College of Electrical Engineering and Control Science,Nanjing Tech University,Nanjing Jiangsu 211816,China)

机构地区南京工业大学电气工程与控制科学学院

出处《计算机应用》 CSCD 北大核心 2018年第9期2495-2499,共5页 journal of Computer Applications

关键词语音识别长短时记忆神经网络联结时序分类加权有限状态转换器端到端系统 speech recognition Long Short-Term Memory(LSTM)neural network Connectionist Temporal Classification(CTC) Weight Finite-State Transducer(WFST) end-to-end system

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

同被引文献94

1邢红兵.现代汉语词类使用情况统计[J].浙江师范大学学报（社会科学版）,1999,25(3):27-30. 被引量：5
2刘宁生.叹词研究[J].南京师大学报（社会科学版）,1987(3):49-55. 被引量：29
3袁毓林.词类范畴的家族相似性[J].中国社会科学,1995(1):154-170. 被引量：283
4刘丹青,唐正大.话题焦点敏感算子“可”的研究[J].世界汉语教学,2001,15(3):25-33. 被引量：48
5马清华.并列可联范围的扩张及其控制因素[J].语言科学,2005,4(5):18-35. 被引量：7
6陆镜光.汉语方言中的指示叹词[J].语言科学,2005,4(6):88-95. 被引量：29
7余义兵,樊中元.体词性喻体的“比喻性”等级序列[J].暨南大学华文学院学报,2007(1):69-77. 被引量：3
8石定栩.谓词性宾语的句法地位[J].语言科学,2009,8(5):493-502. 被引量：7
9杨烈祥.论语言的递归机制[J].中南林业科技大学学报（社会科学版）,2009,3(5):133-136. 被引量：7
10刘丹青.叹词的本质——代句词[J].世界汉语教学,2011,25(2):147-158. 被引量：74

引证文献16

1徐冬冬,蒋志翔.基于深度优化残差卷积神经网络的端到端语音识别[J].计算机应用研究,2020,37(S02):139-141. 被引量：6
2胡希颖,王大东,陈佳欣.基于NAO机器人的BLSTM-CTC的声学模型研究[J].智能计算机与应用,2021,11(3):76-79. 被引量：1
3张德正,翁理国,夏旻,曹辉.基于深度卷积长短时神经网络的视频帧预测[J].计算机应用,2019,39(6):1657-1662. 被引量：7
4马清华,韩笑.论语言的迭代机制及其在称代系统中的作用[J].苏州大学学报（哲学社会科学版）,2019,40(3):153-167. 被引量：5
5杨志杰,张梅,李冠龙,黄昌达.基于长短时记忆元的语音智能识别系统设计[J].电子设计工程,2020,28(1):55-58. 被引量：4
6张威,翟明浩,黄子龙,李巍,曹毅.SE-MCNN-CTC的中文语音识别声学模型[J].应用声学,2020,39(2):223-230. 被引量：10
7刘娟宏,胡彧,黄鹤宇.端到端的深度卷积神经网络语音识别[J].计算机应用与软件,2020,37(4):192-196. 被引量：30
8张瑞珍,韩跃平,张晓通.基于深度LSTM的端到端的语音识别[J].中北大学学报（自然科学版）,2020,41(3):244-248. 被引量：14
9杨德举,马良荔,谭琳珊,裴晶晶.基于门控卷积网络与CTC的端到端语音识别[J].计算机工程与设计,2020,41(9):2650-2654. 被引量：14
10杨焕峥.基于深度学习的中文语音识别模型设计与实现[J].湖南邮电职业技术学院学报,2020,19(3):24-27. 被引量：4

二级引证文献93

1何成兵,王润泽,张霄翔.基于改进一维卷积神经网络的汽轮发电机组轴系扭振模态参数辨识[J].中国电机工程学报,2020,40(S01):195-203. 被引量：17
2司超增,张铁山.语音识别技术在医院病理业务智能化管理中的应用[J].中国数字医学,2021,16(8):16-21. 被引量：7
3雷雨田.基于边缘提取的会议视频图像快速解码算法研究[J].科技通报,2021,37(10):54-58. 被引量：1
4韩笑.指示代词四大范畴的扩张路径[J].汉字文化,2023(3):13-15.
5何佳.“X+是”的话语标记化模式及成因[J].汉语学习,2021(1):104-112. 被引量：1
6赵雨.人工智能背景下制浆造纸工程专业英语翻译译文质量研究[J].造纸科学与技术,2022,41(4):96-99. 被引量：2
7缪飞,神户忠,荻野浩雄,长谷一史.电子束CT检测冠状动脉钙化指数价值的评价[J].上海医学,2000,23(5):317-319.
8林麟,贾虹.达力士搽剂治疗头部银屑病35例疗效观察[J].临床皮肤科杂志,2000,29(2):105-106. 被引量：10
9葛海燕,左国华,高明发.^(131)I标记抗CEA单抗预防人结肠癌肝转移的实验研究[J].第三军医大学学报,2000,22(5):430-432. 被引量：5
10韩笑,马清华.论人称代词中语法范畴的形态分化[J].中南大学学报（社会科学版）,2019,25(4):182-194. 被引量：2

1卢佳乐,李为相,毛祥宇.基于模糊时序分类与加权相似度的推荐算法[J].计算机工程,2018,44(6):156-161. 被引量：2
2华为X-Haul 5G承载解决方案助力运营商5G商用[J].通信世界,2018,0(14):38-38. 被引量：1
3刘秀磊,王延飞,刘思含,李红臣.科技情报对象关系抽取的技术选择[J].情报工程,2018,4(3):39-47. 被引量：3
4张桂红,赵其朋.运营商构建物联网端到端系统[J].通信技术,2018,51(6):1315-1321. 被引量：2
5MONICA.一个部位一天练两次会怎样[J].健与美,2018,0(6):168-170.
6李锋,陈勇,向往,王家序,汤宝平.基于量子加权长短时记忆神经网络的状态退化趋势预测[J].仪器仪表学报,2018,39(7):217-225. 被引量：16
7居治华,刘罡,陈琦岚,吕微,阮佳慧,武业皓.基于反向卷积的Bi-LSTM语音识别[J].软件导刊,2018,17(7):27-30. 被引量：6
8冯伟,易绵竹,马延周.基于TensorFlow的俄语词汇标音系统[J].计算机应用,2018,38(4):971-977. 被引量：5
9易利容,王绍宇,殷丽丽,杨青,顾欣.基于多变量LSTM的工业传感器时序数据预测[J].智能计算机与应用,2018,8(5):13-16. 被引量：40
10裴哲慧,董浩,周琦,赵甲.交大创客空间智能服务机器人设计与制作[J].电子技术与软件工程,2018(13):76-76.

计算机应用

2018年第9期

浏览历史

内容加载中请稍等...

基于双向长短时记忆联结时序分类和加权有限状态转换器的端到端中文语音识别系统被引量：16

同被引文献94

引证文献16

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

基于双向长短时记忆联结时序分类和加权有限状态转换器的端到端中文语音识别系统 被引量：16

同被引文献94

引证文献16

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

基于双向长短时记忆联结时序分类和加权有限状态转换器的端到端中文语音识别系统被引量：16