基于QRNN-CTC的中文语音识别声学模型

CHINESE SPEECH RECOGNITION ACOUSTIC MODEL BASED ON QRNN-CTC

下载PDF

导出

摘要针对卷积神经网络(CNN)在语音识别中处理时序能力不足和循环神经网络(RNN)在语音识别中模型复杂度较高、训练慢的问题,提出一种新的基于准循环神经网络和连接时序主义(QRNN-CTC)的声学模型。该模型既降低了参数量,又保证了一定的时序间循环能力,利用CTC来实现输入序列和标签自动对齐,在训练时引入dropout防止过拟合。在Thchs-30数据集上的实验结果表明,QRNN-CTC比CNN-CTC相对错误率降低9.8%,最终词错误率为23.8%,训练时间为LSTM-CTC的一半。 Aimed at the problem of insufficient processing time sequence ability of convolutional neural network(CNN)in speech recognition and high model complexity and difficulty of training in recurrent neural network(RNN)in speech recognition,a new kind of quasi-recurrent neural network and connectionist temporal classification(QRNN-CTC)acoustic model is proposed.It not only reduced the numbers of parameters but also ensured a certain cycle capability between time series.CTC was used to realize automatic alignment of input sequence and label,and dropout was introduced to prevent overfitting during training.The experimental results on the Thchs-30 dataset show that QRNN-CTC has a relative error rate of 9.8% lower than that of CNN-CTC,and the final word error rate is 23.8%,and the training time is half of LSTM-CTC.

作者王先欢孙自强 Wang Xianhuan;Sun Ziqiang(Key Laboratory of Advanced Control and Optimization for Chemical Processes,Ministry of Education,East China University of Science and Technology,Shanghai 200237,China)

机构地区华东理工大学化工过程先进控制和优化技术教育部重点实验室

出处《计算机应用与软件》北大核心 2023年第12期184-188,262,共6页 Computer Applications and Software

基金中央高校基本科研业务费专项资金资助项目(222201917006)。

关键词深度学习语音识别声学模型准循环神经网络连接时序分类 Deep learning Speech recognition Acoustic model QRNN CTC

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1张威,翟明浩,黄子龙,李巍,曹毅.SE-MCNN-CTC的中文语音识别声学模型[J].应用声学,2020,39(2):223-230. 被引量：10
2刘娟宏,胡彧,黄鹤宇.端到端的深度卷积神经网络语音识别[J].计算机应用与软件,2020,37(4):192-196. 被引量：30
3姚煜,RYAD Chellali.基于双向长短时记忆联结时序分类和加权有限状态转换器的端到端中文语音识别系统[J].计算机应用,2018,38(9):2495-2499. 被引量：16
4李鹏,杨元维,高贤君,杜李慧,周意,蒋梦月,张净波.基于双向循环神经网络的汉语语音识别[J].应用声学,2020,39(3):464-471. 被引量：9
5郑文秀,赵峻毅,文心怡,姚引娣.基于瓶颈复合特征的声学模型建立方法[J].计算机工程,2020,46(11):301-305. 被引量：3
6唐美丽,胡琼,马廷淮.基于循环神经网络的语音识别研究[J].现代电子技术,2019,42(14):152-156. 被引量：19
7杨威,胡燕.混合CTC/attention架构端到端带口音普通话识别[J].计算机应用研究,2021,38(3):755-759. 被引量：11

二级参考文献34

1杨华民,姜会林,李平.基于神经网络的语音识别技术应用研究[J].电子技术应用,1997,23(9):8-10. 被引量：5
2吕丹桔,B.Hoffmeister.汉语语音声学特征复合的研究[J].云南大学学报（自然科学版）,2010,32(S1):368-371. 被引量：3
3滕云,贺春林,岳淼.基于神经网络的语音识别研究[J].重庆师范大学学报（自然科学版）,2010,27(4):73-76. 被引量：10
4冯宏伟,薛蕾.基于HMM和新型前馈型神经网络的语音识别研究[J].计算机工程与设计,2010,31(24):5324-5327. 被引量：6
5朱小燕,王昱,徐伟.基于循环神经网络的语音识别模型[J].计算机学报,2001,24(2):213-218. 被引量：23
6李晋徽,杨俊安,王一.一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用[J].计算机科学,2014,41(3):263-266. 被引量：10
7胡政权,曾毓敏,宗原,李梦超.说话人识别中MFCC参数提取的改进[J].计算机工程与应用,2014,50(7):217-220. 被引量：29
8Weiwei Jiang,Lin Zhang.Geospatial Data to Images: A Deep-Learning Framework for Traffic Forecasting[J].Tsinghua Science and Technology,2019,24(1):52-64. 被引量：16
9王珂,武军,周天相,李瑞峰.一种融合全局时空特征的CNNs动作识别方法[J].华中科技大学学报（自然科学版）,2018,46(12):36-41. 被引量：4
10刘豫军,夏聪.深度学习神经网络在语音识别中的应用[J].网络安全技术与应用,2014(12):28-28. 被引量：5

共引文献82

1何成兵,王润泽,张霄翔.基于改进一维卷积神经网络的汽轮发电机组轴系扭振模态参数辨识[J].中国电机工程学报,2020,40(S01):195-203. 被引量：17
2徐冬冬,蒋志翔.基于深度优化残差卷积神经网络的端到端语音识别[J].计算机应用研究,2020,37(S02):139-141. 被引量：6
3胡希颖,王大东,陈佳欣.基于NAO机器人的BLSTM-CTC的声学模型研究[J].智能计算机与应用,2021,11(3):76-79. 被引量：1
4缪飞,神户忠,荻野浩雄,长谷一史.电子束CT检测冠状动脉钙化指数价值的评价[J].上海医学,2000,23(5):317-319.
5林麟,贾虹.达力士搽剂治疗头部银屑病35例疗效观察[J].临床皮肤科杂志,2000,29(2):105-106. 被引量：10
6张德正,翁理国,夏旻,曹辉.基于深度卷积长短时神经网络的视频帧预测[J].计算机应用,2019,39(6):1657-1662. 被引量：7
7马清华,韩笑.论语言的迭代机制及其在称代系统中的作用[J].苏州大学学报（哲学社会科学版）,2019,40(3):153-167. 被引量：5
8刘礼文,俞弦.循环神经网络（RNN）及应用研究[J].科技视界,2019,0(32):54-55. 被引量：17
9杨志杰,张梅,李冠龙,黄昌达.基于长短时记忆元的语音智能识别系统设计[J].电子设计工程,2020,28(1):55-58. 被引量：4
10张威,翟明浩,黄子龙,李巍,曹毅.SE-MCNN-CTC的中文语音识别声学模型[J].应用声学,2020,39(2):223-230. 被引量：10

1赵洁,袁永胜,张鹏宇,王栋.轻量化Transformer目标跟踪数据标注算法[J].中国图象图形学报,2023,28(10):3176-3190. 被引量：1

计算机应用与软件

2023年第12期

浏览历史

内容加载中请稍等...

基于QRNN-CTC的中文语音识别声学模型

参考文献7

二级参考文献34

共引文献82

相关作者

相关机构

相关主题

浏览历史