基于残差卷积神经网络的语音识别算法

Speech Recognition Algorithm Based on Residual Convolutional Neural Network

下载PDF

导出

摘要传统语音识别声学模型DFCNN在对语音特征进行提取的时,采用深度卷积模型只考虑了局部特征,对不同的声学特征无法抓重点选择,且训练速度较慢,难以收敛。文本针对这些问题,提出一种基于深度残差的卷积神经网络的声学模型DRCNN。结合CTC技术,直接使用DRCNN对声学特征进行建模,使用SE-Block通道加权残差机制和深度堆叠结构,加快声学特征提取过程,增强拟合能力,提高训练速度。在此基础上搭建基于transformer的语言模型。相比传统DFCNN-HMM模型,更能学习到语音信息的深度特征,增强声学模型,语言模型鲁棒性。实验结果表明,在中文语音识别数据集,文本提出的语音识别算法相比DFCNN-HMM有在字错误率WER上有4.03%的提升。 When the traditional speech recognition acoustic model DFCNN extracts speech features,the deep convolution model only considers local features,and cannot focus on different acoustic features,and the training speed is slow and difficult to converge.In response to these problems,the text proposes an acoustic model DRCNN based on deep residual convolutional neural network.Combining CTC technology,DRCNN is directly used to model acoustic features,SE-Block channel weighted residual mechanism and deep stacking structure are used to speed up the acoustic feature extraction process,enhance the fitting ability,and increase the training speed.On this basis,a transformer-based language model is built.Compared with the traditional DFCNN-HMM model,it can learn the in-depth features of speech information and enhance the robustness of the acoustic model and language model.The experimental results show that in the Chinese speech recognition data set,the speech recognition algorithm proposed by the text has a 4.03%improvement in the word error rate WER compared to DFCNN-HMM.

作者冯成立程雯 FENG Chengli;CHENG Wen(Wuhan Research Institute of Posts&Telecommunications,Wuhan 430000)

机构地区武汉邮电科学研究院

出处《计算机与数字工程》 2023年第2期440-444,共5页 Computer & Digital Engineering

关键词语音识别 CNN TRANSFORMER 自注意力机制残差链接 SE-Block speech recognition CNN transformer self attention residual connection SE-Block

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1刘长征,张磊.语音识别中卷积神经网络优化算法[J].哈尔滨理工大学学报,2016,21(3):34-38. 被引量：20
2杨鸿武,周刚.基于改进混合CTC/attention架构的端到端普通话语音识别[J].西北师范大学学报（自然科学版）,2019,55(3):48-53. 被引量：6
3梁玉龙,屈丹,李真,张文林.基于卷积神经网络的维吾尔语语音识别[J].信息工程大学学报,2017,18(1):44-50. 被引量：11
4杨洋,汪毓铎.基于改进卷积神经网络算法的语音识别[J].应用声学,2018,37(6):940-946. 被引量：25
5王嘉伟.基于卷积神经网络的语音识别研究[J].科学技术创新,2019(31):71-73. 被引量：6
6姚煜,RYAD Chellali.基于双向长短时记忆联结时序分类和加权有限状态转换器的端到端中文语音识别系统[J].计算机应用,2018,38(9):2495-2499. 被引量：16
7朱小燕,王昱,徐伟.基于循环神经网络的语音识别模型[J].计算机学报,2001,24(2):213-218. 被引量：22

二级参考文献33

1俞铁城周健来等.基于神经网络／隐马尔可夫模型的混合语音识别方法的研究现状.第5届全国人机语音通讯学术会议论文集[M].哈尔滨,1998.18-21.
2李全在陈道文.基于混合HMM／ANN方法的汉语连续数字识别系统.第5届全国人机语音通讯学术会议论文集[M].哈尔滨,1998.166-168.
3李全在，第五届全国人机语音通讯学术会议论文集，1998年，166页
4俞铁城，第五届全国人机语音通讯学术会议论文集，1998年，18页
5郭柏灵,蒲学科,黄凤辉.分数阶偏微分方程及其数值解[M].北京:科学出版社,2011.
6吴炜然.基于神经网络语音识别算法的研究[D].长沙:中南大学,2009.
7董龚.基于HMN的嵌人式特定人语音识别系统[D].哈尔滨:哈尔滨工业大学,2013.
8CHENG O,ABDULLA W,SALCIC Z. Hardware-software Codesign of Automatic Speech Recognition System [ J ]. Industial Electron- ies,2011,58(3) :850 -859.
9WEN Cheyen, CHIU Shihhsuan, HSU Weisheng. Defect Segmenta- tion of Texture Images with Wavelent Transform and a Co-occur- rence Matrix [ J ]. Textile Research Journal, 2001,71 ( 8 ) : 743 - 749.
10PEI S C, DING J J. Closed-form Discrete Fractional and Mfine Fourier Transforms [ J ]. IEEE Trans on Signal Process, 2000,48 (5) : 1338 - 1553.

共引文献87

1徐冬冬,蒋志翔.基于深度优化残差卷积神经网络的端到端语音识别[J].计算机应用研究,2020,37(S02):139-141. 被引量：6
2胡希颖,王大东,陈佳欣.基于NAO机器人的BLSTM-CTC的声学模型研究[J].智能计算机与应用,2021,11(3):76-79. 被引量：1
3荣蓉.一类基于概率神经网络的语音识别模型[J].山东理工大学学报（自然科学版）,2005,19(3):49-52.
4沈文炜,施惠昌.基于循环神经网络的传感器漂移补偿方法[J].计算机工程与科学,2005,27(12):95-96. 被引量：3
5李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
6陈幸琼,邓长虹,潘章达,董超.基于RBF循环神经网络的电力系统负荷建模[J].电网技术,2007,31(17):56-59. 被引量：10
7杨庚.生物化学分子数据库分析和设计研究[J].计算机工程与应用,2000,36(4):10-11. 被引量：2
8王鹏,张肖敏,白艳萍.基于CNN-ELM的SAR图像分类识别[J].数学的实践与认识,2018,48(23):75-80. 被引量：4
9李高盛,彭玲,李祥,吴同.基于LSTM的城市公交车站短时客流量预测研究[J].公路交通科技,2019,36(2):128-135. 被引量：31
10靖固,张学松.FPGA语音识别的四旋翼飞行器控制系统设计[J].哈尔滨理工大学学报,2017,22(6):95-101. 被引量：4

1陈静.不同护理方法在慢性肾衰竭患者中的护理效果对比观察[J].中国科技期刊数据库医药,2021(10):166-168.
2李玲玉,范志霞,陈娇娇,苗国英.阿维A对寻常型银屑病患者p38 MAPK信号通路及外周血IL-9、IL-10水平的影响[J].中国中西医结合皮肤性病学杂志,2022,21(6):515-518. 被引量：1
3胡雯(文/图).越南禄宁Loc Ninh 1-2-3550兆瓦光伏项目群简介[J].电力勘测设计,2023(5).
4周孟然,姚旭.改进多尺度残差网络病害叶片图像识别[J].计算机工程与应用,2023,59(11):195-202.
5刘历铭,巩荣芬,储茂祥.基于L1范数损失的非平行支持向量回归机[J].辽宁科技大学学报,2023,46(2):101-110.
6丁雯丽,裴晓芳,司广字.基于图像分析的堆肥腐熟度判别研究[J].计算机与数字工程,2023,51(2):462-467.
7Call for Papers[J].Psychology Research,2023,13(5).
8蓝小华,曹艳杰,任启涛,朱伟伟,胡玥,张凯杰,张蓝宁,范兴满,唐玉祝.飞行员心肺储备功能与抗荷耐力关系的研究进展[J].心脏杂志,2023,35(2):196-199. 被引量：1
9De Leon AM,Dulay AR,Villanueva AL,Kalaw SP.Optimal culture conditions and toxicity assessment of Fomitopsis feei(Fr.):a newly documented macro fungus from Philippines[J].Studies in Fungi,2020,5(1):491-507.
10刘星雨,盛业华,秦佳睿,刘青昊,叶龙杰.基于隐马尔可夫模型的时空轨迹语义匹配方法[J].地理与地理信息科学,2023,39(3):1-6.

计算机与数字工程

2023年第2期

浏览历史

内容加载中请稍等...

基于残差卷积神经网络的语音识别算法

参考文献7

二级参考文献33

共引文献87

相关作者

相关机构

相关主题

浏览历史