双向循环神经网络在语音识别中的应用被引量：6

Application of Bidirectional Recurrent Neural Network in Speech Recognition

下载PDF

导出

摘要针对前馈神经网络难以处理时序数据的问题,提出将双向循环神经网络(BiRNN)应用在自动语音识别声学建模中。首先,应用梅尔频率倒谱系数进行特征提取;其次,采用双向循环神经网络作为声学模型;最后,测试不同参数对系统性能的影响。在TIMIT数据集上的实验结果表明,与基于卷积神经网络和深度神经网络的声学模型相比,识别率分别提升了1.3%和4.0%,说明基于双向循环神经网络的声学模型具有更好的性能。 In order to solve the problem that feed-forward neural network is difficult to process time series data, bidirectional recurrent neural network(BiRNN) is applied in acoustic modeling of automatic speech recognition. Firstly, the Mel frequency cepstrum coefficients are used for feature extraction. Secondly, bidirectional recurrent neural network is used as acoustic model. And finally, the effects of different parameters on system performance are tested. Experimental results on TIMIT dataset show that, compared with convolutional neural network and deep neural network, the recognition rate of the proposed system is improved by 1.3% and 4.0% respectively, which indicates that BiRNN is more suitable for automatic speech recognition.

作者更藏措毛黄鹤鸣 Gengzang-Cuomao;HUANG He-ming(School of Computer Science,Qinghai Normal University,Xining 810008,China;Key Laboratory of Tibetan Information Processing,Ministry of Education,Xining 810008,China)

机构地区青海师范大学计算机学院藏文信息处理教育部重点实验室

出处《计算机与现代化》 2019年第10期1-6,共6页 Computer and Modernization

基金青海省自然科学基金资助项目(2016-ZJ-904) 国家自然科学基金资助项目(61662062,61462072)

关键词双向循环神经网络语音识别梅尔频率倒谱系数深度神经网络 bidirectional recurrent neural network speech recognition Mel frequency cepstrum coefficient deep neural network

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1蔡尚,金鑫,高圣翔,潘接林,颜永红.用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数[J].声学学报,2012,37(6):667-672. 被引量：14
2王一,杨俊安,刘辉,柳林.基于层次稀疏DBN的瓶颈特征提取方法[J].模式识别与人工智能,2015,28(2):173-180. 被引量：10
3张晴晴,刘勇,王智超,潘接林,颜永红.卷积神经网络在语音识别中的应用[J].网络新媒体技术,2014,3(6):39-42. 被引量：15

二级参考文献36

1Gong Y. Speech recognition in noisy environments: A sur- vey. Speech Communication, 1995; 16:261--291.
2Huang X, Hon H W. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall PTR, 2001.
3Moreno P. Speech recognition in noisy environments. Ph.D. thesis, Carnegie Mellon University, 1996.
4Gales M J F. The generation and use of regression class trees for MLLR adaptation. Cambridge University, Tech. Rep. CUED/FINFENG/TR263, 1996.
5Varga A, Moore R. Hidden Markov model decomposition of speech and noise. ICASSP, 1990; 2:845--848.
6Ghitza O. Temporal non-plaze information in the auditory- nerve firing patterns as a front-end for speech recognition in a noisy environment. Journal of Phonetics, 1988; 16: 109--123.
7Gajic B, Paliwal K K. Robust speech recognition in noisy environments based on subband spectral centroid his- tograms. IEEE Trans. Audio, Speech, and Language Pro- cessing, 2006; 14:600----608.
8De La Torre Aet al. Non-linear transformations of the feature space for robust speech recognition. ICASSP, 2006: 401--404.
9Du J, Wang R H. Cepstral shape normalization (CSN) for robust speech recognition. ICASSP, 2008:4389--4392.
10Honig F et al. Revising perceptual linear prediction (PLP). Eurospeech, 2005:2997--3000.

共引文献36

1鲍瀛,何明远,李瑞瑶,何国平,王旭英,李显红,张耀.基于深度学习的宫颈癌智能辅助检测系统构建[J].中国数字医学,2021,16(7):44-49. 被引量：2
2辜华良.冲击器频率的声波测试法[J].长春科技大学学报,2000,30(2):204-205. 被引量：3
3何勇军,付茂国,孙广路.语音特征增强方法综述[J].哈尔滨理工大学学报,2014,19(2):19-25. 被引量：3
4胡冬妮,王武军,王青.基于知网数据的情感识别国内研究情况综述[J].网络新媒体技术,2018,7(6):1-9. 被引量：4
5侯雷静,郭婷婷,孙燕,齐英杰,应冬文,唐闽,颜永红.面向心音分割的个性化高斯混合建模方法[J].声学学报,2019,44(1):20-27. 被引量：7
6周彬,邹霞,张雄伟.改进的噪声鲁棒语音稀疏线性预测算法[J].声学学报,2014,39(5):655-662. 被引量：1
7ZHOU Bin,ZOU Xia,ZHANG Xiongwei.An improved algorithm for noise-robust sparse linear prediction of speech[J].Chinese Journal of Acoustics,2015,34(1):84-95. 被引量：1
8吴进,张青.一种改进的孤立词语音识别系统设计[J].西安邮电大学学报,2016,21(1):76-80. 被引量：4
9李姗,徐珑婷.基于语谱图提取瓶颈特征的情感识别算法研究[J].计算机技术与发展,2017,27(5):82-86. 被引量：7
10侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：80

同被引文献31

1杜小虎,吴宏明,易子博,李莎莎,马俊,余杰.文本对抗样本攻击与防御技术综述[J].中文信息学报,2021,35(8):1-15. 被引量：6
2罗枭.基于深度学习的自然语言处理研究综述[J].智能计算机与应用,2020(4):133-137. 被引量：13
3李荣,郑家恒.一种改进Viterbi算法的应用研究[J].计算机工程与设计,2007,28(3):530-531. 被引量：7
4高秀娟,牟欣.NBA赛事的分析与预测[J].山东理工大学学报（自然科学版）,2009,23(6):101-104. 被引量：3
5郑晓刚,韩立新,白书奎,曾晓勤.一种组合型中文分词方法[J].计算机应用与软件,2012,29(7):26-28. 被引量：11
6曾磐,朱安民.基于支持向量机的NBA季后赛预测方法[J].深圳大学学报（理工版）,2016,33(1):62-71. 被引量：5
7刘兴亮,姚剑敏,郭太良.基于LPC的混响时间估计算法[J].微型机与应用,2017,36(5):80-83. 被引量：1
8任智慧,徐浩煜,封松林,周晗,施俊.基于LSTM网络的序列标注中文分词法[J].计算机应用研究,2017,34(5):1321-1324. 被引量：69
9戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017,32(2):221-231. 被引量：71
10陈卓,强君.NBA总决赛夺冠因素分析及预测[J].安徽体育科技,2017,38(3):34-39. 被引量：4

引证文献6

1郭川玉,吴荣茂.基于时间规整算法在神经网络语音识别中的应用[J].科学咨询,2020(36):38-38. 被引量：1
2Hang Zhang,Bin Wen.Construction of Word Segmentation Model Based on HMM+BI-LSTM[J].国际计算机前沿大会会议论文集,2020(2):47-61.
3陈晓红,滕华.基于深度机器学习的英语语音识别研究[J].贵阳学院学报（自然科学版）,2021,16(3):1-4. 被引量：3
4李镇晖,张宇山.使用长短期记忆网络预测NBA比赛胜负[J].计算机应用,2021,41(S02):98-102.
5张影,方贤进,杨高明.面向自然语言处理领域的对抗样本生成方法[J].计算机技术与发展,2023,33(3):98-104. 被引量：1
6朵琳,马建,韦贵香,唐剑.基于融合特征ADRMFCC的语音识别方法[J].吉林大学学报（理学版）,2024,62(4):943-950.

二级引证文献5

1蓝泽如.基于人工智能深度学习的语音识别方法及发展趋势[J].新一代信息技术,2022,5(1):104-106. 被引量：1
2杨雪晴.基于语音识别的英语翻译器设计[J].自动化与仪器仪表,2022(8):221-225. 被引量：3
3梁亚敏,李亚峰.基于语音识别的智能英语翻译机器人人机交互系统[J].自动化与仪器仪表,2022(9):196-200. 被引量：6
4蔡慧英,卢琳萌,顾小清.人机协同教研会促进教师教学反思能力的发展吗?——基于课堂视频智能分析技术的实证研究[J].现代远距离教育,2023(1):40-49. 被引量：13
5段魏诚,薛涛.FinBERT-RCNN-ATTACK:金融文本情感分析模型[J].计算机技术与发展,2024,34(5):157-162.

1龚启文,程玉,陈建峡,李超,张帝,龙逸舒.基于深度学习的法院命名实体识别模型[J].湖北工业大学学报,2019,34(4):68-72. 被引量：1
2谭皓,邓树文,钱涛,姬东鸿.基于表情符注意力机制的微博情感分析模型[J].计算机应用研究,2019,36(9):2647-2650. 被引量：12
3聂琼.基于PSO的BP神经网络纱线条干CV值预测研究[J].河南科技,2019,38(17):11-13.
4尤鸣宇,韩煊.基于样本扩充的小样本车牌识别[J].南京师大学报（自然科学版）,2019,42(3):1-10. 被引量：4
5安晖,冯晓辉,王哲.国内外智能语音产业的格局与趋势[J].人工智能,2018(1):5-18. 被引量：3
6吴瑞萦,孔芳.基于神经网络的端到端的事件指代消解研究[J].中文信息学报,2019,33(8):28-35. 被引量：1
7赵品辉,叶翔宇,严潇远,张莉丽,陶智,张晓俊.联合多频带非线性方法的病理嗓音识别研究[J].信息化研究,2019,45(3):26-30.
8刘景天,姜囡.基于混合特征的说话人语音分割聚类研究[J].光电技术应用,2019,34(5):37-41. 被引量：3
9王贵槐,钟诚,初秀民,张代勇.基于BLSTM-RNN的船舶轨迹修复方法[J].重庆交通大学学报（自然科学版）,2019,38(10):7-12. 被引量：5
10凌震华,伍宏传.基于WaveNet的语音合成声码器研究[J].人工智能,2018,0(1):83-91.

计算机与现代化

2019年第10期

浏览历史

内容加载中请稍等...

双向循环神经网络在语音识别中的应用被引量：6

参考文献3

二级参考文献36

共引文献36

同被引文献31

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

双向循环神经网络在语音识别中的应用 被引量：6

参考文献3

二级参考文献36

共引文献36

同被引文献31

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

双向循环神经网络在语音识别中的应用被引量：6