基于多尺度残差深度卷积神经网络的语音识别被引量：11

SPEECH RECOGNITION BASED ON MUTI-SCALE RESIDUAL DEEP CONVOLUTIONAL NEURAL NETWORK

下载PDF

导出

摘要针对卷积神经网络在连续语音识别中识别性能较差的问题,提出多尺度残差深度卷积神经网络的语音识别的算法,并结合联结时序分类算法,构建端到端中文语音识别系统。将多尺度学习和残差机制以及空洞卷积引入到神经网络中,摆脱序列建模对长短时记忆神经网络的依赖,提高模型的训练速度,增强语音识别的抗噪声干扰性。实验表明,与双向长短时记忆模型(BLSTM)、深度卷积神经网络模型(DCNN)和卷积神经网络-长短时记忆模型(CNN-LSTM)相比,该模型的字错误率WER(Word Error Rate)分别降低了9%、5%和3%左右,且在噪声环境下的识别率也优于传统的语音识别系统。 To solve the problem of poor performance of convolutional neural networks in continuous speech recognition,this paper proposes an algorithm based on a multi-scale residual deep convolutional neural network,and constructs an end-to-end speech recognition system for Chinese,by integrating connectionist temporal classification into the algorithm.The multi-scale learning,residual mechanism,and dilated convolution were introduced into the neural network to eliminate the dependence of sequence modeling on LSTM,improve the training speed of the model,and enhance the anti-noise interference of speech recognition.Experiments show that compared with BLSTM,DCNN and CNN-LSTM,the WER of this model is reduced by 9%,5%and 3%respectively,and the recognition rate in noisy environment is better than that in traditional speech recognition system.

作者刘虹袁三男 Liu Hong;Yuan Sannan(School of Electronics and Information Engineering,Shanghai University of Electric Power,Shanghai 200090,China)

机构地区上海电力大学电子与信息工程学院

出处《计算机应用与软件》北大核心 2020年第11期275-279,共5页 Computer Applications and Software

关键词语音识别多尺度卷积神经网络端到端 Speech recognition Multi-scale Convolutional neural network End-to-end

分类号 TP3TN912.34 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献5

1金超,龚铖,李辉.语音识别中神经网络声学模型的说话人自适应研究[J].计算机应用与软件,2018,35(2):200-205. 被引量：12
2周雁,赵栋材.基于HMM模型的藏语语音合成研究[J].计算机应用与软件,2015,32(5):171-174. 被引量：5
3高净植,刘祎,张权,桂志国.改进深度残差卷积神经网络的LDCT图像估计[J].计算机工程与应用,2018,54(16):203-210. 被引量：6
4田熙燕,徐君鹏,杜留锋.基于语谱图和卷积神经网络的语音情感识别[J].河南科技学院学报（自然科学版）,2017,45(2):62-68. 被引量：8
5袁文浩,孙文珠,夏斌,欧世峰.利用深度卷积神经网络提高未知噪声下的语音增强性能[J].自动化学报,2018,44(4):751-759. 被引量：38

二级参考文献15

1李光虎,蔡莲红.朝鲜语文语转换及其拼接代价的研究[J].清华大学学报（自然科学版）,2006,46(4):596-599. 被引量：1
2科大讯飞.核心技术-语音合成技术[EB/OL].http://www.iflytek.corn/about/technical.html.
3茅于杭,张国贞.广东话文本语音转换系统的设计与实现[c]//自然语言理解与机器翻译-全国第六届计算语言学联合学术会议论文集.山西:2001:443-447.
4凌震华,王仁华.基于统计声学模型的单元挑选语音合成算法[J].模式识别与人工智能,2008,21(3):280-284. 被引量：8
5麦麦提艾力.吐尔逊.基于上下文音节的维吾尔语语音合成系统研究[J].计算机工程与应用,2011,47(31):141-143. 被引量：3
6赵栋材.基于虚词切分的藏文分词系统的设计与实现[J].西藏大学学报（社会科学版）,2012,27(5):61-65. 被引量：5
7刘祎,张权,桂志国.基于模糊熵的低剂量CT投影降噪算法研究[J].电子与信息学报,2013,35(6):1421-1427. 被引量：10
8韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：169
9方昕,李辉,刘青松.利用i-vectors构建区分性话者模型的话者确认[J].小型微型计算机系统,2014,35(3):685-688. 被引量：3
10陶华伟,査诚,梁瑞宇,张昕然,赵力,王青云.面向语音情感识别的语谱图特征提取算法[J].东南大学学报（自然科学版）,2015,45(5):817-821. 被引量：17

共引文献64

1连海伦,周健,胡雨婷,郑文明.利用深度卷积神经网络将耳语转换为正常语音[J].声学学报,2020,45(1):137-144. 被引量：8
2志东.鲁棒性语音识别技术研究综述[J].信息通信,2019,0(11):20-22. 被引量：1
3任晓霞.基于Dropout深度卷积神经网络的ST段波形分类算法[J].传感技术学报,2018,31(8):1217-1222. 被引量：10
4张雄,刘蓉,刘明.基于卷积特征提取与融合的语音情感识别研究[J].电子测量技术,2018,41(16):138-142. 被引量：3
5刘亚,王静,田新诚.基于C#和Matlab混合编程的轴承故障诊断系统[J].计算机应用,2018,38(A02):236-238. 被引量：12
6冀瑞国.神经网络在语音识别中的应用[J].电子技术与软件工程,2019(3):249-249. 被引量：4
7袁文浩,娄迎曦,梁春燕,王志强.感知联合优化的深度神经网络语音增强方法[J].西安电子科技大学学报,2019,46(2):89-94. 被引量：4
8罗秀芝,马本学,李小霞,胡洋洋,王文霞,雷声渊.基于卷积神经网络干制哈密大枣纹理分级[J].新疆农业科学,2018,55(12):2220-2227. 被引量：5
9贾艳洁,陈曦,于洁琼,王连明.基于特征语谱图和自适应聚类SOM的快速说话人识别[J].科学技术与工程,2019,19(15):211-218. 被引量：6
10姚红革,沈新霞,李宇,喻钧,雷松泽.多模态融合的深度学习脑肿瘤检测方法[J].光子学报,2019,48(7):159-170. 被引量：3

同被引文献99

1王维波,徐西龙,盛立,高明.卷积神经网络微地震事件检测[J].石油地球物理勘探,2020(5):939-949. 被引量：12
2陈立.基于Unity 3D和AR技术的虚拟实验室系统设计和仿真[J].山西财经大学学报,2022,44(S01):199-201. 被引量：9
3李业良,张二华,唐振民.基于混合式注意力机制的语音识别研究[J].计算机应用研究,2020,37(1):131-134. 被引量：10
4林波,吕明.基于DTW改进算法的孤立词识别系统的仿真与分析[J].信息技术,2006,30(4):56-59. 被引量：12
5张卫强,刘加.网络音频数据检索技术[J].通信学报,2007,28(12):152-155. 被引量：10
6叶列平,马千里,缪志伟.结构抗震分析用地震动强度指标的研究[J].地震工程与工程振动,2009,29(4):9-22. 被引量：124
7钱彦旻,刘加.基于交叉熵顺序统计滤波的语音端点检测算法[J].清华大学学报（自然科学版）,2009(10):1660-1663. 被引量：7
8关山,康晓峰.在线金属切削刀具磨损状态监测研究的回顾与展望Ⅰ:监测信号的选择[J].机床与液压,2010,38(11):127-132. 被引量：16
9周亦敏,牟同鑫.采用复倒谱和子串匹配的音频指纹算法研究[J].上海理工大学学报,2010,32(3):277-280. 被引量：3
10张帆,刘战强.平面铣削刀具前刀面瞬态切削温度的研究[J].现代制造工程,2012(1):8-11. 被引量：2

引证文献11

1占善华,张永平.一种公共法律服务智能语音数据管理系统的设计[J].电子技术与软件工程,2021(1):190-191.
2刘红梅.基于音频指纹技术的乐曲节拍识别系统[J].微型电脑应用,2021,37(7):137-139. 被引量：1
3申玉杰,孙显彬,刘伦明,曾实现,井陆阳,姜云春.基于多源信息融合的刀具剩余寿命预测[J].组合机床与自动化加工技术,2022(9):143-146. 被引量：5
4曾春梅,蒲武川.基于卷积神经网络的脉冲型地震动破坏力的分级评估[J].武汉理工大学学报,2022,44(8):61-68.
5张峰,于乐,张弘扬.基于音频指纹模板匹配的不良音频模糊检索方法[J].西华师范大学学报（自然科学版）,2022,43(4):468-473.
6胡州明,唐冬来,李玉,朱海萍,宋卫平,颜涛.基于自然语言处理的电力调度语音识别方法[J].微型电脑应用,2023,39(6):171-174.
7程鑫颐,刘海.基于3D技术的虚拟口译仿真系统设计[J].自动化与仪器仪表,2023(8):262-267.
8尚天鹏,王友国.基于Adam优化的卷积神经网络随机共振现象研究[J].计算机与数字工程,2023,51(11):2553-2556.
9马钰,桑建兵,李洋,梁炜光,魏新宇.基于神经网络的袋鼠软骨组织材料参数反演及非线性特性分析[J].河北工业大学学报,2024,53(2):30-35.
10祁潇潇,曾庆宁,赵学军.基于双微麦克风阵列与WideResNet网络的语音命令词识别[J].计算机应用与软件,2024,41(5):126-130.

二级引证文献6

1郭艳丽.面向多传感器融合的刀具机械剩余寿命预测[J].工程机械文摘,2024(3):58-60.
2黄一英,邓开发,邬春学.基于空间自适应哈希算法的并行双音频指纹技术[J].计算机应用研究,2022,39(7):2076-2080.
3孙佳韵,战卫侠,孙显彬,孙艳玲.基于卷积神经网络的端到端低速重载轴承故障诊断方法[J].制造业自动化,2023,45(12):194-198. 被引量：3
4张宇,田武郎,李宝明,郑华东,张顺琦.基于稠密卷积网络的拉刀磨损在线预测方法[J].计量与测试技术,2024,51(1):24-27. 被引量：1
5曹梦龙,甄开起.结合时空特征的多传感器刀具磨损监测[J].组合机床与自动化加工技术,2024(2):125-129.
6周建承,梁全,库涛.基于改进BiGRU的刀具磨损预测[J].组合机床与自动化加工技术,2024(7):161-164.

1唐海桃,薛嘉宾,韩纪庆.一种多尺度前向注意力模型的语音识别方法[J].电子学报,2020,48(7):1255-1260. 被引量：19
2刘瑶,徐海平,初宁,郑枫,伍柯霖,吴大转.基于长短时记忆模型的风机故障诊断[J].工程热物理学报,2020,41(10):2437-2445. 被引量：12
3范波,李金瞳.基于神经网络的文本情感分析技术优化改进[J].电子技术与软件工程,2020(17):180-182.
4张晓春,徐晓鹏,魏苏林.LSTM神经网络在股票价格预测中的应用[J].电脑知识与技术,2020,16(28):39-43. 被引量：2
5包晨,董洪伟,钱军浩.基于多尺度卷积和循环神经网络的蛋白质二级结构预测[J].基因组学与应用生物学,2020,39(7):3025-3030. 被引量：2
6刘姝宇,沈小洁,宋代风,王克男.基于多尺度气候环境优化的当代德国城市设计——以慕尼黑里姆会展新城项目为例[J].新建筑,2020(5):104-109. 被引量：1
7郭业才,施钰鲲.基于局部加权长短时记忆网络的无人机DOA估计算法[J].实验室研究与探索,2020,39(10):113-117.
8蔡睿妍,杨力,钱杨.脉冲噪声下基于相关熵的相干分布源DOA估计新方法[J].电子与信息学报,2020,42(11):2600-2606. 被引量：3
9艾邦成,宋威,董垒,蒋增辉.内埋武器机弹分离相容性研究进展综述[J].航空学报,2020,41(10):17-36. 被引量：14
10隋景鹏,靳小琴,舒东亮,马若顺.改进优化包络罗兰C天地波周期联合识别算法[J].电子测量技术,2020,43(17):115-119. 被引量：3

计算机应用与软件

2020年第11期

浏览历史

内容加载中请稍等...

基于多尺度残差深度卷积神经网络的语音识别被引量：11

参考文献5

二级参考文献15

共引文献64

同被引文献99

引证文献11

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于多尺度残差深度卷积神经网络的语音识别 被引量：11

参考文献5

二级参考文献15

共引文献64

同被引文献99

引证文献11

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于多尺度残差深度卷积神经网络的语音识别被引量：11