基于三层结构优化卷积神经网络的语音识别被引量：3

Speech recognition based on three-layer structure optimized convolutional neural network

下载PDF

导出

摘要目前说话人、环境及发音多样性仍是语音识别声学建模中需解决的主要难题,为了克服这些不利因素的影响,本文将经过三层结构优化后的卷积神经网络应用于语音识别,利用卷积神经网络的卷积不变性克服语音信号的多样性,采用更符合生物神经元特性的新型激活函数改进卷积层缓解梯度消失的问题;利用中间池化方法改进池化层、减小特征提取误差,使用卷积层代替全连接层的方式降低模型复杂度,再通过与对比方法进行多种指标评价,结果表明:本文提出的方法较对比算法在中文语音、英文语音两种数据集下平均识别错误率分别下降22.05%和20.27%。比传统卷积神经网络模型的损失值相对减小40%,在一定程度上提升了模型的泛化能力。 At present, speaker, environment and pronunciation diversity are still the main problems to be solved in speech recognition acoustic modeling.In order to overcome the influence of these unfavorable factors, the three-layer structure optimized convolutional neural network is applied to speech recognition.Convolutional invariance of convolutional neural networks is used to overcome the diversity of speech signals.In order to alleviate the disappearance of the gradient, a new activation function that is more in line with the characteristics of biological neurons is used to improve the convolutional layer;So as to reduce the feature extraction error, the intermediate pooling method is uesd to improve the pooling layer;In order to reduce the complexity of the model, the convolutional layer is used instead of the fully connected layer, and a variety of indicators are evaluated by comparison.The results show that, compared with the comparison algorithm, the average recognition error rate in the Chinese speech and the English speech two data set drops by 22.05% and 20.27%;Compared with the traditional convolutional neural network model, the loss value is relatively reduced by 40%.To a certain extent, the generalization ability of the model is improved.

作者赵小芬张开生 ZHAO Xiaofen;ZHANG Kaisheng(School of Electrical and Control Engineering,Shanxi University of Science and Technology,Xi′an,Shanxi 710021,China)

机构地区陕西科技大学电气与控制工程学院

出处《石河子大学学报（自然科学版）》 CAS 北大核心 2022年第1期127-132,共6页 Journal of Shihezi University(Natural Science)

基金国家自然科学基金(61601271) 陕西省科技计划(2017GY-063)。

关键词声学建模三层结构优化卷积神经网络语音识别识别率泛化性能 acoustic modeling three-layer structure optimization convolutional neural network speech recognition recognition rate generalization performance

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献11

1ZHANG Yike,ZHANG Pengyuan,YAN Yonghong.Language Model Score Regularization for Speech Recognition[J].Chinese Journal of Electronics,2019,28(3):604-609. 被引量：3
2朱锡祥,刘凤山,张超,吕钊,吴小培.基于一维卷积神经网络的车载语音识别研究[J].微电子学与计算机,2017,34(11):21-25. 被引量：15
3秦楚雄,张连海.基于DNN的低资源语音识别特征提取技术[J].自动化学报,2017,43(7):1208-1219. 被引量：25
4王智超,徐及,张鹏远,颜永红.卷积神经网络声学模型的结构优化和加速计算[J].重庆邮电大学学报（自然科学版）,2018,30(3):416-422. 被引量：4
5侯一民,李永平.基于卷积神经网络的孤立词语音识别[J].计算机工程与设计,2019,40(6):1751-1756. 被引量：20
6黄玉蕾,罗晓霞,刘笃仁.MFSC系数特征局部有限权重共享CNN语音识别[J].控制工程,2017,24(7):1507-1513. 被引量：9
7伍家松,达臻,魏黎明,SENHADJI Lotfi,舒华忠.基于分裂基-2/(2a)FFT算法的卷积神经网络加速性能的研究[J].电子与信息学报,2017,39(2):285-292. 被引量：8
8杨洋,汪毓铎.基于改进卷积神经网络算法的语音识别[J].应用声学,2018,37(6):940-946. 被引量：25
9何鑫,陈迅.基于改进卷积神经网络的指静脉识别[J].计算机工程与设计,2019,40(2):562-566. 被引量：8
10张威,翟明浩,黄子龙,李巍,曹毅.SE-MCNN-CTC的中文语音识别声学模型[J].应用声学,2020,39(2):223-230. 被引量：10

二级参考文献39

1赵建东,高光来,飞龙.基于HMM的蒙古语语音合成技术研究[J].计算机科学,2014,41(1):80-82. 被引量：6
2Fei-wei QIN,Lu-ye LI,Shu-ming GAO,Xiao-ling YANG,Xiang CHEN.A deep learning approach to the classification of 3D CAD models[J].Journal of Zhejiang University-Science C(Computers and Electronics),2014,15(2):91-106. 被引量：12
3方昕,李辉,刘青松.利用i-vectors构建区分性话者模型的话者确认[J].小型微型计算机系统,2014,35(3):685-688. 被引量：3
4许辉,热依曼.吐尔逊,吾守尔.斯拉木.基于HMM和GMM的维吾尔语联机手写体识别研究[J].计算机工程与应用,2014,50(11):202-205. 被引量：4
5王珂,武军,周天相,李瑞峰.一种融合全局时空特征的CNNs动作识别方法[J].华中科技大学学报（自然科学版）,2018,46(12):36-41. 被引量：4
6吴蔚澜,蔡猛,田垚,杨晓昊,陈振锋,刘加,夏善红.低数据资源条件下基于Bottleneck特征与SGMM模型的语音识别系统[J].中国科学院大学学报（中英文）,2015,32(1):97-102. 被引量：9
7麦麦提艾力.吐尔逊,戴礼荣.深度神经网络在维吾尔语大词汇量连续语音识别中的应用[J].数据采集与处理,2015,30(2):365-371. 被引量：12
8张文林,牛铜,屈丹,李弼程,裴喜龙.基于声学特征空间非线性流形结构的语音识别声学模型[J].自动化学报,2015,41(5):1024-1033. 被引量：9
9赵彩光,张树群,雷兆宜.基于改进对比散度的GRBM语音识别[J].计算机工程,2015,41(5):213-218. 被引量：4
10薛皓天,杨晶东,谈凯德.一种改进的BP神经网络在手写体识别上的应用[J].电子科技,2015,28(5):20-23. 被引量：8

共引文献121

1乔丹,刘刚,杨执钧,钟韬,白雪.基于迁移学习的船舶目标识别[J].计算机应用研究,2020,37(S01):324-325. 被引量：1
2张会云.语音情感识别研究综述[J].信息通信,2019,0(11):58-60. 被引量：2
3上官甲天,王裕.基于优化分裂基FFT算法的APF谐波检测策略[J].电子测量技术,2023,46(5):23-29. 被引量：1
4袁松范.中国进入世贸组织的前景[J].中国医药情报,2000,6(1):34-37. 被引量：3
5茅正冲,王俊俊.基于耳蜗倒谱系数和Teager能量算子相位融合的说话人识别系统[J].南京理工大学学报,2018,42(1):82-88. 被引量：4
6唐乐爽,田国会,黄彬.一种基于DSmT推理的物品融合识别算法[J].山东大学学报（工学版）,2018,48(1):50-56.
7陈楚,吕石磊,徐梅宣,代芬.基于FFT算法的长序列线性卷积及相关函数实现[J].电子技术（上海）,2018,47(4):22-25. 被引量：5
8王民,许娟,要趁红,赵渊.基于ADSABC算法优化WNN的语音识别研究[J].液晶与显示,2018,33(7):615-623. 被引量：4
9高成吉.一种英语口语识别算法[J].信息技术,2018,42(8):148-151. 被引量：3
10文丹艳,马超群,王琨.一种多源数据驱动的自动交易系统决策模型[J].自动化学报,2018,44(8):1505-1517. 被引量：5

同被引文献38

1翟水丽.地铁车站环境下智能语音识别技术和方案分析[J].电声技术,2022,46(8):92-94. 被引量：2
2俞金寿.软测量技术在石油化工中的应用[J].石油化工,2000,29(3):221-226. 被引量：27
3胡鑫磊,王春雨,张国毅,田润澜.积分二次相位函数和傅里叶变换的多相码参数估计[J].火力与指挥控制,2016,41(3):62-66. 被引量：1
4孙晓妍,冯成.基于B/S+C/S模式下的教务管理信息系统开发[J].电脑编程技巧与维护,2016(16):67-68. 被引量：2
5邓智方,袁家政,刘宏哲,原春锋,张宏源.基于浅三维稠密网的多模态手势识别算法[J].计算机工程与应用,2019,55(19):166-172. 被引量：3
6王飞,胡川,罗浩,汪鹏.医疗场景智能语音识别技术的应用研究[J].中国数字医学,2019,14(12):19-21. 被引量：25
7尹秋明,沈天飞,龚雪.基于改进的SVSLMS算法的语音识别系统研究[J].电子测量技术,2020,43(1):63-68. 被引量：4
8唐海桃,薛嘉宾,韩纪庆.一种多尺度前向注意力模型的语音识别方法[J].电子学报,2020,48(7):1255-1260. 被引量：17
9邱达锋.一种基于多模态融合神经网络对疲劳度检测的方法[J].现代计算机,2020,26(35):32-36. 被引量：2
10吴双,袁野,马育红,黄敬健,袁乃昌.用于大规模深度卷积分类网络DOA估计的标签分解方法[J].信号处理,2021,37(1):1-10. 被引量：9

引证文献3

1王告.基于改进LeNet-5网络的污泥沉降比检测研究[J].软件导刊,2023,22(1):224-228.
2李可.面向语言对话场景的智能语音交互关键技术研究[J].自动化与仪器仪表,2023(8):295-299. 被引量：1
3姚鑫.基于语音识别的多模态人机交互系统关键技术研究[J].自动化与仪器仪表,2023(11):222-225. 被引量：1

二级引证文献1

1王雪宝,汤永涛,王青波,唐文龙.人工智能语音识别技术在国外军事领域的应用分析[J].电脑知识与技术,2024,20(5):21-23.

1李广桥,乔运华,班玉荣,周文坤,张应刚.区块链在协同制造领域的应用探讨[J].制造业自动化,2022,44(3):127-130. 被引量：3
2李凯飞,徐凌桦.贵阳方言工厂指令识别[J].微处理机,2022,43(1):48-51.
3刘奕,李建华,陈玉.基于自适应阈值的大象流检测方法[J].计算机工程与应用,2022,58(3):159-164. 被引量：3
4冯建宇.考虑高频数据V-I特性的电力负荷异常值自动识别系统[J].机械设计与制造工程,2021,50(12):109-112.
5万茹月,海玲,谷铮,刘文.基于深度学习的手写文字识别[J].现代信息科技,2021,5(19):89-91. 被引量：3
6王强,孙文强,徐宪东,周越,吴建中,蔡九菊.钢包精炼炉(LF)作为可削减负荷的灵活性评估[J].材料与冶金学报,2022,21(2):150-156. 被引量：6
7李权学,牛梦晨,陈睿麟,陈伊婷,杜帅,徐梓欣.基于生成对抗网络的图像风格转换算法[J].成都信息工程大学学报,2021,36(6):629-633. 被引量：1
8张文龙,南新元.基于改进YOLOv5的道路车辆跟踪算法[J].广西师范大学学报（自然科学版）,2022,40(2):49-57. 被引量：6
9梁婷.延伸护理对脑卒中吞咽障碍患者吞咽功能、神经功能的影响[J].当代临床医刊,2022,35(2):94-95.
10黄毅.基于粗糙数据集的水库移民安置区选择规划方法[J].水利科技与经济,2022,28(3):55-60. 被引量：1

石河子大学学报（自然科学版）

2022年第1期

浏览历史

内容加载中请稍等...

基于三层结构优化卷积神经网络的语音识别被引量：3

参考文献11

二级参考文献39

共引文献121

同被引文献38

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于三层结构优化卷积神经网络的语音识别 被引量：3

参考文献11

二级参考文献39

共引文献121

同被引文献38

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于三层结构优化卷积神经网络的语音识别被引量：3