基于改进卷积神经网络算法的语音识别被引量：26

Speech recognition based on improved convolutional neural network algorithm

下载PDF

导出

摘要为了解决传统卷积神经网络识别连续语音数据时识别性能较差的问题,提出一种改进的卷积神经网络算法。该方法引入Fisher准则以及L2正则化约束,在反向传播调整参数阶段,既保证参数误差的最小化,又确保分类以后的样本类间分布较分散,类内分布较集中,同时保证网络权值具有合适的数量级以有效缓解过拟合问题;采用一种更符合生物神经元激活特性的新型log激活函数进行卷积神经网络的优化,进一步提高语音识别的正确率。在语音识别库TIMIT以及THCHS30上的实验结果表明,相较于传统卷积神经网络算法,该文提出的改进算法能较好地提高语音识别率,且泛化能力更强。 An improved convolutional neural network(CNN)algorithm is proposed to solve the problem of poor recognition performance when the traditional CNN identifies continuous speech corpus.In this method,Fisher criterion and L2 regularization constraint are introduced.In the phase of back propagation adjustment parameters,it not only ensures the minimum of parameter errors,but also ensures that the distribution of samples after classification is more scattered,and the distribution within class is more concentrated.At the same time,the weights of the network are guaranteed to have the appropriate order of magnitude to effectively alleviate the problem of over-fitting.In order to further improve the accuracy of speech recognition,a new log activation function which is more consistent with the biological neuron is used to optimize the CNN.Experiments on speech corpus TIMIT and THCHS30 show that compared with the traditional CNN algorithm,the improved algorithm proposed in this paper can better improve the accuracy and the generalization ability.

作者杨洋汪毓铎 YANG Yang;WANG Yuduo(School of Information and Communication Engineering,Beijing Information Science and Technology University,Beijing 100101,China)

机构地区北京信息科技大学信息与通信工程学院

出处《应用声学》 CSCD 北大核心 2018年第6期940-946,共7页 Journal of Applied Acoustics

关键词语音识别卷积神经网络 FISHER准则 L2正则化 log激活函数 Speech recognition,Convolutional neural network Fisher criterion L2 regularization log activation function

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献4

1侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：81
2孙艳丰,齐光磊,胡永利,赵璐.基于改进Fisher准则的深度卷积神经网络识别算法[J].北京工业大学学报,2015,41(6):835-841. 被引量：24
3梁玉龙,屈丹,李真,张文林.基于卷积神经网络的维吾尔语语音识别[J].信息工程大学学报,2017,18(1):44-50. 被引量：11
4黄玉蕾,罗晓霞,刘笃仁.MFSC系数特征局部有限权重共享CNN语音识别[J].控制工程,2017,24(7):1507-1513. 被引量：9

二级参考文献34

1SARIKAYA R, HINTON G E, DEORAS A. Application of deep belief networks for natural language understanding [ J]. IEEE Transactions on Audio Speech and Language Processing, 2014, 22 (4) : 778-784.
2GRAVES A, MOHAMED A, HINTON G E. Speech recognition with deep recurrent neural networks [ C ] // IEEE International Conference on Acoustic Speech and Signal Processing ( ICASSP 2013 ). Vancouver, BC: IEEE, 2013: 6645-6649.
3CIRESAN D, MEIER U, SCHMIDHUBER J. Multi- column deep neural networks for image classification [ C ]// Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 3642-3649.
4JI Shui-wang, XU Wei, YANG Ming, et al. 3D convolutional neural networks for human action recognition [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2012, 35( 1 ) : 221-231.
5JOAN B, ARTHUR S, LECUN Y. Signal recovery from Lp pooling representations [ C ] //International Conference on Machine Learning (ICML2014). Beijing: IMLS, 2014.
6JONATAN T, MURPHY S, LECUN Y, et al. Real-time continuous pose recovery of human hands using convolutional networks [ J ]. ACM Transaction on Graphics, 2014, 33(5).
7TIVIVE F H C, BOUZERDOUM A. A new class of convolutional neural networks (SICoNNets) and their application of face detection [ C ] // Proceedings of the International Joint Conference on Neural Networks. Portland: IEEE, 2003: 2157-2162.
8SIMARD P Y, STEINKRAUS D, PLATT J C. Best practice for convolutional neural networks applied to visual document analysis [ C ] //Seventh International Conference on Document Analysis and Recognition. Edinburgh: IEEE, 2003: 958-963.
9SKITTANON S, SURENDRAN A C, PLATT J C, et al. Convolutional networks for speech detection [ C ] // Interspeeeh. Lisbon, Portugal: ISCA, 2004: 1077-1080.
10CHEN Ying-nong, HAN Chin-chuan, WANG Cheug-tzu, et al. The application of a convolution neural network on face and license plate detection [ C ]//18th International conference on Pattern Recognition. Hong Kong: IEEE, 2006 : 552-555.

共引文献121

1师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：11
2朱梦帆,汪志成,戴诗柏.基于语谱图与稠密卷积神经网络的性别与年龄识别研究[J].仪表技术,2022(1):66-70. 被引量：3
3乔丹,刘刚,杨执钧,钟韬,白雪.基于迁移学习的船舶目标识别[J].计算机应用研究,2020,37(S01):324-325. 被引量：1
4杨秀芳,陈卓,王驰.基于隐Markov模型的齿轮箱故障识别方法研究[J].电子测量与仪器学报,2020,32(11):115-123. 被引量：6
5李明节,陶洪铸,许洪强,刘金波,张强,张伟.电网调控领域人工智能技术框架与应用展望[J].电网技术,2020,44(2):393-400. 被引量：78
6易雪蓉,黄巍,胡迪,蒋怡.基于HMM的声调语音模型研究[J].武汉工程大学学报,2018,40(6):691-695. 被引量：2
7秦晓慧,侯霞,赵雪.一种融合语义角色和依存句法的实体关系抽取算法[J].北京信息科技大学学报（自然科学版）,2019,34(1):64-67. 被引量：4
8田壮壮,占荣辉,胡杰民,张军.基于卷积神经网络的SAR图像目标识别研究.[J].雷达学报（中英文）,2016,5(3):320-325. 被引量：72
9杨斌,钟金英.卷积神经网络的研究进展综述[J].南华大学学报（自然科学版）,2016,30(3):66-72. 被引量：34
10王媛媛,周涛,吴翠颖.深度学习及其在医学图像分析中的应用研究[J].电视技术,2016,40(10):118-126. 被引量：15

同被引文献174

1承向军,贺振欢,杨肇夏.基于遗传算法的交通信号机器学习控制方法[J].系统工程理论与实践,2004,24(8):130-135. 被引量：13
2王曙燕,耿国华,李丙春.决策树算法在医学图像数据挖掘中的应用[J].西北大学学报（自然科学版）,2005,35(3):262-265. 被引量：22
3程柏林,朱元清,马晓岩.一种用于雷达信号分选的改进型神经网络[J].空军雷达学院学报,2005,19(2):18-20. 被引量：4
4于洪志,杨博,关白.藏文文本规范化技术的研究与实践[J].西北民族大学学报（自然科学版）,2006,27(1):43-47. 被引量：3
5万建伟,宋小全,皇甫堪,周良柱.神经网络在雷达信号分选中的应用[J].系统工程与电子技术,1996,18(7):29-35. 被引量：9
6吴晓辉,刘炯,梁永春,汪晓明,李彦明.支持向量机在电力变压器故障诊断中的应用[J].西安交通大学学报,2007,41(6):722-726. 被引量：15
7杨华民,姜会林,李平.基于神经网络的语音识别技术应用研究[J].电子技术应用,1997,23(9):8-10. 被引量：5
8陈为真,汪秉文,胡晓娅.多因子预测模型在连续梁桥中的应用[J].重庆大学学报（自然科学版）,2009,32(3):353-356. 被引量：3
9赵志宏,杨绍普,马增强.基于卷积神经网络LeNet-5的车牌字符识别研究[J].系统仿真学报,2010,22(3):638-641. 被引量：151
10韩立华,王博,段淑凤.语音端点检测技术研究进展[J].计算机应用研究,2010,27(4):1220-1226. 被引量：39

引证文献26

1郭怀钰.人工智能在智能交通中的应用[J].电子制作,2019,27(6):73-74. 被引量：2
2胡同,朱国华,黄力乾.智能规范执法系统的设计实现[J].电脑编程技巧与维护,2019(6):131-132.
3张荣葳.基于SimHash与神经网络的网络异常检测方法研究[J].电脑知识与技术,2019,15(6X):224-226. 被引量：1
4史雨璇.基于改进VGG-13卷积神经网络的单脉冲信号分选[J].哈尔滨商业大学学报（自然科学版）,2019,35(4):419-425. 被引量：1
5周钧锴,毕君郁.基于卷积神经网络的语音识别系统在养老软件中的实现[J].电脑知识与技术,2019,15(10):229-230. 被引量：3
6于镭,李涛涛.基于ROS的智能语音控制系统设计[J].电子测量技术,2019,42(23):35-39. 被引量：5
7谢将剑,杨俊,邢照亮,张卓,陈新.多特征融合的鸟类物种识别方法[J].应用声学,2020,39(2):199-206. 被引量：15
8张威,翟明浩,黄子龙,李巍,曹毅.SE-MCNN-CTC的中文语音识别声学模型[J].应用声学,2020,39(2):223-230. 被引量：10
9刘娟宏,胡彧,黄鹤宇.端到端的深度卷积神经网络语音识别[J].计算机应用与软件,2020,37(4):192-196. 被引量：30
10李鹏,杨元维,高贤君,杜李慧,周意,蒋梦月,张净波.基于双向循环神经网络的汉语语音识别[J].应用声学,2020,39(3):464-471. 被引量：9

二级引证文献123

1何成兵,王润泽,张霄翔.基于改进一维卷积神经网络的汽轮发电机组轴系扭振模态参数辨识[J].中国电机工程学报,2020,40(S01):195-203. 被引量：17
2薛辉.基于语音识别的智能家居控制系统的研究与设计[J].微型电脑应用,2020,36(2):149-151. 被引量：11
3庞党锋,崔世钢,张永立.装配生产线机器人螺丝锁紧工作站设计[J].国外电子测量技术,2022,41(3):114-118. 被引量：1
4缪飞,神户忠,荻野浩雄,长谷一史.电子束CT检测冠状动脉钙化指数价值的评价[J].上海医学,2000,23(5):317-319.
5林麟,贾虹.达力士搽剂治疗头部银屑病35例疗效观察[J].临床皮肤科杂志,2000,29(2):105-106. 被引量：10
6杨丽琴.基于FPGA的智能家居云网络流量控制系统设计[J].通讯世界,2019,26(3):69-70. 被引量：2
7杨波.基于RNN的桂柳方言语音识别系统研究[J].现代计算机,2019,0(31):6-9.
8杨朔.浅析融资租赁模式在城市智能交通项目中的运用[J].当代经济,2020,37(3):110-112. 被引量：2
9王志,刘陈男,雷达,任艳.基于ESP32云语音识别控制的室内垃圾分类系统设计[J].智库时代,2020,0(15):195-196. 被引量：2
10李静,陈桂芬,安宇.基于优化卷积神经网络的玉米螟虫害图像识别[J].华南农业大学学报,2020,41(3):110-116. 被引量：30

1陈爱月,徐波,申子健.基于高斯混合模型及TIMIT语音库的说话人身份识别[J].信息通信,2017,30(7):51-52. 被引量：3
2赵安科.基于模式识别与灰度共生矩阵的神经元图像分类[J].西安石油大学学报（自然科学版）,2017,32(5):107-112. 被引量：1
3刘冲冲,邹翔,周正仙.基于新阈值函数和自适应阈值的小波包语音增强研究[J].计算机应用研究,2017,34(11):3324-3328. 被引量：4
4柯健,徐志京.基于生成对抗网络的语音增强算法研究[J].信息技术与网络安全,2018,37(5):54-57. 被引量：5
5董俊,张爽,张广军.非线性动力系统混沌同步动力学问题[J].科技创新导报,2017,14(36):248-250.
6蔺想红,赵吉昌,李志强,冯丽霞.三维神经元几何形态的发育生成方法[J].计算机工程,2017,43(10):302-309. 被引量：1
7杨建斌,张卫强,刘加.深度神经网络自适应中基于身份认证向量的归一化方法[J].中国科学院大学学报（中英文）,2017,34(5):633-639. 被引量：6
8张振峰,姚令侃,夏烈,张孟帅.网络搜索模型在铁路选线方案优化辅助决策中的应用[J].铁道标准设计,2018,62(10):57-61. 被引量：1
9袁帅,秦贵和,晏婕.应用残差生成对抗网络的路况视频帧预测模型[J].西安交通大学学报,2018,52(10):146-152. 被引量：4
10张建锋.降低精甲醇中乙醇含量的工艺研究[J].科技视界,2018(25):9-11.

应用声学

2018年第6期

浏览历史

内容加载中请稍等...

基于改进卷积神经网络算法的语音识别被引量：26

参考文献4

二级参考文献34

共引文献121

同被引文献174

引证文献26

二级引证文献123

相关作者

相关机构

相关主题

浏览历史

基于改进卷积神经网络算法的语音识别 被引量：26

参考文献4

二级参考文献34

共引文献121

同被引文献174

引证文献26

二级引证文献123

相关作者

相关机构

相关主题

浏览历史

基于改进卷积神经网络算法的语音识别被引量：26