基于改进Inception网络的语音分类模型被引量：1

Speech classification model based on improved Inception network

下载PDF

导出

摘要针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,使网络模型在加深的同时避免梯度消失;其次,优化Inception模块中的卷积核大小,并利用不同尺寸卷积对原始语音的Log-Mel谱图进行深度特征提取,使模型通过自主学习的方式选择合适的卷积处理数据;同时,在深度与宽度两个维度改进模型以提高分类精度;最后,利用训练好的网络模型对语音数据进行分类预测,并通过Softmax函数得到分类结果。在清华大学汉语语音数据集THCHS-30与环境声音数据集UrbanSound8K数据集上的实验结果表明,改进的Inception网络模型在上述两个数据集上分类准确率分别为92.76%与93.34%。相较于VGG16、InceptionV2、GoogLeNet等模型,所提模型的分类准确率取得了最优,最多提高了27.30个百分点。所提模型具有更强的特征融合能力和更准确的分类结果,能够解决过拟合、梯度消失等问题。 Aiming at the complicated process of extracting audio features by traditional audio classification models,and problems of the existing neural network models such as overfitting,low classification accuracy,and vanishing gradient,a speech classification model based on improved Inception network was proposed.Firstly,in order to avoid the vanishing gradient while increasing the depth of the network,the residual skip connection idea in Residual Network(ResNet)was added into the model to improve the traditional Inception V2 model.Secondly,the size of the convolution kernel in the Inception module was optimized,and the deep features of Log-Mel spectrogram of the original speech were extracted by using different sizes of convolutions,so that the model was able to select the appropriate convolution to process the data through self-learning.At the same time,the model was improved in depth and width dimensions in order to increase the classification accuracy.Finally,the trained network model was used to classify and predict the speech data,and the classification result was obtained through the Softmax function.Experimental results on Tsinghua University Chinese speech database THCHS-30 and ambient sound dataset UrbanSound8K show that the classification accuracy of the improved Inception network model on the above two datasets is 92.76%and 93.34%respectively.Compared with models such as Visual Geometry Group(VGG16),InceptionV2 and GoogLeNe,the classification accuracy of the proposed model is the best,with a maximum increase of 27.30 percentage points.It can be seen that the proposed model has stronger feature fusion ability and more accurate classification results,can solve problems such as overfitting and vanishing gradient.

作者张秋余王煜坤 ZHANG Qiuyu;WANG Yukun(School of Computer and Communication,Lanzhou University of Technology,Lanzhou Gansu 730050,China)

机构地区兰州理工大学计算机与通信学院

出处《计算机应用》 CSCD 北大核心 2023年第3期909-915,共7页 journal of Computer Applications

基金国家自然科学基金资助项目(61862041)。

关键词语音分类卷积神经网络残差跳连对数梅尔谱图深度特征 speech classification convolutional neural network residual skip connection Log-Mel spectrogram depth feature

分类号 TN912.3 [电子电信—通信与信息系统] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1杨立东,张壮壮.改进卷积神经网络的音频场景分类研究[J].现代电子技术,2021,44(3):91-94. 被引量：5
2付炜,杨洋.基于卷积神经网络和随机森林的音频分类方法[J].计算机应用,2018,38(A02):58-62. 被引量：13
3LU Lu,YANG Yuhong,JIANG Yuzhi,AI Haojun,TU Weiping.Shallow Convolutional Neural Networks for Acoustic Scene Classification[J].Wuhan University Journal of Natural Sciences,2018,23(2):178-184. 被引量：3
4熊华煜,余勤,任品,雒瑞森.基于机器学习的音频分类[J].计算机工程与设计,2021,42(1):156-160. 被引量：1

二级参考文献17

1史东承,韩玲艳,于明会.基于HMM/SVM的音频自动分类[J].长春工业大学学报,2008,29(2):178-182. 被引量：9
2郑继明,俞佳.基于小波变换和支持向量机的音频分类[J].计算机工程与应用,2009,45(11):158-161. 被引量：5
3邱诚,王大海,任伟家,邹权.基于集成学习的音乐识别方法研究[J].计算机科学,2012,39(12):184-187. 被引量：4
4刘芳,孙小琪,王林山.S-分布时滞随机神经网络的适定性和均方指数吸引性[J].滨州学院学报,2014,30(6):7-13. 被引量：1
5孙辉,许洁萍,刘彬彬.基于多核学习支持向量机的音乐流派分类[J].计算机应用,2015,35(6):1753-1756. 被引量：8
6弓彦婷,程小雪,任洪梅,陈雁翔.声谱图显著性在音频识别中的应用[J].合肥工业大学学报（自然科学版）,2016,39(1):62-66. 被引量：4
7张翔,孙伟,余璇.基于LDA模型的音频分类方法[J].现代计算机（中旬刊）,2017(6):16-20. 被引量：1
8龚安,丁明波,窦菲.基于DBN的多特征融合音乐情感分类方法[J].计算机系统应用,2017,26(9):158-164. 被引量：5
9LU Lu,YANG Yuhong,JIANG Yuzhi,AI Haojun,TU Weiping.Shallow Convolutional Neural Networks for Acoustic Scene Classification[J].Wuhan University Journal of Natural Sciences,2018,23(2):178-184. 被引量：3
10李浩,鲍鸿,张晶.基于深度神经网络的说话人识别模型研究[J].电脑与信息技术,2018,26(5):1-3. 被引量：3

共引文献17

1王天锐,鲍骞月,秦品乐.基于梅尔倒谱系数、深层卷积和Bagging的环境音分类方法[J].计算机应用,2019,39(12):3515-3521. 被引量：3
2董睿杰,杨瑞娟,李东瑾,彭岑昕,王国超.基于深度学习的通信辐射源调制样式识别方法[J].空军预警学院学报,2019,33(6):427-431.
3包志强,赵志超,吕少卿,黄琼丹.核卷积神经网络研究与应用[J].信号处理,2019,35(12):2055-2061.
4王浩,马迅,刘安磊,贾旭超,纪书军,骆云娟,徐冬冬.机器学习算法在反窃电分析中的应用[J].河北电力技术,2020,39(1):38-41. 被引量：2
5武雪玲,杨经宇,牛瑞卿.一种结合SMOTE和卷积神经网络的滑坡易发性评价方法[J].武汉大学学报（信息科学版）,2020,45(8):1223-1232. 被引量：31
6熊华煜,余勤,任品,雒瑞森.基于机器学习的音频分类[J].计算机工程与设计,2021,42(1):156-160. 被引量：1
7杨立东,张壮壮.改进卷积神经网络的音频场景分类研究[J].现代电子技术,2021,44(3):91-94. 被引量：5
8徐济宣,马辉,冯小凯.轴承故障的多源异构数据特征级融合诊断方法[J].机械设计与制造,2021(9):150-154. 被引量：3
9乔高杰,廖闻剑.基于Squeeze-Excitation的音频场景分类研究[J].电子设计工程,2021,29(19):179-183. 被引量：1
10吕铷麟,贾镇,胡益滔,何洪源,何伟文.基于卷积神经网络的食品塑料包装袋光谱识别[J].包装工程,2022,43(3):121-128. 被引量：3

同被引文献26

1马伦,康建设,孟妍,吕雷.基于Morlet小波变换的滚动轴承早期故障特征提取研究[J].仪器仪表学报,2013,34(4):920-926. 被引量：72
2肖雄,王健翔,张勇军,郭强,宗胜悦.一种用于轴承故障诊断的二维卷积神经网络优化方法[J].中国电机工程学报,2019,39(15):4558-4567. 被引量：78
3邓佳林,邹益胜,张笑璐,蒋雨良,张利斌.一种改进CNN在轴承故障诊断中的应用[J].现代制造工程,2020(4):142-147. 被引量：22
4朱浩,宁芊,雷印杰,陈炳才,严华.基于注意力机制-Inception-CNN模型的滚动轴承故障分类[J].振动与冲击,2020,39(19):84-93. 被引量：27
5高佳豪,郭瑜,伍星.基于SANC和一维卷积神经网络的齿轮箱轴承故障诊断[J].振动与冲击,2020,39(19):204-209. 被引量：15
6杨可军,杨建旭,陈思宝,吕苗苗,李程启,杨波,郑文杰.基于深度可分离卷积及SVD输电线路缺陷检测[J].智慧电力,2020,48(10):64-69. 被引量：16
7魏健,赵红涛,刘敦楠,加鹤萍,王宣元,张浩,刘蓁.基于注意力机制的CNN-LSTM短期电力负荷预测方法[J].华北电力大学学报（自然科学版）,2021,48(1):42-47. 被引量：43
8庞俊,刘鑫,段敏霞,任海莉,侯鑫烨.基于改进卷积神经网络轴承故障诊断[J].组合机床与自动化加工技术,2021(3):66-69. 被引量：11
9常淼,沈艳霞.基于改进卷积神经网络的风电轴承故障诊断策略[J].电力系统保护与控制,2021,49(6):131-137. 被引量：19
10王杰,彭志炜,田宇,高勇.双馈风电机组故障穿越对系统暂态稳定的影响[J].电测与仪表,2021,58(5):112-118. 被引量：7

引证文献1

1李俊卿,马亚鹏,胡晓东,马志鹏,王罗,何玉灵,张承志.基于CBAM-InceptionV2-双流CNN的风电机组轴承故障诊断[J].智慧电力,2023,51(6):28-33. 被引量：3

二级引证文献3

1周顺勇,刘学,朱豪,胡琴,张航领,陆欢.基于改进YOLOv5s的脆桃缺陷检测[J].国外电子测量技术,2023,42(10):139-146.
2周建全.基于改进KNN算法的火电厂汽轮机轴承故障诊断方法研究[J].今日制造与升级,2023(11):171-174.
3喃文强,曾宪文(指导).基于OE-ACNN-BiGRU的轴承故障诊断方法[J].上海电机学院学报,2024,27(2):89-94.

1刘玉立,彭庆余.信息技术与中小学教育教学融合的理性反思[J].中国现代教育装备,2023(4):53-55.
2郝嵘.浅谈业财融合对煤炭企业财务管理的影响[J].中文科技期刊数据库（全文版）经济管理,2023(3):186-189.
3顿珠次仁.浅析将互联网资源融入初中数学教学的有效路径[J].中文科技期刊数据库（全文版）教育科学,2021(7):185-185.
4李行健,汤心溢,张瑞.用于声音分类的Deep LightGBM算法[J].声学技术,2022,41(6):871-877.
5彭凯贝,孙小明,陈皓炜,王建荣.基于卷积神经网络的火车站语音情感识别方法[J].计算机仿真,2023,40(2):177-180. 被引量：1
6黄瑞冰,李俊艳.探析中职学校专业课教师在课程思政能力提升中的路径研究[J].中国科技期刊数据库科研,2020(5):156-157.
7夏新.媒体融合创新路径探析——以南充日报融媒体建设为例[J].中国报业,2023(3):58-59.
8金朔冉,汪银峰.近百年来《五方元音》研究之检讨[J].长春师范大学学报,2023,42(3):122-125.
9郭秀慧.推动辽宁数字经济与实体经济深度融合研究[J].辽宁经济,2023(2):24-33. 被引量：3
10种道彤,雷琪安,王创创,赵轩,陈伟雄,赵全斌.工科研究生科学素养和创新能力的培养方式探讨[J].榆林学院学报,2023,33(2):96-101. 被引量：1

计算机应用

2023年第3期

浏览历史

内容加载中请稍等...

基于改进Inception网络的语音分类模型被引量：1

参考文献4

二级参考文献17

共引文献17

同被引文献26

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于改进Inception网络的语音分类模型 被引量：1

参考文献4

二级参考文献17

共引文献17

同被引文献26

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于改进Inception网络的语音分类模型被引量：1