基于卷积神经网络和随机森林的音频分类方法被引量：14

Audio classification method based on convolutional neural network and random forest

下载PDF

导出

摘要针对传统音频分类方法手动构造特征导致过程繁琐且准确率不高的问题,提出了一种基于改进的卷积神经网络和随机森林的音频分类方法。首先,将长音频数据分段;然后,对每段音频进行短时傅里叶变换,得到每段音频的频谱图;其次,将每段音频对应的频谱图输入到卷积神经网络中,自动提取音频的高层特征;最后,将提取的高层特征输入到随机森林,训练分类器。实验结果表明:与基于隐马尔可夫模型(HMM)的方法相比,该算法准确率提高了16. 2%;与基于支持向量机(SVM)的方法相比,准确率提高了12%。所提算法能够有效提高音频分类的准确率,且能自动提取音频高层特征,降低了特征构造的复杂度。 Focused on the issue that the traditional methods of audio classification based on features of manual construction are complicated and inaccurate,a new method based on improved convolutional neural network and random forest was proposed.Firstly,long audio data was divided into segments.Secondly,short-term Fourier transform was performed on each segment and corresponding frequency spectrum was obtained.Thirdly,frequency spectrum graph corresponding to each audio segment was input into the convolution neural network,and the high-level audio characteristics were automatically extracted.Finally,the extracted high-level features were used by random forest to train a classifier.The experimental results show that the accuracy of the proposed method was 16.2%higher than that of HMM(Hidden Markov Model)method,and was 12%higher than that of SVM(Support Vector Machine)method.The proposed algorithm can effectively improve the accuracy of audio classification,and automatically extract high-level features of audio which reduces the complexity of feature construction.

作者付炜杨洋 FU Wei;YANG Yang(College of Computer Science,Sichuan University,Chengdu Sichuan 610065,China;Sichuan Institute of Computer Sciences,Chengdu Sichuan 610041,China)

机构地区四川大学计算机学院四川省计算机研究院

出处《计算机应用》 CSCD 北大核心 2018年第A02期58-62,共5页 journal of Computer Applications

关键词音频分类频谱图特征提取分类器深度学习 audio classification spectrogram feature detection classifier deep learning

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1史东承,韩玲艳,于明会.基于HMM/SVM的音频自动分类[J].长春工业大学学报,2008,29(2):178-182. 被引量：9
2张翔,孙伟,余璇.基于LDA模型的音频分类方法[J].现代计算机（中旬刊）,2017(6):16-20. 被引量：1
3龚安,丁明波,窦菲.基于DBN的多特征融合音乐情感分类方法[J].计算机系统应用,2017,26(9):158-164. 被引量：6
4弓彦婷,程小雪,任洪梅,陈雁翔.声谱图显著性在音频识别中的应用[J].合肥工业大学学报（自然科学版）,2016,39(1):62-66. 被引量：4
5李虹,徐小力,吴国新,丁春艳,赵学梅.基于MFCC的语音情感特征提取研究[J].电子测量与仪器学报,2017,31(3):448-453. 被引量：29
6郑继明,俞佳.基于小波变换和支持向量机的音频分类[J].计算机工程与应用,2009,45(11):158-161. 被引量：5
7邱诚,王大海,任伟家,邹权.基于集成学习的音乐识别方法研究[J].计算机科学,2012,39(12):184-187. 被引量：4
8孙辉,许洁萍,刘彬彬.基于多核学习支持向量机的音乐流派分类[J].计算机应用,2015,35(6):1753-1756. 被引量：8
9肖晓红,张懿,刘冬生,欧阳春娟.基于隐马尔可夫模型的音乐分类[J].计算机工程与应用,2017,53(16):138-143. 被引量：13

二级参考文献95

1白亮,老松杨,陈剑赟,吴玲达.基于支持向量机的音频分类与分割[J].计算机科学,2005,32(4):87-90. 被引量：13
2白亮,老松杨,陈剑赟,吴玲达.音频自动分类中的特征分析和抽取[J].小型微型计算机系统,2005,26(11):2029-2034. 被引量：13
3耿新,周志华.Image Region Selection and Ensemble for Face Recognition[J].Journal of Computer Science & Technology,2006,21(1):116-125. 被引量：6
4林奕琳,韦岗,杨康才.语音情感识别的研究进展[J].电路与系统学报,2007,12(1):90-98. 被引量：33
5杨欣,费树岷,陈丽娟.基于小波子空间、支持向量机和模糊积分的信号多类分类算法[J].信息与控制,2007,36(2):211-217. 被引量：1
6Wold E,Blum T,Keislar D,et al.Content-based classification,search and retrieval of audio[J].IEEE Multimedia, 1996,3(3):27-36.
7Liu Z,Huang J,Wang Y,et al.Audio feature extraction and analysis for scene classification[C]//IEEE Signal Processing Society 1997 Workshop on Multimedia Signal Processing,New Jersey,USA, 1997: 23-25.
8Foote J.Content-based retrieval of music and audio[C]//Kuo C C J.Multimedia Storage and Arehiving Systems Ⅱ,Proceedings of SPIE, 1997,3229: 138-147.
9Esmaili S,Krishnan S,Raahemifar K.Content based audio classification and retrieval using joint time-frequency analysis [C]//Proceedings of the IEEE International Conference on Acoustics, Speech,and Signal Processing(ICASSP'04),2004,5:17-21.
10苏毅,吴文虎,郑方,等.基于支持向量机的语音识别研究[C].第六届全国人机语音通讯学术会议,深圳,2001.

共引文献65

1高桥,张二华.基于基音周期轨迹的连续汉语语音切分技术研究[J].计算机与数字工程,2023,51(1):163-167.
2史东承,刘玮,梁超.语音通信质量评价方法的研究[J].长春工业大学学报,2009,30(2):206-209. 被引量：1
3郑继明,俞佳.基于Mean-Shift的广播音频聚类算法[J].计算机应用,2009,29(10):2741-2743. 被引量：3
4梁超.一种基于Gammatone滤波的语音质量评价算法[J].长春工业大学学报,2010,31(4):432-436. 被引量：1
5王红丽,崔荣一.基于SVM的说话声实时检测[J].延边大学学报（自然科学版）,2010,36(3):257-262.
6李玲俐.数据挖掘中分类算法综述[J].重庆师范大学学报（自然科学版）,2011,28(4):44-47. 被引量：45
7王晓峰,蒋先涛.基于APR-SVM的音频分类方法[J].计算机技术与发展,2012,22(10):59-61.
8林宇衡.音响技术在家用设备中的应用[J].大众科技,2013,15(2):18-19.
9袁婷婷,曹萌萌.以语音识别为基础的音乐检索系统[J].科技通报,2015,31(7):156-160. 被引量：1
10陈戈珩,胡明辉,吴天华.基于支持向量机和HMM的音频信号分类算法[J].长春工业大学学报,2015,36(4):369-373. 被引量：5

同被引文献106

1白亮,老松杨,陈剑赟,吴玲达.基于支持向量机的音频分类与分割[J].计算机科学,2005,32(4):87-90. 被引量：13
2韩冰,高新波,姬红兵.一种基于选择性集成SVM的新闻音频自动分类方法[J].模式识别与人工智能,2006,19(5):634-639. 被引量：5
3张朝阳,赵涛,张建波.基于支持向量机的企业产品创新能力评价[J].西安电子科技大学学报（社会科学版）,2007,17(5):50-54. 被引量：3
4匡琳.支持向量机在文本分类中的应用的概述[J].科技资讯,2008,6(36):218-219. 被引量：2
5郑继明,俞佳.基于小波变换和支持向量机的音频分类[J].计算机工程与应用,2009,45(11):158-161. 被引量：5
6郑继明,魏国华,吴渝.有效的基于内容的音频特征提取方法[J].计算机工程与应用,2009,45(12):131-133. 被引量：6
7张弦,王宏力.进化小波消噪方法及其在滚动轴承故障诊断中的应用[J].机械工程学报,2010,46(15):76-81. 被引量：26
8王欢良,韩纪庆,郑贵滨.基于K-L散度模型聚类的快速说话人辨识方法[J].模式识别与人工智能,2010,23(6):856-861. 被引量：5
9芮瑞,鲍长春.噪声环境下的窄带音频信号快速分类方法[J].计算机工程与应用,2011,47(16):22-25. 被引量：1
10刘军伟,余小清,万旺根,张静,杨薇.基于改进型BP神经网络的音频多分类[J].上海大学学报（自然科学版）,2012,18(2):127-131. 被引量：4

引证文献14

1王天锐,鲍骞月,秦品乐.基于梅尔倒谱系数、深层卷积和Bagging的环境音分类方法[J].计算机应用,2019,39(12):3515-3521. 被引量：4
2董睿杰,杨瑞娟,李东瑾,彭岑昕,王国超.基于深度学习的通信辐射源调制样式识别方法[J].空军预警学院学报,2019,33(6):427-431.
3包志强,赵志超,吕少卿,黄琼丹.核卷积神经网络研究与应用[J].信号处理,2019,35(12):2055-2061.
4王浩,马迅,刘安磊,贾旭超,纪书军,骆云娟,徐冬冬.机器学习算法在反窃电分析中的应用[J].河北电力技术,2020,39(1):38-41. 被引量：2
5武雪玲,杨经宇,牛瑞卿.一种结合SMOTE和卷积神经网络的滑坡易发性评价方法[J].武汉大学学报（信息科学版）,2020,45(8):1223-1232. 被引量：38
6熊华煜,余勤,任品,雒瑞森.基于机器学习的音频分类[J].计算机工程与设计,2021,42(1):156-160. 被引量：1
7徐济宣,马辉,冯小凯.轴承故障的多源异构数据特征级融合诊断方法[J].机械设计与制造,2021(9):150-154. 被引量：5
8吕铷麟,贾镇,胡益滔,何洪源,何伟文.基于卷积神经网络的食品塑料包装袋光谱识别[J].包装工程,2022,43(3):121-128. 被引量：4
9赵一诺,张铁峰.一种基于改进PSO优化随机森林的非侵入式负荷识别算法[J].信息与电脑,2022,34(6):102-104. 被引量：1
10钱立恩,马国峰,庞博.基于深度学习的敏感音频分类[J].通信对抗,2021,40(1):6-9.

二级引证文献59

1邵良杉,庞志晴.基于MIV-IPFA-ELM的矿井突水水源识别模型[J].辽宁工程技术大学学报（自然科学版）,2023(4):404-411. 被引量：2
2沈鑫,惠晓雨,潘楠,钱俊兵,郭晓珏.DBN深度学习算法在反窃电系统中的应用价值[J].电子技术与软件工程,2020(24):223-224.
3苏美臣,魏晓燕,周峻松,汪祎勤.金沙江流域滑坡易发性空间预报分析[J].测绘通报,2021(4):13-16. 被引量：4
4解明礼,巨能攀,赵建军,范强,何朝阳.区域地质灾害易发性分级方法对比分析研究[J].武汉大学学报（信息科学版）,2021,46(7):1003-1014. 被引量：40
5李冠宇,李鹏,郭敏,苏生瑞,董永超.基于聚类分析法的地质灾害风险评价——以韩城市为例[J].科学技术与工程,2021,21(25):10629-10638. 被引量：26
6冯桂玲,丁忠安,杨悦,张登灵,叶坤荣.大数据分析助力反窃电工作有效提升[J].电力系统装备,2021(17):114-115. 被引量：2
7沈学利,杨莹,秦鑫宇,俞辉.基于残差神经网络的风机叶片结冰故障诊断[J].噪声与振动控制,2022,42(1):79-87. 被引量：11
8段在鹏,张灿,谢汉青,黄月铃,李帆.面向小样本安全生产数据的事故集成预警模型[J].安全与环境学报,2022,22(1):51-57. 被引量：4
9赵铮,陈建华,甘先霞,谢华伟.基于信息量法和支持向量机的芦山县滑坡危险性评价[J].物探化探计算技术,2022,44(1):96-101. 被引量：5
10黄发明,胡松雁,闫学涯,李明,王俊宇,李文彬,郭子正,范文彦.基于机器学习的滑坡易发性预测建模及其主控因子识别[J].地质科技通报,2022,41(2):79-90. 被引量：35

1杜伟星.一种优化的实时网络安全风险量化方法[J].产业与科技论坛,2018,17(23):76-77.
2黄记洲.构造矩阵法在不等式证明中的应用[J].清远职业技术学院学报,2018,11(6):41-44.
3任喜伟,何立风,姚斌,宋安玲.用于油水界面测量的中值预处理聚类算法[J].电子测量与仪器学报,2018,32(10):161-168. 被引量：2
4卢正飞,张晓宇,黄福全,朱可凡,刘子俊,文明浩.基于计算电流相量的架空线路断线故障识别方法[J].浙江电力,2018,37(12):52-56. 被引量：4
5郭渊博,刘春辉,孔菁,王一丰.内部威胁检测中用户行为模式画像方法研究[J].通信学报,2018,39(12):141-150. 被引量：14
6张耀中,姚康佳,郭操.基于HMM和信息熵的分布式传感器协同任务规划研究[J].电光与控制,2018,25(12):5-10. 被引量：4
7姚琼,徐翔,邹昆.联合空谱特征的多视图主动学习的高光谱图像分类[J].遥感信息,2018,33(6):117-123. 被引量：3
8燕续峰,翟少鹏,何光宇.基于时间概率分布与电器组合超状态的非侵入式负荷分解[J].电力系统自动化,2018,42(24):53-58. 被引量：14
9秦记东,李龙,孙涛,彭华峰.卫星雷达回波信号对在轨航天器目标运动探测[J].计算机仿真,2018,35(12):41-45.

计算机应用

2018年第A02期

浏览历史

内容加载中请稍等...

基于卷积神经网络和随机森林的音频分类方法被引量：14

参考文献9

二级参考文献95

共引文献65

同被引文献106

引证文献14

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

基于卷积神经网络和随机森林的音频分类方法 被引量：14

参考文献9

二级参考文献95

共引文献65

同被引文献106

引证文献14

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

基于卷积神经网络和随机森林的音频分类方法被引量：14