基于改进卷积神经网络与听觉谱图的乐器识别被引量：3

Musical Instrument Identification Based on Improved Convolutional Neural Network and Auditory Spectrum

下载PDF

导出

摘要针对传统乐器识别需要音乐的低级声频特征及识别性能依赖特征选取的问题,利用接近人耳感知且低冗余度的听觉谱图作为5层深度卷积网络的输入,逐层抽象出音色的高级时频表示用于乐器识别。为有效捕获听觉谱图中的时频信息,将卷积网络第1层矩形卷积核改进为频率、时间轴上的多尺度卷积核。在IOWA乐器库上进行的仿真实验结果表明,该神经网能获得96. 95%的识别准确率,优于使用单一卷积核的神经网,在相同的网络结构下,基于听觉谱图得到的识别准确率较基于梅尔频率倒谱系数(MFCC)、语谱图分别高出9. 11%、3. 54%,且对打击乐器与同族乐器的错分率均较小。 Aiming at the problem that traditional musical instrument identification depends on feature selection and elementary acoustical feature,a 5-layer Convolutional Neural Network(CNN)extracting high-level time-frequency information of timbre layer by layer is proposed,whose input is auditory spectrum containing harmonic information and close to human perception.The mono convolution kernel of first layer is improved by multi-scale kernel of time and frequency axises to effectively extract time-frequency information from auditory spectrum.Experimental results on IOWA database show that using the improved multi-scale convolution kernel can achieve 96.95%recognition accuracy,which is better than using a mono convolution kernel.Under the same network structure,the recognition accuracy obtained by using the auditory spectrum is 9.11%and 3.54%higher than the Mel-Frequency Cepstral Coefficient(MFCC)and spectrogram,respectively,and the misclassification rate of percussion instruments and kindred instruments are 2%and 3.1%,which are less than MFCC and spectrogram.

作者王飞于凤芹 WANG Fei;YU Fengqin(School of Internet of Things Engineering,Jiangnan University,Wuxi,Jiangsu 214100,China)

机构地区江南大学物联网工程学院

出处《计算机工程》 CAS CSCD 北大核心 2019年第1期199-205,共7页 Computer Engineering

基金国家自然科学基金(61703185)

关键词听觉谱图卷积神经网络卷积核时频特征乐器识别 auditory spectrum Convolutional Neural Network(CNN) convolution kernel time-frequency feature musical instrument identification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1李乐,王玉英,李小霞.一种改进的小波能量熵语音端点检测算法[J].计算机工程,2017,34(5):268-274. 被引量：9

二级参考文献11

1江官星,王建英.一种改进的检测语音端点的方法[J].微计算机信息,2006,22(05S):138-139. 被引量：27
2李凯,徐强樯,左万利.基于分形特征变化的语音端点检测技术研究[J].小型微型计算机系统,2007,28(8):1523-1526. 被引量：4
3韩韬,王玲,刘辉.一种应用于语音识别的端点检测改进方法[J].微电子学与计算机,2008,25(5):146-149. 被引量：9
4白顺先.基于信息熵的语音端点检测方法的研究[J].微计算机信息,2009,25(33):196-197. 被引量：3
5张亚歌,张太镒,夏川.噪声评估在端点检测中的应用[J].计算机技术与发展,2010,20(9):177-180. 被引量：3
6邱文武,蒋建中,郭军利.基于小波能量熵的语音端点检测算法[J].计算机应用与软件,2011,28(2):227-228. 被引量：5
7尹晨晓,郭英,张碧锋,刘霞.基于Bark小波的语音端点检测算法[J].计算机工程,2011,37(12):276-278. 被引量：5
8王帛,冯新喜,余侃民,朱必浩.一种基于倒谱均值减的语音端点检测改进方法[J].电光与控制,2011,18(7):77-80. 被引量：2
9王辉,李生华.基于EMD的语音特征信息提取[J].计算机科学,2011,38(B10):434-436. 被引量：5
10张婷,何凌,黄华,刘肖珩.基于小波及能量熵的带噪语音端点检测算法[J].计算机工程与设计,2013,34(4):1331-1335. 被引量：3

共引文献8

1卢洵波,李昕.特征融合的VAD方法在语音识别系统中的应用[J].电子测量技术,2020(7):129-136. 被引量：2
2梁冠豪,罗庆生.应用小波能量熵的人体活动时序自动标记方法[J].北京理工大学学报,2019,39(2):147-154. 被引量：1
3李娟,张雪英,黄丽霞,孙慧霞,陈建玲.基于Hilbert-Huang变换的语音合成基音标注搜索新算法[J].现代电子技术,2018,41(12):153-156. 被引量：4
4王瑶,曾庆宁,龙超,谢先明,毛维.低信噪比环境下语音端点检测改进方法[J].声学技术,2018,37(5):457-467. 被引量：14
5朱春利,李昕.基于多特征融合与动态阈值的语音端点检测方法[J].计算机工程,2019,45(2):250-257. 被引量：8
6滕晓宇,桂小林,戴慧珺,李宗育,王志通,李发兵.乱序局部敏感哈希音频零水印方案[J].西安交通大学学报,2019,53(9):110-119. 被引量：1
7王伟,李兴华,陈作彬,范磊,孙飞.基于小波包变换的爆破振动信号能量熵特征分析[J].爆破器材,2019,48(6):19-23. 被引量：12
8沈钰瑞,李文钧,金伟杰,岳克强.低信噪比环境下子带能熵比端点检测算法[J].计算技术与自动化,2020,39(2):109-113. 被引量：6

同被引文献15

1秦丹,马光志.基于挖掘技术的音乐风格识别系统[J].计算机工程与设计,2005,26(11):3094-3096. 被引量：10
2彭琼,支琤.计算机自动识别音乐情感的关键技术研究[J].电声技术,2008,32(4):35-38. 被引量：10
3李霞,刘征,刘遵仁,邵峰晶.关于音乐可视化的研究——声音格式到音乐格式的转换[J].青岛大学学报（自然科学版）,1997,10(4):66-70. 被引量：2
4刘学艺,李平,郜传厚.极限学习机的快速留一交叉验证算法[J].上海交通大学学报,2011,45(8):1140-1145. 被引量：75
5陈晓青,陆慧娟,郑文斌,严珂.自适应混沌粒子群算法对极限学习机参数的优化[J].计算机应用,2016,36(11):3123-3126. 被引量：22
6王蒙蒙,关欣,李锵.基于鲁棒音阶特征和测度学习SVM的音乐和弦识别[J].信号处理,2017,33(7):943-952. 被引量：13
7马英,张凌飞,冯桂莲.基于“音乐噪声”的修正谱减法算法分析[J].青岛大学学报（自然科学版）,2017,30(3):25-28. 被引量：3
8殷豪,董朕,孟安波.基于结合混沌纵横交叉的粒子群算法优化极限学习机的短期负荷预测[J].计算机应用研究,2018,35(7):2088-2091. 被引量：26
9董泽,马宁,孟磊.基于差分量子粒子群算法的锅炉NO_x排放模型优化[J].动力工程学报,2019,39(3):191-197. 被引量：15
10高铭,孙仁诚.基于改进MFCC的说话人特征参数提取算法[J].青岛大学学报（自然科学版）,2019,32(1):61-65. 被引量：11

引证文献3

1石浩东,谢伟,徐天保,祝享庭,李琪.民族乐器识别方法研究与实现[J].山西电子技术,2020(4):80-81. 被引量：4
2赵庆磊,邵峰晶,孙仁诚,隋毅.乐器识别中频谱特征与聚合策略性能评估[J].青岛大学学报（自然科学版）,2021,34(2):38-44. 被引量：4
3王力博.基于粒子群算法优化极限学习机的钢琴曲类型识别[J].现代科学仪器,2022,39(2):198-201.

二级引证文献7

1谢尔娜·牙克甫.民族乐器艾捷克风格特征及作品分析[J].产业与科技论坛,2021,20(12):103-104.
2许丞.基于卷积神经网络的钢琴音频信号识别算法[J].自动化与仪器仪表,2021(12):12-15. 被引量：2
3巩霞,姚泽炜,魏浩然.基于人工智能技术的中国民族乐器识别研究[J].山东理工大学学报（社会科学版）,2022,38(1):108-112. 被引量：3
4侯清睿,安冬.基于人工神经网络的音符识别研究[J].自动化与仪器仪表,2022(1):53-58. 被引量：1
5李峰,安冉.基于pso-bp神经网络的中国民族乐器识别研究[J].山西师范大学学报（自然科学版）,2022,36(2):112-119. 被引量：2
6裴文斌,王海龙,柳林,裴冬梅.音乐信息检索下的乐器识别综述[J].计算机工程与应用,2023,59(2):34-47. 被引量：1
7汪洋.不同乐器结构音色的识别研究[J].景德镇学院学报,2023,38(3):29-34. 被引量：1

1汪贵平,盛广峰,黄鹤,王会峰,王萍.基于改进LeNet-5网络的交通标志识别方法[J].科学技术与工程,2018,18(34):78-84. 被引量：12
2王飞,于凤芹.结合多尺度时频调制与多线性主成分分析的乐器识别[J].计算机应用,2018,38(3):891-894. 被引量：2
3文元美,罗志鹏,凌永权.基于高低维度特征融合的双通道卷积神经网络[J].计算机与现代化,2018(12):101-105. 被引量：1
4吴昀璞,金炜东,黄颖坤.基于多域融合CNN的高速列车转向架故障检测[J].系统仿真学报,2018,30(11):4492-4497. 被引量：12
5李松江,周舟,李岩芳,王艳春,宋小龙,王鹏.基于IGA-IBP算法的高速公路逃费预测[J].计算机工程与设计,2018,39(12):3840-3845. 被引量：8
6谢湘,张立强,王晶.残差网络在婴幼儿哭声识别中的应用[J].电子与信息学报,2019,41(1):233-239. 被引量：7
7艾虎,李菲.基于改进的卷积神经网络的贵州方言辨识[J].现代信息科技,2019,3(1):5-10.
8张艳博,李昆,刘祥鑫,田宝柱,姚旭龙,梁鹏,孙林.传感器类型对岩石破裂声发射时频特征影响实验研究[J].实验力学,2018,33(6):902-910. 被引量：4
9朱绍程,刘利民.低空飞行目标声音优化识别研究[J].计算机仿真,2018,35(11):12-16. 被引量：4
10钱江,张桂荣,姚江,季建中,何平,顾宋华.基于卷积神经网络的船载货种识别[J].计算机应用,2018,38(A02):47-50. 被引量：1

计算机工程

2019年第1期

浏览历史

内容加载中请稍等...

基于改进卷积神经网络与听觉谱图的乐器识别被引量：3

参考文献1

二级参考文献11

共引文献8

同被引文献15

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于改进卷积神经网络与听觉谱图的乐器识别 被引量：3

参考文献1

二级参考文献11

共引文献8

同被引文献15

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于改进卷积神经网络与听觉谱图的乐器识别被引量：3