基于特征融合的声乐分类研究被引量：7

Vocal Music Classification Based on Multi-category Feature Fusion

导出

摘要【目的】针对音乐信息检索中的声乐分类问题,将音频的统计特征和图像特征进行融合,探索效果更好的分类模型。【方法】抽取音频信息的统计特征以及梅尔频谱图图像特征。将机器学习方法用于统计特征,并设计了一种多层卷积神经网络架构用于图像特征,将声乐分类问题转化为图像分类问题,最后提出一种融合统计特征和图像特征的深度学习方法。【结果】在声乐分类任务上,基于图像特征的深度学习方法比机器学习方法 F1值提高约6个百分点,基于特征融合的深度学习模型F1值可达到69%以上,超过基于图像特征的深度学习模型3.4个百分点。【局限】实验数据量较小,未能完全发挥深度学习方法的优势。【结论】梅尔频谱图采样参数的设置对深度模型实验结果有较大影响,本文提出的特征融合方法可以有效提升声乐分类性能。 [Objective] This paper creates a new model combining the statistical characteristics of audio and image properties, aiming to address the classification issues facing music retrieval. [Methods] First, we extracted the statistical characteristics of audios and the Mel spectrogram characteristics of images with the help of machine learning methods. Then, we transformed the audio classification tasks to image categorization. Finally, we constructed a deep learning method combining audio statistics and Mel spectrogram image features. [Results] In vocal music classification, the F1 value of the new method based on image features was about 6 percentage points higher than that of the classic machine learning methods. The F1 value of the deep learning model based on feature fusion was more than 69%, which is 3.4 percentage points higher than that of the model with image features. [Limitations] The size of experimental data is small, and the advantages of deep learning methods were not fully utilized. [Conclusions] The setting of the sampling parameters of the Mel spectrogram influences the experimental results. The new feature fusion method can effectively improve the performance of vocal music classification.

作者孟镇王昊虞为邓三鸿张宝隆 Meng Zhen;Wang Hao;Yu Wei;Deng Sanhong;Zhang Baolong(School of Information Management,Nanjing University,Nanjing 210023,China;Jiangsu Key Laboratory of Data Engineering and Knowledge Service,Nanjing 210023,China)

机构地区南京大学信息管理学院江苏省数据工程与知识服务重点实验室

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第5期59-70,共12页 Data Analysis and Knowledge Discovery

基金国家社会科学基金重大招标项目(项目编号:17ZDA291)的研究成果之一。

关键词声乐分类卷积神经网络特征融合音乐信息检索梅尔频谱图 Vocal Music Classification CNN Feature Fusion Music Information Retrieval Mel-Frequency Cepstrum

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王昊,邓三鸿,朱立平,王鑫芸,范涛.大数据环境下政务数据的情报价值及其利用研究——以海关报关商品归类风险规避为例[J].科技情报研究,2020,2(4):74-89. 被引量：11
2肖云鹏,叶卫平.基于特征参数归一化的鲁棒语音识别方法综述[J].中文信息学报,2010,24(5):106-116. 被引量：9
3刘晓明,覃胜,刘宗行,江泽佳.语音端点检测的仿真研究[J].系统仿真学报,2005,17(8):1974-1976. 被引量：21
4陈功,张雄伟.一种基于灰关联分析的语音/音乐分类方法[J].声学技术,2007,26(2):262-267. 被引量：8
5周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1651

二级参考文献87

1关欣,何友,衣晓.基于灰关联分析的雷达辐射源识别方法研究[J].系统仿真学报,2004,16(11):2601-2603. 被引量：33
2陈东明,常桂然.基于分段编码自动生成产品结构树的研究[J].计算机集成制造系统,2005,11(7):1014-1018. 被引量：5
3李国锋.低信噪比下的语音增强处理[J].应用声学,1995,14(5):13-16. 被引量：2
4Y.F.Gong.Speech recognition in noisy environments:A survey[J].Speech Communication,1995,16:261-291.
5S.Boll.Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1979,27(2):113-120.In:Proceedings of IEEE International Conference on Acoustics,Acoustics and Signal Processing.
6K.Paliwal and A.Basu.A speech enhancement method based on Kalman filtering[C]//Proceedings of 1987 IEEE International Conference on Acoustics,Acoustics and Signal Processing.Dallas,Texas,USA,1987:177-180.
7Y.Ephraim and H.L.Van Trees.A signal subspace approach for speech enhancement[C]//Proceedings of 1993 IEEE International Conference on Acoustics,Acoustics and Signal Processing.Minneapolis,MN,USA,1993:355-358.
8H.Lev-Ari,Y.Ephraim.Extension of the signal subspace speech enhancement approach to colored noise[J].IEEE Signal Processing Letters,2003,10(4):104-106.
9S.Furui.Cepstral analysis technique for automatic speaker verification[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1981,29(2):254-272.
10O.Viikki and K.Laurila.Cepstral Domain Segmental Feature Vector Normalization for Noise Robust Speech Recognition[J].Speech Communication,1998,25:133-147.

共引文献1695

1陆文超,崔海朋.一种基于融合自编码与神经网络的协同过滤算法[J].中国水运（下半月）,2022,22(3):18-20.
2杜佳峰,王景松,杨宝军,薛勇新,郑春华.基于卷积神经网络的船舶水尺字符识别方法研究[J].中国水运（下半月）,2020(3):1-3. 被引量：1
3陆天和,刘莉,贺云涛,杨盾.多无人机航迹规划算法及关键技术[J].战术导弹技术,2020(1):85-90. 被引量：7
4林桢哲,王桂棠,陈建强,符秦沈.基于残差网络深度学习的肺部CT图像结节良恶性分类模型[J].仪器仪表学报,2020,41(3):248-256. 被引量：21
5陈仁祥,张勇,杨黎霞,陈才,徐向阳.基于整周期数据和卷积神经网络的谐波减速器健康状态评估[J].仪器仪表学报,2020,41(2):245-252. 被引量：20
6鲍光海,林善银,徐林森.基于改进型卷积网络的汽车高度调节器缺陷检测方法[J].仪器仪表学报,2020,41(2):157-165. 被引量：12
7谭宇辰,蔡晶晶,倪辰.基于深度学习的Web攻击检测技术研究[J].信息网络安全,2020(S02):122-126.
8任杰,李钢,赵燕姣,姚琼辛,田培辰.基于改进Faster RCNN的城市道路货车检测[J].计算机系统应用,2022,31(12):316-321. 被引量：1
9胡伟,文武,魏敏.改进U-Net的高分辨率遥感图像轻量化分割[J].计算机系统应用,2022,31(12):135-146. 被引量：2
10周楠,艾剑良.基于HMM和RNN的无人机语音控制方案与仿真研究[J].系统仿真学报,2020,32(3):464-471. 被引量：12

同被引文献67

1李响,李国正,邓明君,万平,严利鑫.基于语音频谱图像特征的人体疲劳检测方法[J].仪器仪表学报,2021,42(2):123-132. 被引量：13
2张艳博,任瑞峰,梁鹏,姚旭龙,王帅.基于热成像的埋地热力管道缺陷检测试验研究[J].仪器仪表学报,2020(6):161-170. 被引量：17
3纪正飚,王吉林,赵力.基于模糊K近邻的语音情感识别[J].微电子学与计算机,2015,32(3):59-62. 被引量：10
4肖水芳,于萍,李五一,张亚梅,徐文,何膺远.论嗓音医学发展[J].中华耳鼻咽喉头颈外科杂志,2007,42(8):563-580. 被引量：7
5王修信,徐国钰,梁冬冬,潘永华,卢小春.艺术嗓音歌声客观评价初探[J].听力学及言语疾病杂志,2007,15(5):372-374. 被引量：9
6林伟国,陈萍,孙剑.具有工况适应性的管道泄漏信号特征提取[J].化工学报,2008,59(7):1715-1720. 被引量：13
7罗兰娥,许建明.歌唱艺术嗓音中声学参数的应用[J].山西电子技术,2009(2):32-33. 被引量：4
8张紫琼,叶强,李一军.互联网商品评论情感分析研究综述[J].管理科学学报,2010,13(6):84-96. 被引量：152
9陆捷荣,詹永照,毛启容.基于D-S证据的多语段融合语音情感识别[J].计算机工程,2010,36(18):205-207. 被引量：3
10潘碧霞,徐长航,曹国梁,史焕地,陈国明.管道泄漏声发射信号的传播特性[J].油气储运,2013,32(10):1141-1145. 被引量：12

引证文献7

1王昊,刘渊晨,赵萌,裘靖文.基于多模态特征的音乐情感多任务识别研究[J].现代情报,2022,42(11):61-75. 被引量：1
2刘杰,朱正伟.基于稀疏轻量卷积神经网络的管道泄漏检测[J].电子测量技术,2022,45(19):131-135. 被引量：2
3李延华,曹辉,张若雨,陈文韬,曹娜,范翔.一种新的艺术嗓音客观评价方法[J].电子设计工程,2023,31(2):156-159.
4张婷.基于节拍识别的音乐表演机器人构建研究[J].自动化与仪器仪表,2022(12):211-215.
5张如琳,王海龙,柳林,裴冬梅.音乐自动标注分类方法研究综述[J].计算机科学与探索,2023,17(6):1225-1248. 被引量：1
6丁旺盼,王海涛,黄清龙.一种基于金字塔双重注意力神经网络的管道泄漏检测方法[J].声学与电子工程,2024(2):23-28.
7吕钰菁,陈磊.考虑消费者体验型产品特征偏好的评论排序研究[J].管理科学与工程,2024,13(1):1-12.

二级引证文献4

1郎巨林,郑晟.基于CNN-RNN集成的隧道事故异常声音识别[J].电子测量技术,2023,46(20):164-169.
2高家军,张旭,陈艳,郭颖,于新文,罗丽,刘昱坤,郭安琪,杨蔡芸.一种轻量化的海南长臂猿声音识别模型[J].陆地生态系统与保护学报,2022,2(6):51-60.
3程敏.基于多模态深度学习的音乐情感鉴赏分类方法[J].安阳工学院学报,2023,22(5):113-117.
4王方圆,张国华.融合协同过滤的XGBoost在音乐推送上的应用研究[J].科技创新与应用,2024,14(11):49-52.

1王振合.我在北科瑞声体悟“深圳速度”[J].商周刊,2021(10):151-152.
2彭艳.广播节目制作中的数字音频处理研究[J].卫星电视与宽带多媒体,2021(8):28-29.

数据分析与知识发现

2021年第5期

浏览历史

内容加载中请稍等...

基于特征融合的声乐分类研究被引量：7

参考文献5

二级参考文献87

共引文献1695

同被引文献67

引证文献7

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于特征融合的声乐分类研究 被引量：7

参考文献5

二级参考文献87

共引文献1695

同被引文献67

引证文献7

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于特征融合的声乐分类研究被引量：7