结合区分性训练深度神经网络的歌声与伴奏分离方法被引量：1

A separation method of singing and accompaniment combining discriminative training deep neural network

下载PDF

导出

摘要针对音乐信号中的歌声与伴奏相互关联难以分离的问题,提出了一种区分性训练深度神经网络(Deep Neural Network,DNN)的音乐分离方法。首先,在DNN模型的基础上同时考虑歌声与伴奏间的重建误差和区分性信息,提出了一种改进的目标函数进行区分性训练;其次,在DNN模型上额外添加一层,引入时频掩蔽对估计出的歌声伴奏进行联合优化,相应的时域信号由傅里叶逆变换获得;最后,验证不同参数设置对分离性能的影响,并与现有的音乐分离方法进行对比.实验结果表明,改进的目标函数和时频掩蔽的引入明显提高了DNN的分离性能,且与现有的音乐分离方法相比分离性能最高提高了4 dB从而证实所提方法是一种有效的音乐分离方法。 For the difficulty of separation between singing and accompaniment in the musical signals, an improved music separation method of based on discriminative training Depth Neural Network(DNN) was proposed. Firstly,based on the DNN model, considering the reconstruction errors and discrimination information between singing and accompaniment, an improved objective function was presented to discriminate the training;Then, an additional layer was added to DNN model, introducing the time-frequency masking to optimize the estimated accompaniment of the song, and the corresponding time-domain signal was obtained by inverse Fourier transform;Finally, the influence of different parameters on the separation performance was verified, and compared it with the existing music separation methods. The experimental results showed that the improved objective function and the introduction of time-frequency masking significantly improved the separation performance of the DNN, and the separation performance was improved about 4 dB compared with other existing music separation methods, thus verifying that the proposed method was an effective music separation algorithm.

作者张天骐熊梅张婷杨强 ZHANG Tianqi;XIONG Mei;ZHANG Ting;YANG Qiang(Chongqing Key Laboratory of Signal and Information Processing^ Chongqing University of Posts and Telecommunications Chongqing 400065)

机构地区重庆邮电大学信号与信息处理重庆市重点实验室

出处《声学学报》 EI CSCD 北大核心 2019年第3期393-400,共8页 Acta Acustica

基金国家自然科学基金项目(61671095 61371164 61702065 61701067 61771085) 信号与信息处理重庆市市级重点实验室建设项目(CSTC2009CA2003) 重庆市研究生科研创新项目(CYS17219) 重庆市教育委员会科研项目(KJ130524 KJ1600427 KJ1600429)资助

关键词深度神经网络分离性能区分性歌声训练音乐信号傅里叶逆变换目标函数

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献5

1尹辉,谢湘,匡镜明.基于听觉模型与自适应分数阶Fourier变换的声学特征在语音识别中的应用[J].声学学报,2012,37(1):97-103. 被引量：14
2路成,田猛,周健,王华彬,陶亮.L_(1/2)稀疏约束卷积非负矩阵分解的单通道语音增强方法[J].声学学报,2017,42(3):377-384. 被引量：10
3张天骐,徐昕,吴旺军,刘瑜.多反复结构模型的精确音乐分离方法[J].声学学报,2016,41(1):135-142. 被引量：11
4肖业鸣,张晴晴,宋黎明,潘接林,颜永红.深度神经网络技术在汉语语音识别声学建模中的优化策略[J].重庆邮电大学学报（自然科学版）,2014,26(3):373-379. 被引量：5
5韩伟,张雄伟,闵刚,张启业.基于感知掩蔽深度神经网络的单通道语音增强方法[J].自动化学报,2017,43(2):248-258. 被引量：18

二级参考文献24

1TAO Ran,DENG Bing,WANG Yue.Research progress of the fractional Fourier transform in signal processing[J].Science in China(Series F),2006,49(1):1-25. 被引量：99
2邹霞,陈亮,张雄伟.基于Gamma语音模型的语音增强算法[J].通信学报,2006,27(10):118-123. 被引量：11
3Kim Get al. An algorithm that improves speech intelligi- bility in noise for normal-hearing listeners. J Acoust. Soc. Am., 2009; 126:1486--1494.
4Wang D L, Brown G J. Separation of speech from interfer ing sounds based on oscillatory correlation. IEEE Trans Neural Netw., 1999; 10(3): 684--697.
5Ozerov A, F6votte C. Multichannel nonnegative matrix fac- torization in convolutive mixtures for audio source separa- tion. IEEE Transactions on Audio, Speech, and Language Processing, 2010; 18(3): 550--563.
6Ozerov A, Vincent E, Bimbot F. A general flexible frame: work for the handling of prior information in audio source separation. IEEE Transactions on Audio, Speech, and Language Processing, 2012; 20(4): 1118--1133.
7Antoine Liutkus, Zafer Rafii, Roland Badeau, Bryan Pardo, Gael Richard. Adaptive filtering for music/voice separation exploiting the repeating musical structure. In: IEEE International Conference on Acoustics, Speech and Signal Processing, Kyoto, Japan, 2012:53--56.
8Zafer Rafii, Bryan Pardo. Online REPET-SIM for real- time speech enhancement. 38th International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, Canada, 2013:848--852.
9Rafii Z, Pardo B. Repeating pattern extraction technique (REPET): A simple method for music/voice separation. IEEE Transactions on Audio, Speech, and Language Pro- cessing, 2013; 21(1): 73--84.
10Foote J, Uchihashi S. The beat spectrum: a new approach to rhythm analysis. IEEE International Conference oil Multimedia & Expo, Tokyo, Japan, 2001:1088--1091.

共引文献49

1李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：13
2刘扬,张苗辉,郑逢斌.听觉选择性注意的认知神经机制与显著性计算模型[J].计算机科学,2013,40(6):283-287. 被引量：6
3鲜晓东,樊宇星.基于Fisher比的梅尔倒谱系数混合特征提取方法[J].计算机应用,2014,34(2):558-561. 被引量：16
4翟慧强,张金萍,王丹,赵艳春.听觉模型综述[J].机械工程师,2014(3):19-22. 被引量：4
5方一新.改进BP神经网络的EMG手指运动识别[J].激光杂志,2014,35(9):92-95. 被引量：6
6顾玲玲,张晓俊,黄程韦,吴迪,周孝进,陶智.息肉与麻痹喉声源分类中非线性动力学发声系统模型研究[J].声学学报,2015,40(6):878-885. 被引量：4
7ZHANG Tianqi,XU Xin,WU Wangjun,LIU Yu.Music/voice separation based on the multi-repeating structure of Mel cepstrum coefficient[J].Chinese Journal of Acoustics,2015,34(4):424-435. 被引量：4
8GU Lingling,ZHANG Xiaojun,HUANG Chengwei,WU Di,ZHOU Xiaojin,TAO Zhi.Polyps and paralysis phonation classification with nonlinear dynamics model[J].Chinese Journal of Acoustics,2016,35(1):84-96. 被引量：2
9张天骐,徐昕,吴旺军,刘瑜.多反复结构模型的精确音乐分离方法[J].声学学报,2016,41(1):135-142. 被引量：11
10陈洁.背景音乐自动分离系统设计与实现[J].现代电子技术,2017,40(5):134-138. 被引量：2

同被引文献14

1张一彬,周杰,边肇祺,郭军.基于内容的音频与音乐分析综述[J].计算机学报,2007,30(5):712-728. 被引量：18
2石宇加.电子音乐创作中效果器应用研究——以Digital performer为例[J].音乐时空,2011(10):56-58. 被引量：2
3李丽娟,叶茂,赵欣.基于高斯混合模型流行音乐中歌唱部分的智能检测[J].小型微型计算机系统,2009,30(5):1017-1020. 被引量：2
4陈芳,李伟,李晓强.基于小波包最优基的音乐指纹提取算法[J].计算机工程,2009,35(9):236-237. 被引量：6
5刘迪,关欣,李锵,滕建辅.基于鲁棒主成分分析的音乐信号降噪[J].计算机工程,2016,42(9):292-296. 被引量：5
6王蒙蒙,关欣,李锵.基于鲁棒音阶特征和测度学习SVM的音乐和弦识别[J].信号处理,2017,33(7):943-952. 被引量：13
7桂文明,刘睿凡,陶玉婷,李燕萍.一种新型音乐速度谱图的生成算法[J].复旦学报（自然科学版）,2018,57(3):379-384. 被引量：3
8李洪伟,李海峰,马琳,薄洪健,徐睿峰.音乐欣赏中脑对音乐属性变化加工规律的脑电研究[J].复旦学报（自然科学版）,2018,57(3):385-392. 被引量：1
9胡昭华,余媛媛.深度卷积神经网络在音乐风格识别中的应用[J].小型微型计算机系统,2018,39(9):1932-1936. 被引量：9
10熊梅,张天骐,张婷,杨凯.结合HPSS的非负矩阵音乐分离方法[J].计算机工程与设计,2018,39(4):1089-1094. 被引量：7

引证文献1

1许晶晶.复杂噪声场景下的电子音乐信号智能检测算法设计[J].现代电子技术,2020,43(19):49-52. 被引量：1

二级引证文献1

1王瑞,李珊,齐建立.应用人工神经网络的音乐多参数识别方法设计[J].常州工学院学报,2022,35(3):34-38.

1姚鹏.“音”你而美,“乐”在其中[J].华夏教师,2019,0(6):33-33.
2赵志成,方力先.基于混沌理论的音乐信号非线性特征研究[J].振动与冲击,2019,38(3):39-43. 被引量：8
3姚梦茹,胡永兵,李慧.基于Avalon总线的音频频谱分析系统设计与实现[J].计算机技术与发展,2019,29(3):169-172. 被引量：4
4何礼,周翊,刘宏清.利用相位时频掩蔽的麦克风阵列噪声消除方法[J].信号处理,2018,34(12):1490-1498. 被引量：3
5陈游,周一鹏,王星,田元荣,周东青.采用区分性幅相联合字典学习的低截获概率信号分离方法[J].国防科技大学学报,2019,41(3):18-24.
6郑媛媛.中国电科38所自主设计“魂芯二号A”亮相安徽[J].班组天地,2018,0(5):82-83. 被引量：1
7段雪梅,朱明,鲍天龙.双线性模型在中国菜分类中的应用[J].小型微型计算机系统,2019,40(5):1050-1053. 被引量：2
8蒋行国,万今朝,蔡晓东,李海鸥,曹艺.奇异值分解与中心度量的细粒度车型识别算法[J].西安电子科技大学学报,2019,46(3):82-88. 被引量：2
9丁艳.预冷时间对生鲜农产品贮藏品质的影响[J].现代食品科技,2019,35(5):131-136. 被引量：9
10刘超,贾毓臻,王攀.基于深度学习的IPTV视频用户行为分析方法研究[J].计算机应用与软件,2019,36(6):167-170. 被引量：4

声学学报

2019年第3期

浏览历史

内容加载中请稍等...

结合区分性训练深度神经网络的歌声与伴奏分离方法被引量：1

参考文献5

二级参考文献24

共引文献49

同被引文献14

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

结合区分性训练深度神经网络的歌声与伴奏分离方法 被引量：1

参考文献5

二级参考文献24

共引文献49

同被引文献14

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

结合区分性训练深度神经网络的歌声与伴奏分离方法被引量：1