基于集成学习的乐声分离方法

Separation method of music and voice based on ensemble learning

下载PDF

导出

摘要针对频域乐声分离方法缺失相位信息,时域端到端方法无法充分利用时频表示中的声学信息的问题,提出了一种基于集成学习的乐声分离方法。通过在频域U型卷积神经网络(U-Net)的编码块和解码块之间引入卷积块注意力模块(convolutional block attention module,CBAM),从通道和空间两方面调整权重,增强模型特征提取能力;通过提出一种时域端对端分离模型ST-Demucs(soft threshold-Demucs),在编码层中添加全连接子网络和软阈值化层,有选择性地提取特征,抑制冗余噪声;最后,通过软投票的策略对两种模型的分离结果进行融合,弥补频域模型相位缺失弊端,得到更加接近纯净音频的目标音源波形图。在MUSDB18数据集上的实验结果表明:改进后的频域网络模型的信号失真比提升了0.33 dB,时域网络模型的信号失真比提升了0.31 dB,经过集成后,信号失真比得到了进一步提高,提出的基于集成学习的乐声分离方法在分离性能上优于相关单个模型。 A music and voice separation method based on ensemble learning was proposed to solve the problem that frequency domain music separation method lacks phase information,and time domain end-to-end method cannot make full use of acoustic information in time frequency representation.By introducing convolutional block attention module(CBAM)into the encoding blocks and decoding blocks of the frequency-domain U-Net,the weights were adjusted from both channel and space aspects,and the feature extraction ability of the model was enhanced.A time-domain end-to-end separation model ST-Demucs was proposed,which added fully connected subnetwork and soft threshold layer to the coding layer to selectively extract features and suppress redundant noise.Finally,the separation results of the two models were fused through the soft voting strategy to make up for the phase loss of the frequency domain model and get the waveform of the target sound source closer to the pure audio.The experimental results on MUSDB18 data set show that the signal-to-distortion ratio of the improved frequency-domain network model is improved by 0.33 dB,and that of the time-domain network model is improved by 0.31 dB.After integration,the signal-to-distortion ratio is further improved.The proposed music separation method based on ensemble learning outperforms the related single model in terms of separation performance.

作者孟晶晶徐雅斌 MENG Jingjing;XU Yabin(Big Data Security Technology Research Institute,Beijing Information Science&Technology University,Beijing 100101,China;Computer School,Beijing Information Science&Technology University,Beijing 100101,China)

机构地区北京信息科技大学大数据安全技术研究所北京信息科技大学计算机学院

出处《北京信息科技大学学报（自然科学版）》 2023年第3期27-34,共8页 Journal of Beijing Information Science and Technology University

基金国家自然科学基金资助项目(61672101) 网络文化与数字传播北京市重点实验室开放课题(ICCD XN004) 信息网络安全公安部重点实验室开放课题(C18601)。

关键词乐声分离卷积块注意力模块软阈值化集成学习 separation of music and voice convolutional block attention module soft thresholding ensemble learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1汪斌,陈宁.基于残差注意力U-Net结构的端到端歌声分离模型[J].华东理工大学学报（自然科学版）,2021,47(5):619-626. 被引量：6
2张瑞峰,白金桐,关欣,李锵.结合SE与BiSRU的Unet的音乐源分离方法[J].华南理工大学学报（自然科学版）,2021,49(11):106-115. 被引量：5
3王栋,贾海蓉.改进相位谱补偿的语音增强算法[J].西安电子科技大学学报,2017,44(3):83-88. 被引量：14

二级参考文献4

1高银秋,邓宗元,杨震.数字音频产品中基于人耳听觉感知特性的水印嵌入系统设计[J].南京邮电大学学报（自然科学版）,2006,26(5):56-64. 被引量：2
2高永婵,廖桂生,朱圣棋.复合高斯噪声中知识辅助的贝叶斯Rao检测方法[J].西安电子科技大学学报,2013,40(6):46-51. 被引量：5
3张君昌,刘海鹏,樊养余.一种自适应时移与阈值的DCT语音增强算法[J].西安电子科技大学学报,2014,41(6):155-159. 被引量：8
4容强,肖汉.基于MMSE维纳滤波语音增强方法研究与Matlab实现[J].计算机应用与软件,2015,32(1):153-156. 被引量：10

共引文献22

1李盛,周斌,胡金艳,周鹏程,李涛,袁玉迪.奇异值分解在语音增强中的应用研究[J].徐州工程学院学报（自然科学版）,2017,32(3):53-56. 被引量：1
2李东,张雪英,段淑斐,闫密密.结合语音融合特征和随机森林的构音障碍识别[J].西安电子科技大学学报,2018,45(3):149-155. 被引量：9
3王法松.“信号与系统”课程中关于信号相位谱的分析[J].微型电脑应用,2018,34(9):1-3. 被引量：1
4吉慧芳,贾海蓉,王雁.改进相位谱补偿的语音增强方法[J].计算机工程与应用,2019,55(8):48-52. 被引量：4
5贾海蓉,王卫梅,王雁,裴俊华.区分性联合稀疏字典交替优化的语音增强[J].西安电子科技大学学报,2019,46(3):74-81. 被引量：5
6贾海蓉,王卫梅,吉慧芳.信噪比信息与时频特征修正相位的语音增强[J].西安电子科技大学学报,2019,46(5):162-170. 被引量：5
7董胡,徐雨明,马振中,李列文,任可.基于小波包与自适应维纳滤波的语音增强算法[J].计算机技术与发展,2020,30(1):50-53. 被引量：9
8许春冬,徐琅,周滨,凌贤鹏.单通道语音增强技术的研究现状与发展趋势[J].江西理工大学学报,2020,41(5):55-64. 被引量：1
9张天骐,张晓艳,周琳,胡延平.基于稀疏性的相位谱补偿语音增强算法[J].信号处理,2020,36(11):1867-1876. 被引量：6
10聂玲子,陈雪勤,赵鹤鸣.结合幅度谱和功率谱字典的语音增强方法[J].声学学报,2021,46(1):81-91. 被引量：5

1罗笑,陈燕(指导).夏天的声音[J].少年时代（低年级）,2023(7):78-78.
2戴雨轩,沙玲.基于机器视觉的锅底标签角度测量系统研究[J].农业装备与车辆工程,2023,61(6):169-173. 被引量：1
3杨佳兴.锂离子动力电池模型理论综述[J].物理化学进展,2023,12(2):59-65.
4朱克平,何英静,但扬清,李倩,曹建春,宗皓翔.风电场并网振荡的频域网络分析及抑制[J].电力系统及其自动化学报,2023,35(2):27-36. 被引量：1
5张洪茂,邢磊,刘怀山,岳龙,韩笑,李倩倩,林浩然.基于自适应核时频分析的地震数据处理方法[J].中国海洋大学学报（自然科学版）,2023,53(5):126-135. 被引量：1
6朱明星,王柘,张华赢.级联型SVG序阻抗建模与电网适应性研究[J].电力系统及其自动化学报,2023,35(6):90-98.
7陈先冠,冯利平,白慧卿.小麦模型算法集成平台在华北平原区的适应性评价[J].农业工程学报,2023,39(7):128-136. 被引量：3
8李谊萍.基于Proteus的数字电路虚拟仿真实验系统设计[J].长江信息通信,2023,36(5):139-141. 被引量：1
9郭稳敏,石永康,李鹏.重载旋翼动力性能测试平台设计[J].实验室研究与探索,2023,42(4):75-78.

北京信息科技大学学报（自然科学版）

2023年第3期

浏览历史

内容加载中请稍等...

基于集成学习的乐声分离方法

参考文献3

二级参考文献4

共引文献22

相关作者

相关机构

相关主题

浏览历史