-
题名基于集成学习的乐声分离方法
- 1
-
-
作者
孟晶晶
徐雅斌
-
机构
北京信息科技大学大数据安全技术研究所
北京信息科技大学计算机学院
-
出处
《北京信息科技大学学报(自然科学版)》
2023年第3期27-34,共8页
-
基金
国家自然科学基金资助项目(61672101)
网络文化与数字传播北京市重点实验室开放课题(ICCD XN004)
信息网络安全公安部重点实验室开放课题(C18601)。
-
文摘
针对频域乐声分离方法缺失相位信息,时域端到端方法无法充分利用时频表示中的声学信息的问题,提出了一种基于集成学习的乐声分离方法。通过在频域U型卷积神经网络(U-Net)的编码块和解码块之间引入卷积块注意力模块(convolutional block attention module,CBAM),从通道和空间两方面调整权重,增强模型特征提取能力;通过提出一种时域端对端分离模型ST-Demucs(soft threshold-Demucs),在编码层中添加全连接子网络和软阈值化层,有选择性地提取特征,抑制冗余噪声;最后,通过软投票的策略对两种模型的分离结果进行融合,弥补频域模型相位缺失弊端,得到更加接近纯净音频的目标音源波形图。在MUSDB18数据集上的实验结果表明:改进后的频域网络模型的信号失真比提升了0.33 dB,时域网络模型的信号失真比提升了0.31 dB,经过集成后,信号失真比得到了进一步提高,提出的基于集成学习的乐声分离方法在分离性能上优于相关单个模型。
-
关键词
乐声分离
卷积块注意力模块
软阈值化
集成学习
-
Keywords
separation of music and voice
convolutional block attention module
soft thresholding
ensemble learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-