基于高分辨率网络和自注意力机制的歌声分离算法被引量：2

Singing voice separation algorithm based on high resolution network and self-attention mechanism

下载PDF

导出

摘要针对现有歌声分离算法分离精度不高的问题,提出了一种基于高分辨率网络和自注意力机制的歌声分离算法。该算法构建了基于频域模型的深度神经网络,将高分辨率网络作为主干网络,以此保证分离精度,并在网络中融入自注意力机制来捕获歌曲中的重复旋律。在歌声分离算法中,首先通过短时傅里叶变换对音乐信号进行时频转换,得到幅值谱;其次通过构建的神经网络将歌曲幅值谱进行分离,得到人声和伴奏的幅值谱;最后结合原歌曲的相位谱,通过短时傅里叶逆变换得到人声和伴奏的时域信号。结果表明:在MUSDB18数据集上,分离得到的人声和伴奏信号偏差比指标分别为7.68 dB和12.85 dB,相比于基准模型分别提高了21.52%和1.26%。该算法可以增强神经网络特征表达能力,有效提升歌声分离效果。 To address the problem of low separation accuracy of the existing singing voice separation algorithms, a singing voice separation algorithm based on high-resolution network and self-attention mechanism was proposed, which constructed a deep neural network based on the frequency-domain model, used high-resolution network as the backbone network to ensure the separation accuracy, and integrated the self-attention mechanism into the network to capture the repeated melody in the song. The process of singing voice separation algorithm is as follows: Firstly, the short-time Fourier transform was used for the time-frequency transformation of music signal to get the amplitude spectrogram;second, the amplitude spectrum of song was separated by the established neural network to obtain the amplitude spectrogram of the singing voice and accompaniment;finally, the time domain signals of singing voice and accompaniment were obtained by short-time inverse Fourier transform according to the phase spectrogram of the original song. The experimental results show that: on the MUSDB18 dataset, the signal-to-deviation ratio index of singing voice and accompaniment is 7.68 db and 12.85 db respectively, an increase of 21.52% and 1.26% than the benchmark model, indicating that the algorithm proposed in this study can strengthen the feature expression ability of neural network, and effectively improve the effect of singing voice separation.

作者倪欣任佳 NI Xin;REN Jia(Faculty of Mechanical Engineering&Automation,Zhejiang Sci-Tech University,Hangzhou 310018)

机构地区浙江理工大学机械与自动控制学院

出处《浙江理工大学学报（自然科学版）》 2022年第3期405-412,共8页 Journal of Zhejiang Sci-Tech University(Natural Sciences)

基金浙江省公益技术研究项目(LGG20F030007)。

关键词歌声分离高分辨率网络自注意力机制深度神经网络频域模型 singing voice separation high-resolution network self-attention mechanism deep neural network frequency-domain model

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1张天骐,徐昕,吴旺军,刘瑜.多反复结构模型的精确音乐分离方法[J].声学学报,2016,41(1):135-142. 被引量：11
2熊梅,张天骐,张婷,杨凯.结合HPSS的非负矩阵音乐分离方法[J].计算机工程与设计,2018,39(4):1089-1094. 被引量：7
3李伟,李子晋,高永伟.理解数字音乐——音乐信息检索技术综述[J].复旦学报（自然科学版）,2018,57(3):271-313. 被引量：35

二级参考文献22

1陈桂华.严格区分节奏、节奏型、节拍、拍子的意义[J].乐府新声（沈阳音乐学院学报）,1990,8(2):50-53. 被引量：1
2李伟,袁一群,李晓强,薛向阳,陆佩忠.数字音频水印技术综述[J].通信学报,2005,26(2):100-111. 被引量：73
3冯寅,周昌乐.算法作曲的研究进展[J].软件学报,2006,17(2):209-215. 被引量：34
4Kim Get al. An algorithm that improves speech intelligi- bility in noise for normal-hearing listeners. J Acoust. Soc. Am., 2009; 126:1486--1494.
5Wang D L, Brown G J. Separation of speech from interfer ing sounds based on oscillatory correlation. IEEE Trans Neural Netw., 1999; 10(3): 684--697.
6Ozerov A, F6votte C. Multichannel nonnegative matrix fac- torization in convolutive mixtures for audio source separa- tion. IEEE Transactions on Audio, Speech, and Language Processing, 2010; 18(3): 550--563.
7Ozerov A, Vincent E, Bimbot F. A general flexible frame: work for the handling of prior information in audio source separation. IEEE Transactions on Audio, Speech, and Language Processing, 2012; 20(4): 1118--1133.
8Antoine Liutkus, Zafer Rafii, Roland Badeau, Bryan Pardo, Gael Richard. Adaptive filtering for music/voice separation exploiting the repeating musical structure. In: IEEE International Conference on Acoustics, Speech and Signal Processing, Kyoto, Japan, 2012:53--56.
9Zafer Rafii, Bryan Pardo. Online REPET-SIM for real- time speech enhancement. 38th International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, Canada, 2013:848--852.
10Rafii Z, Pardo B. Repeating pattern extraction technique (REPET): A simple method for music/voice separation. IEEE Transactions on Audio, Speech, and Language Pro- cessing, 2013; 21(1): 73--84.

共引文献47

1余程年,杜梦丽,吴其林,张勇.基于多级度量学习的细粒度旋律相似判别算法[J].绥化学院学报,2023,43(3):147-152. 被引量：1
2陈洁.背景音乐自动分离系统设计与实现[J].现代电子技术,2017,40(5):134-138. 被引量：2
3熊梅,张天骐,张婷,杨凯.结合HPSS的非负矩阵音乐分离方法[J].计算机工程与设计,2018,39(4):1089-1094. 被引量：7
4张天骐,熊梅,张婷,杨强.结合区分性训练深度神经网络的歌声与伴奏分离方法[J].声学学报,2019,44(3):393-400. 被引量：2
5李伟,李硕.理解数字声音——基于一般音频/环境声的计算机听觉综述[J].复旦学报（自然科学版）,2019,58(3):269-313. 被引量：30
6李子晋,于帅,肖畅,耿瑜曼,钱文琪,高永伟,李伟.CCMusic:用于MIR研究的中国音乐数据库建设[J].复旦学报（自然科学版）,2019,58(3):351-357. 被引量：5
7翟永杰,杨旭,彭雅妮,王新颖.基于计算机听觉技术的电力设备状态监测研究综述[J].广东电力,2019,32(9):24-32. 被引量：19
8王振宇.语音和背景音乐分离算法及其系统设计[J].自动化技术与应用,2019,38(8):77-79. 被引量：1
9张天,张天骐,葛宛营,范聪聪.基于2DFT变换的伴奏音乐分离方法[J].信号处理,2019,35(10):1708-1713. 被引量：6
10周莉,刘苗,周蕊格,唐恬.基于专利文本挖掘的科技文化产业技术发展趋势研究[J].科技进步与对策,2019,36(23):69-75. 被引量：8

同被引文献15

1张天骐,徐昕,吴旺军,刘瑜.多反复结构模型的精确音乐分离方法[J].声学学报,2016,41(1):135-142. 被引量：11
2张天,张天骐,葛宛营,范聪聪.基于2DFT变换的伴奏音乐分离方法[J].信号处理,2019,35(10):1708-1713. 被引量：6
3任宇杰,杨剑,刘方涛,张启尧.基于SSD和MobileNet网络的目标检测方法的研究[J].计算机科学与探索,2019,13(11):1881-1893. 被引量：27
4王翔,任佳.基于多注意力机制的深度神经网络故障诊断算法[J].浙江理工大学学报（自然科学版）,2020,43(2):224-231. 被引量：3
5蔡兆信,李瑞新,戴逸丹,潘家辉.基于Faster RCNN的布匹瑕疵识别系统[J].计算机系统应用,2021,30(2):83-88. 被引量：9
6俞文静,刘航,李梓瑞,赖冬宜.基于图像增强和CNN的布匹瑕疵检测算法[J].计算机技术与发展,2021,31(5):90-95. 被引量：5
7汪斌,陈宁.基于残差注意力U-Net结构的端到端歌声分离模型[J].华东理工大学学报（自然科学版）,2021,47(5):619-626. 被引量：6
8郭波,吕文涛,余序宜,郭庆,陈亮亮,王成群.基于改进YOLOv5模型的织物疵点检测算法[J].浙江理工大学学报（自然科学版）,2022,47(5):755-763. 被引量：10
9陈金广,李雪,邵景峰,马丽丽.改进YOLOv5网络的轻量级服装目标检测方法[J].纺织学报,2022,43(10):155-160. 被引量：4
10黄裕凯,王青旺,沈韬,朱艳,宋健.基于MobileNet的多尺度感受野特征融合算法[J].激光与光电子学进展,2023,60(4):270-278. 被引量：3

引证文献2

1熊天,张天骐,闻斌,吴超.基于鲁棒主成分分析和MFCC反复结构的歌声分离方法[J].声学技术,2023,42(6):794-803.
2邹宏睿,任佳,潘海鹏,周传辉.基于改进YOLOv5s的轻量化布匹瑕疵检测算法[J].浙江理工大学学报（自然科学版）,2024,51(3):389-398.

1汪斌,陈宁.基于残差注意力U-Net结构的端到端歌声分离模型[J].华东理工大学学报（自然科学版）,2021,47(5):619-626. 被引量：6
2鲁海枰,孙永荣,赵伟,张怡.基于视觉显著性的机场跑道异物检测技术[J].现代电子技术,2022,45(11):41-45. 被引量：2
3刘洋,赵立新,张爽,刘琳,徐保蕊.过滤-旋流耦合技术在非均相分离中的研究及应用[J].机械工程学报,2022,58(4):120-154. 被引量：7
4解闯,宋鹏,邹志辉,谭军,王绍文,赵波.基于光流矢量行波分离的相关加权逆时偏移成像[J].地球物理学报,2022,65(6):2260-2275.

浙江理工大学学报（自然科学版）

2022年第3期

浏览历史

内容加载中请稍等...

基于高分辨率网络和自注意力机制的歌声分离算法被引量：2

参考文献3

二级参考文献22

共引文献47

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于高分辨率网络和自注意力机制的歌声分离算法 被引量：2

参考文献3

二级参考文献22

共引文献47

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于高分辨率网络和自注意力机制的歌声分离算法被引量：2