基于SI-SDR优化的生成对抗网络语音增强方法被引量：5

Speech enhancement method based on SI-SDR optimization generative adversarial network

导出

摘要为了解决现有的生成对抗网络(GAN)语音增强方法模型训练不稳定、生成语音质量不高的问题,提出一种尺度不变信号失真比(SI-SDR)优化的相对平均生成对抗网络(Ra GAN)语音增强方法.首先,构建一个基于生成对抗网络的端到端语音增强模型;然后,在模型中加入相对平均判别器,将真实数据和生成数据得分的差值作为模型训练的参考,显著增强了模型训练的稳定性;最后,采用SI-SDR直接度量生成语音的质量得分,并改进生成器训练的损失函数,将提高生成语音质量作为模型优化的目标.实验结果表明:相比基线方法,该方法可以有效提高未知噪声和低信噪比条件下的语音增强性能,增强后的语音具有更好的听觉质量和可懂性. To solve the problems of unstable model training and low quality of generated speeches in the existing speech enhancement methods based on generative adversarial network(GAN),a speech enhancement method based on relativistic average GAN(RaGAN) optimized by scale-invariant signal-to-distortion ratio(SI-SDR) was proposed.First,an end-to-end speech enhancement model based on generative adversarial network was constructed.Then,a relativistic average discriminator was added to the model,and the difference value between the real data and generated data scores was used as a reference for the model training,which could make the model training more stable.Finally,the SI-SDR was used to measure the quality of the generated speeches and improve the loss function of generator training,which regarded improving speech quality as the goal of model training.Experiment results show that compared with the baseline methods,the proposed method can effectively improve the speech enhancement performance under noise unknown conditions and low signal to noise ratio conditions,and the enhanced speeches have better auditory quality and intelligibility.

作者曹洁周尧风于泓李晓旭 CAO Jie;ZHOU Yaofeng;YU Hong;LI Xiaoxu(School of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China;School of Information and Electrical Engineering,Ludong University,Yantai 264025,Shandong China)

机构地区兰州理工大学计算机与通信学院鲁东大学信息与电气工程学院

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2020年第11期17-23,共7页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

基金国家自然科学基金资助项目(61906080,61763028)。

关键词生成对抗网络(GAN) 语音增强客观可懂性深度卷积神经网络损失函数 generative adversarial network(GAN) speech enhancement objective intelligibility deep convolutional neural network loss function

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1袁文浩,娄迎曦,梁春燕,夏斌.利用生成噪声提高语音增强方法的泛化能力[J].电子学报,2019,47(4):791-797. 被引量：5
2蓝天,彭川,李森,叶文政,李萌,惠国强,吕忆蓝,钱宇欣,刘峤.单声道语音降噪与去混响研究综述[J].计算机研究与发展,2020,57(5):928-953. 被引量：17
3时文华,张雄伟,邹霞,孙蒙,李莉.联合深度编解码网络和时频掩蔽估计的单通道语音增强[J].声学学报,2020,45(3):299-307. 被引量：11

二级参考文献9

1吴镇扬,张子瑜,李想,赵力.听觉场景分析的研究进展[J].电路与系统学报,2001,6(2):68-73. 被引量：9
2何玉文,鲍长春,夏丙寅.基于AR-HMM在线能量调整的语音增强方法[J].电子学报,2014,42(10):1991-1997. 被引量：6
3李轶南,张雄伟,贾冲,陈亮,曾理.稀疏低秩噪声模型下无监督实时单通道语音增强算法[J].声学学报,2015,40(4):607-614. 被引量：8
4孟宪波,鲍长春.基于最小控制GARCH模型的噪声估计算法[J].电子学报,2016,44(3):747-752. 被引量：6
5刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：69
6闵刚,邹霞,韩伟,张雄伟,谭薇.用于无监督语音降噪的听觉感知鲁棒主成分分析法[J].声学学报,2017,42(2):246-256. 被引量：4
7刘斌,陶建华.联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法[J].信号处理,2017,33(3):268-272. 被引量：11
8张雄伟,李轶南,郑昌艳,曹铁勇,孙蒙,闵刚.语音去混响技术的研究进展与展望[J].数据采集与处理,2017,32(6):1069-1081. 被引量：7
9袁文浩,孙文珠,夏斌,欧世峰.利用深度卷积神经网络提高未知噪声下的语音增强性能[J].自动化学报,2018,44(4):751-759. 被引量：38

共引文献29

1刘元,匡文凯,苏盛,李彬.基于双通道能量差的环网柜局放信号消噪方法[J].仪器仪表学报,2021,42(2):218-227. 被引量：5
2祁晓,赵连玉.基于多频带谱减法的老年人语音增强算法的研究[J].电声技术,2020,44(5):34-37.
3梁力,莫晓毅,柯华强.基于语音识别技术的测试平台研究[J].科技视界,2020(31):17-18. 被引量：1
4许春冬,徐琅,周滨,凌贤鹏.单通道语音增强技术的研究现状与发展趋势[J].江西理工大学学报,2020,41(5):55-64. 被引量：1
5肖鑫鑫.复杂噪声环境下的普通话测试系统设计[J].信息技术,2020,44(11):78-82. 被引量：1
6孙立辉,曹丽静,张竟雄.基于升降编解码全卷积神经网络语音增强技术[J].智能计算机与应用,2021,11(2):19-22.
7郭启训,孙琦,张迁.神经网络在汽车起重机幅度预测中的应用及泛化性能分析[J].建设机械技术与管理,2021,34(3):146-149.
8余焕伟,陈仙凤,朱先华,赵星波,杜锡勇.基于高斯混合-隐马尔可夫模型的特种设备敲击检测[J].无损检测,2021,43(8):14-20. 被引量：6
9曾庆宁,王师琦.扩散噪声下协方差矩阵重构的语音分离与降噪[J].声学学报,2021,46(5):775-784. 被引量：3
10台文鑫,王钇翔,李森,蓝天,刘峤.基于动态选择机制的低信噪比单声道语音增强算法[J].计算机应用研究,2021,38(9):2604-2608. 被引量：1

同被引文献27

1卢艳军,陈雨荻,张晓东,张太宁.基于扩展Kalman滤波的姿态信息融合方法研究[J].仪器仪表学报,2020,41(9):281-288. 被引量：39
2李凡,吴军,黄刚.基于BPNN/HMM神经网络的声学模型研究[J].华中科技大学学报（自然科学版）,2004,32(9):9-11. 被引量：2
3廖广锐,刘云,刘萍,薛永辉.基于统合高维对角协方差的CHMM语音识别[J].华中科技大学学报（自然科学版）,2009,37(12):16-19. 被引量：1
4唐贤伦,杜一铭,刘雨微,李佳歆,马艺玮.基于条件深度卷积生成对抗网络的图像识别方法[J].自动化学报,2018,44(5):855-864. 被引量：143
5孙成立,王海武.生成式对抗网络在语音增强方面的研究[J].计算机技术与发展,2019,29(2):152-156. 被引量：5
6孙耀杰,蔡昱,张馨,薛绪掌,郑文刚,乔晓军.基于WDNN的温室多特征数据融合方法研究[J].农业机械学报,2019,50(2):273-280. 被引量：15
7贾晨,刘华平,续欣莹,孙富春.基于宽度学习方法的多模态信息融合[J].智能系统学报,2019,14(1):150-157. 被引量：19
8陈思楷,周青,周燕翔,宋宏宁,邓倾,杨远婷,陈金玲.基于超声-CT图像的心脏影像融合数据处理方法[J].中国医学影像技术,2019,35(9):1310-1314. 被引量：4
9张逸,谷毅,韩芳,王直杰.基于生成对抗网络的音频音质提升方法[J].计算机工程与应用,2019,55(20):240-244. 被引量：3
10高媛,吴帆,秦品乐,王丽芳.生成对抗残差网络的医学图像融合算法[J].计算机应用,2019,39(12):3528-3534. 被引量：6

引证文献5

1郭保收.基于GAN的广播通讯过程多链路信息融合方法[J].信息技术,2023,47(3):70-74.
2李如玮,李秋艳,赵丰年,刘尚枫.基于注意力和深度学习的双耳语音增强算法[J].华中科技大学学报（自然科学版）,2023,51(9):125-131.
3许春冬,朱诚,应冬文,董桂官.基于多尺度特征融合的语音频带扩展[J].华中科技大学学报（自然科学版）,2023,51(9):132-139.
4曲珍.基于频带分解的中波发射机播出信号失真故障检测方法[J].中国科技纵横,2023(24):84-86.
5许雯婷,龚晓峰.基于深度全卷积神经弹性网络WCGAN-GP模型的语音增强研究[J].计算机应用与软件,2024,41(2):130-137.

1柏梁泽,高勇.结合卷积平滑耳蜗谱和深度网络的语音增强技术[J].无线电工程,2020,50(12):1055-1062. 被引量：3
2黄金眼[J].游戏机实用技术,2020(21):7-8.
3杨震,王婷婷.语音图信号处理理论与技术研究[J].南京邮电大学学报（自然科学版）,2020,40(5):43-51. 被引量：7
4蓝天,惠国强,李萌,吕忆蓝,刘峤.采用上下文相关的注意力机制及循环神经网络的语音增强方法[J].声学学报,2020,45(6):897-905. 被引量：4
5者贵昌,徐晶.人民币区域国际化影响因素及对策研究[J].学术探索,2020(11):66-74. 被引量：5
6刘舒康,唐鹏,金炜东.基于智能数据增强和改进YOLOv3算法的接触网吊弦及支架检测研究[J].计算机科学,2020,47(S02):178-182. 被引量：11
7赵瑜,陈传宇,张建伟,孙凯.基于遗传算法的面板堆石坝土石方调配研究[J].中国农村水利水电,2020(11):174-178. 被引量：10
8牛志忠,杨坤.一种基于多尺度Retinex的夜间图像增强算法[J].现代信息科技,2020,4(17):66-68. 被引量：2
9聂敏.基于改进磷虾群优化的医学图像对比度增强[J].电脑与信息技术,2020,28(6):7-10.
10朱婷婷,杜一帆,李睿凡,熊永平.基于无监督方法的电力文本专业词汇识别研究[J].电力工程技术,2020,39(6):159-165. 被引量：1

华中科技大学学报（自然科学版）

2020年第11期

浏览历史

内容加载中请稍等...

基于SI-SDR优化的生成对抗网络语音增强方法被引量：5

参考文献3

二级参考文献9

共引文献29

同被引文献27

引证文献5

相关作者

相关机构

相关主题

浏览历史

基于SI-SDR优化的生成对抗网络语音增强方法 被引量：5

参考文献3

二级参考文献9

共引文献29

同被引文献27

引证文献5

相关作者

相关机构

相关主题

浏览历史

基于SI-SDR优化的生成对抗网络语音增强方法被引量：5