DVUGAN:基于STDCT的DDSP集成变分U-Net的语音增强被引量：2

DVUGAN:DDSP Integrated Variational U-Net Speech Enhancement Based on STDCT

下载PDF

导出

摘要本文提出基于生成对抗网络设计的DVUGAN模型,用于语音增强任务。该模型工作在变换域上,输入采用STDCT特征,该特征能隐式表达相位,可在实值网络中学习,避免了复频域复杂网络或处理,利用相位的同时降低模型复杂度;生成器采用变分U-Net编解码器,集成DDSP组件利用强归纳偏置显著提升自动编码器性能,变分概率瓶颈改善脉冲噪声源的抑制,增加对未知数据分布的鲁棒性;引入DDSP中的Multi-Scale Spectral Loss,利用振荡器感知偏差,指导生成器优化感知性能;将SI-SNR Loss优化判别器性能,以平衡生成对抗网络结构,促使模型稳定训练。该模型在DNS开发数据集和Voice Bank+DEMAND数据集下评估优于基线模型和最近部分研究,证明了本文提出的DVUGAN在变换域语音增强领域的优越性。 In this paper,a DVUGAN model based on generative adversarial network design is proposed for speech enhancement tasks. The model works in the transform domain,and the input adopts the STDCT feature,which can express the phase implicitly and can be learned in the real valued network,avoiding the complex network or processing in the complex frequency domain,and reducing the complexity of the model while using the phase. The generator uses a variational U-Net codec,integrates DDSP components and utilizes strong inductive bias to significantly improve the performance of the autoencoder. The variational probability bottleneck improves the suppression of pulse noise sources and increases the robustness of unknown data distribution. Multi-scale Spectral Loss in DDSP is introduced to guide the generator to optimize the sensing performance by using the oscillator perception bias. The performance of the discriminant is optimized by the SI-SNR Loss,so as to balance the structure of the adversarial network and promote the stable training of the model. The model is evaluated to be superior to the baseline model and some recent studies in the DNS development dataset and Voice Bank+Demand dataset,which prove the superiority of the proposed DVUGAN in the field of speech enhancement in the transformation domain.

作者徐峰李平 XU Feng;LI Ping(Academy of Information Science and Engineering,Huaqiao University,Xiamen,Fujian 361021,China)

机构地区华侨大学信息科学与工程学院

出处《信号处理》 CSCD 北大核心 2022年第3期582-589,共8页 Journal of Signal Processing

基金福建省科技重大专项(2020HZ02014) 福建省自然科学基金项目(2018J01095) 福建省高校产学研合作科技重大项目(2013H6016) 华侨大学中青年教师科技创新资助计划项目(ZQN-PY509)。

关键词语音增强 STDCT DDSP 生成对抗网络 speech enhancement STDCT DDSP generative adversarial networks

分类号 TP912 [自动化与计算机技术]

引文网络
相关文献

同被引文献2

1陶智,赵鹤鸣,龚呈卉.基于听觉掩蔽效应和Bark子波变换的语音增强[J].声学学报,2005,30(4):367-372. 被引量：39
2张天骐,柏浩钧,叶绍鹏,刘鉴兴.基于门控残差卷积编解码网络的单通道语音增强方法[J].信号处理,2021,37(10):1986-1995. 被引量：5

引证文献2

1范君怡,杨吉斌,张雄伟,郑昌艳.基于Transformer的单通道语音增强模型综述[J].计算机工程与应用,2022,58(12):25-36. 被引量：5
2金玉堂,王以松,王丽会,赵鹏利.基于多尺度阶梯时频Conformer GAN的语音增强算法[J].计算机应用,2023,43(11):3607-3615. 被引量：3

二级引证文献8

1苏琮智,吴宏超,杨承志,邴雨晨,易仁杰.基于RSETransformer的低截获概率雷达信号增强[J].战术导弹技术,2022(5):44-54. 被引量：1
2乔万俊,赵庆.基于端到端的英语翻译器语音自动纠正系统研究[J].自动化与仪器仪表,2023(3):240-244.
3阎馨,杨月川,屠乃威.基于改进SSD的钢材表面缺陷检测[J].现代制造工程,2023(5):112-120. 被引量：12
4林文模,陈飞龙,孙成立,朱祯君.两级U-Net波束形成网络的3D语音增强算法[J].计算机工程与应用,2023,59(22):128-135.
5黄海霞,李耀翔,张哲宇.基于ResNet的森林土壤碳含量近红外预测模型[J].森林工程,2023,39(6):164-171.
6岳欢.基于GSP算法和增强现实技术的景观交互系统设计[J].自动化与仪器仪表,2023(12):109-113.
7王小莉.多语音和深度学习的对话机器人语音增强技术研究[J].自动化与仪器仪表,2023(12):173-177. 被引量：1
8更藏措毛,黄鹤鸣,杨毅杰.融合多尺度特征与上下文信息的语音增强方法[J].计算机工程,2024,50(6):138-147.

1谭晓阳,张哲.元强化学习综述[J].南京航空航天大学学报,2021,53(5):653-663. 被引量：7
2余洋,冯路婧,米增强,韩帅.基于增量反推控制的机械弹性储能用永磁同步电机控制方法[J].电机与控制学报,2021,25(12):1-10. 被引量：4
3宋子壮,杨嘉伟,张东方,王诗强,张越.基于无监督域适应的低空海面红外目标检测[J].光学学报,2022,42(4):119-126. 被引量：8
4Voice from China's Two Sessions on Culture and Tourism[J].China & The World Cultural Exchange,2022,88(3):17-27.
5李晓配,侯志强,李海强.不同导流结构射雾器性能的仿真及试验分析[J].工程机械,2022,53(3):50-53.
6蔺智鹏,李铸洪,刘舟,沈未名.双分支遥感影像多标签重平衡权重分类方法[J].计算机应用,2021,41(S02):86-92. 被引量：1
7孙刘杰,赵进,王文举,张煜森.多尺度Transformer激光雷达点云3D物体检测[J].计算机工程与应用,2022,58(8):136-146. 被引量：2
8吴洁,张师天,谢海滨,杨光.基于多影像中心磁共振成像数据的半监督膝盖异常分类[J].计算机应用,2022,42(1):316-324. 被引量：1
9范天伦,张敬,孙丽春,吴乾利,符川.肌内效贴布贴扎联合核心稳定训练对颈型颈椎病患者的康复作用[J].临床与病理杂志,2022,42(3):702-707. 被引量：4
10刘华玲,皮常鹏,刘梦瑶,汤新.一种新的优化机制:Rain[J].计算机科学,2021,48(S02):63-70.

信号处理

2022年第3期

浏览历史

内容加载中请稍等...

DVUGAN:基于STDCT的DDSP集成变分U-Net的语音增强被引量：2

同被引文献2

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

DVUGAN:基于STDCT的DDSP集成变分U-Net的语音增强 被引量：2

同被引文献2

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

DVUGAN:基于STDCT的DDSP集成变分U-Net的语音增强被引量：2