期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
DVUGAN:基于STDCT的DDSP集成变分U-Net的语音增强 被引量:3
1
作者 徐峰 李平 《信号处理》 CSCD 北大核心 2022年第3期582-589,共8页
本文提出基于生成对抗网络设计的DVUGAN模型,用于语音增强任务。该模型工作在变换域上,输入采用STDCT特征,该特征能隐式表达相位,可在实值网络中学习,避免了复频域复杂网络或处理,利用相位的同时降低模型复杂度;生成器采用变分U-Net编... 本文提出基于生成对抗网络设计的DVUGAN模型,用于语音增强任务。该模型工作在变换域上,输入采用STDCT特征,该特征能隐式表达相位,可在实值网络中学习,避免了复频域复杂网络或处理,利用相位的同时降低模型复杂度;生成器采用变分U-Net编解码器,集成DDSP组件利用强归纳偏置显著提升自动编码器性能,变分概率瓶颈改善脉冲噪声源的抑制,增加对未知数据分布的鲁棒性;引入DDSP中的Multi-Scale Spectral Loss,利用振荡器感知偏差,指导生成器优化感知性能;将SI-SNR Loss优化判别器性能,以平衡生成对抗网络结构,促使模型稳定训练。该模型在DNS开发数据集和Voice Bank+DEMAND数据集下评估优于基线模型和最近部分研究,证明了本文提出的DVUGAN在变换域语音增强领域的优越性。 展开更多
关键词 语音增强 stdct DDSP 生成对抗网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部