-
题名融合梅尔谱增强与特征解耦的噪声鲁棒语音转换
被引量:1
- 1
-
-
作者
陈乐乐
张雄伟
孙蒙
张星昱
-
机构
陆军工程大学指挥控制工程学院
-
出处
《声学学报》
EI
CAS
CSCD
北大核心
2023年第5期1070-1080,共11页
-
基金
国家自然科学基金项目(62071484)资助。
-
文摘
提出了一种融合梅尔谱增强与特征解耦的噪声鲁棒语音转换模型,即MENR-VC模型。该模型采用3个编码器提取语音内容、基频和说话人身份矢量特征,并引入互信息作为相关性度量指标,通过最小化互信息进行矢量特征解耦,实现对说话人身份的转换。为了改善含噪语音的频谱质量,模型使用深度复数循环卷积网络对含噪梅尔谱进行增强,并将其作为说话人编码器的输入;同时,在训练过程中,引入梅尔谱增强损失函数对模型整体损失函数进行了改进。仿真实验结果表明,与同类最优的噪声鲁棒语音转换方法相比,所提模型得到的转换语音在语音自然度和说话人相似度的平均意见得分方面,分别提高了0.12和0.07。解决了语音转换模型在使用含噪语音进行训练时,会导致深度神经网络训练过程难以收敛,转换语音质量大幅下降的问题。
-
关键词
语音转换
噪声鲁棒
梅尔谱增强
特征解耦
-
Keywords
Voice conversion
Noise robustness
Mel-spectrum enhancement
Feature decoupling
-
分类号
TN912.3
[电子电信—通信与信息系统]
-