-
题名基于迁移学习双阶段训练的情感语音克隆技术
- 1
-
-
作者
李囡
郭浩
相洁
-
机构
太原理工大学信息与计算机学院
-
出处
《计算机工程与设计》
北大核心
2024年第5期1533-1540,共8页
-
基金
国家自然科学基金项目(61876124、61873178)
山西省科技厅基础研究基金项目(20210302123129、20210302124166、20210302123099)。
-
文摘
为解决传统基于SV2TTS架构的语音克隆系统合成语音缺乏丰富表达能力的问题,提出一种基于迁移学习双阶段训练说话人编码器的情感语音克隆方法。在说话人识别技术基础上,利用迁移学习,对说话人编码器进行音色克隆训练;在情感克隆训练阶段,采用情感语音数据集对其参数进行微调,提取具有情感信息的说话人特征。将此特征作为合成器的输入对梅尔谱的生成过程进行调节,通过声码器将此梅尔谱转换为具有目标说话人信息的情感语音。主客观分析结果表明,该方法所生成的克隆语音的情感相似度更高,音色相似度也有一定改善。
-
关键词
迁移学习
情感语音克隆
情感语音合成
双阶段训练
说话人识别
说话人编码
参数微调
-
Keywords
transfer learning
emotional voice cloning
emotional speech synthesis
two-stage training
speaker recognition
speaker encoding
fine-tuning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于x-vector说话人特征的语音克隆方法
- 2
-
-
作者
张雅欣
张连海
-
机构
郑州大学中原网络安全研究院
信息工程大学
-
出处
《信息工程大学学报》
2020年第6期664-669,共6页
-
基金
国家自然科学基金资助项目(61673395)。
-
文摘
基于SVTTS架构的语音克隆系统采用d-vector描述说话人编码特征,由于该特征提取过程中没有考虑到整段句子的语音信息,从而影响了克隆语音的相似度。针对此问题,提出一种基于x-vector说话人特征的语音克隆方法。该方法采用x-vector作为表征目标说话人的嵌入向量,拼接到合成器中,并通过声码器克隆出目标说话人的语音。实验结果表明采用x-vector的方法提取嵌入向量的相似度更高;与传统方法相比,该方法克隆语音的自然度和相似性分别提升了0.32和0.14。
-
关键词
语音克隆
说话人编码
d-vector
x-vector
-
Keywords
voice cloning
speaker encoding
d-vector
x-vector
-
分类号
TP912.34
[自动化与计算机技术]
-