一种基于x-vector说话人特征的语音克隆方法被引量：2

Voice Cloning Method Based on X-Vector Speaker Characteristic

下载PDF

导出

摘要基于SVTTS架构的语音克隆系统采用d-vector描述说话人编码特征,由于该特征提取过程中没有考虑到整段句子的语音信息,从而影响了克隆语音的相似度。针对此问题,提出一种基于x-vector说话人特征的语音克隆方法。该方法采用x-vector作为表征目标说话人的嵌入向量,拼接到合成器中,并通过声码器克隆出目标说话人的语音。实验结果表明采用x-vector的方法提取嵌入向量的相似度更高;与传统方法相比,该方法克隆语音的自然度和相似性分别提升了0.32和0.14。 The voice cloning system based on the speaker verification to multi-speaker text-to-speech(SVTTS)architecture adopts the speaker encoding feature described by d-vector.The speech information of the entire sentence is not considered in the feature extraction process,which affects the similarity of the cloned voice.To address this problem,this paper proposes a method of voice cloning based on x-vector speaker characteristics.This method uses x-vector as the embedding vector characterizing the target speaker,splices it into the synthesizer,and clones the target speaker’s voice through the vocoder.The experimental results show that the x-vector method is used to extract the embedding vector with higher similarity.Compared with the traditional method,the naturalness and similarity of the cloned voice of the proposed method are improved by 0.32 and 0.14,respectively.

作者张雅欣张连海 ZHANG Yaxin;ZHANG Lianhai(Zhongyuan Network Security Research Institute, Zhengzhou University, Zhengzhou 450001, China;Information Engineering University, Zhengzhou 450001, China)

机构地区郑州大学中原网络安全研究院信息工程大学

出处《信息工程大学学报》 2020年第6期664-669,共6页 Journal of Information Engineering University

基金国家自然科学基金资助项目(61673395)。

关键词语音克隆说话人编码 d-vector x-vector voice cloning speaker encoding d-vector x-vector

分类号 TP912.34 [自动化与计算机技术]

引文网络
相关文献

同被引文献11

1邱泽宇,屈丹,张连海.基于WaveNet的端到端语音合成方法[J].计算机应用,2019,39(5):1325-1329. 被引量：10
2张小峰,谢钧,罗健欣,杨涛.深度学习语音合成技术综述[J].计算机工程与应用,2021,57(9):50-59. 被引量：15
3孙志宏,叶焱,刘太君,许高明.基于迁移学习的自适应语音合成[J].数据通信,2021(5):47-51. 被引量：4
4徐志航,陈博,张辉,俞凯.小数据下的音素级别说话人嵌入的语音合成自适应方法[J].计算机学报,2022,45(5):1003-1017. 被引量：10
5蒿晓阳,张鹏远.使用变分自编码器的自回归多说话人中文语音合成[J].声学学报,2022,47(3):405-416. 被引量：7
6杨帅,乔凯,陈健,王林元,闫镔.语音合成及伪造、鉴伪技术综述[J].计算机系统应用,2022,31(7):12-22. 被引量：8
7李建文,王咿卜.函数拟合实现带声调的语音合成[J].计算机应用与软件,2022,39(9):193-200. 被引量：2
8王智,刘银华.基于深度学习的中文情感语音合成方法[J].自动化与仪器仪表,2022(9):10-15. 被引量：5
9李嘉欣,张连海,李宜亭.基于音色一致的语音克隆说话人特征提取方法[J].信号处理,2023,39(4):719-729. 被引量：2
10张佳琳,买日旦·吾守尔,古兰拜尔·吐尔洪.低资源条件下的语音合成方法综述[J].计算机工程与应用,2023,59(15):1-16. 被引量：1

引证文献2

1李囡,郭浩,相洁.基于迁移学习双阶段训练的情感语音克隆技术[J].计算机工程与设计,2024,45(5):1533-1540.
2高盛祥,杨元樟,王琳钦,莫尚斌,余正涛,董凌.面向域外说话人适应场景的多层级解耦个性化语音合成[J].广西师范大学学报（自然科学版）,2024,42(4):11-21.

1王研,吴怡之.基于变分自编码的语气语音合成模型[J].计算机科学与应用,2020,10(12):2159-2167.
2李雪梅,周雪,梁博,王鑫.超声辅助提取红花黄色素的工艺优化[J].黑龙江科学,2021,12(4):36-37. 被引量：2
3付鹏斌,杨广越,杨惠荣.结合学科同义词与词向量的相似度评分算法[J].计算机工程与设计,2020,41(12):3390-3396. 被引量：3
4杨艳辉.楚地简帛医书假借字音形关系探析[J].荆楚理工学院学报,2020,35(4):5-9.
5陶志勇,李杰,唐晓亮.融合小波变换与胶囊网络的纹理图像分类算法[J].激光与光电子学进展,2020,57(24):50-60. 被引量：5
6王雪峰,陈珠琳,管青军,刘嘉政,王甜,袁莹.基于林内图像的单位面积碳储量估计方法[J].林业科学,2021,57(1):105-112. 被引量：2

信息工程大学学报

2020年第6期

浏览历史

内容加载中请稍等...

一种基于x-vector说话人特征的语音克隆方法被引量：2

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于x-vector说话人特征的语音克隆方法 被引量：2

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于x-vector说话人特征的语音克隆方法被引量：2