基于迁移学习的自适应语音合成被引量：2

Adaptive speech synthesis based on transfer learning

下载PDF

导出

摘要为利用少量目标语料来建立自适应的语音合成系统,提出了基于迁移学习的自适应语音合成方法。本文首先在多说话人语料数据集中,用一个256维讲者嵌入(Speaker Embedding)在模型中表征不同的说话人,然后在Fastspeech2声学模型的基础上进行改进作为声学特征提取器:尝试用参考编码器(Reference Encoder)将语音中的说话人风格进行"解耦合",以更加精确地提取到说话人的音色特征,进而训练出一个多说话人的预训练模型。在获取目标说话人少量语音(十几句话)的情况下,通过微调(Fine-tune)神经网络参数就可获得良好的自适应合成效果。最后,在目标说话人原音频和自适应生成的语音通过映射成空间向量进行对比,实验结果平均可达70%以上的相似度。

作者孙志宏叶焱刘太君许高明 Sun Zhihong;Ye Yan;Liu Taijun;Xu Gaoming

机构地区宁波大学信息科学与工程学院

出处《数据通信》 2021年第5期47-51,共5页

关键词迁移学习自适应语音合成讲者嵌入参考编码器

分类号 TN912.33 [电子电信—通信与信息系统] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1齐耀辉,潘复平,葛凤培,颜永红.鉴别性最大后验概率线性回归说话人自适应研究[J].北京理工大学学报,2015,35(9):946-950. 被引量：2
2王国梁,陈梦楠,陈蕾.一种基于Tacotron 2的端到端中文语音合成方案[J].华东师范大学学报（自然科学版）,2019(4):111-119. 被引量：13
3黄俊,蒋兵,李先刚,郭武生,戴礼荣.I-vector聚类字典及注意力机制框架的说话人自适应[J].小型微型计算机系统,2019,40(2):460-464. 被引量：4

二级参考文献13

1Shinoda K. Speaker adaptation techniques for automatic speech recognition[C] // Proceedings of APSIPA ASC. Xi'an, China:[s.n.J, 2011.
2Gales MJ F. Maximum likelihood linear transformations for HMM-based speech recognition[J]. Computer Speech and Language, 1998,12(2) :75 - 98.
3Chesta C, Siohan 0, Lee C H. Maximum a posteriori linear regression for hidden Markov model adaptation[C] //Proceedings of Eurospeech. Budapest, Hungary:[s. n.], 1999: 211 - 214.
4Lin C H, Wang WJ. Maximum a posteriori linear regression for speaker adaptation with the prior of mean[C]// Proceedings of EUPSICO.[S. l.]: IEEE, 2000- 01-04.
5Tsao Y, Isotani R, Kawai H, et al. An environment structuring framework to facilitating suitable prior density estimation for MAPLR on robust speech recognition[CJ II Proceedings of ISCSLP. Tainan ,[so n.J, 2010: 29 -32.
6Hu Tingyao , Tsao v, Lee Lin-shan. Discriminative fuzzy clustering maximum a posteriori linear regression for speaker adaptationj C] II Proceedings of Interspeech. Portland, USA:[s.n.J, 2012.
7WUJ, Huo Q. A study of minimum classification error (MCE) linear regression for supervised adaptation of MCE-trained continuous-density hidden Markov models[J]. IEEE Trans on Audio, Speech and Language Processing, 2007,15(2) :478 - 488.
8Zhu B, Yan ZJ, Hu v, et al. Investigation on adaptation using different discriminative training criteria based linear regression and MAP[CJ II Proceedings of ISCSLP. Kunming , China:[s.n.], 2008:93-96.
9Wang L, Woodland P C. MPE-based discriminative linear transform for speaker adaptation[J]. Computer Speech and Language, 2008,22(3) :256 - 272.
10Pirhosseinloo Sh,Javadi Sh. A combination of maximum likelihood Bayesian framework and discriminative linear transforms for speaker adaptation[J]. InternationalJournal of Information and Electronics Engineering, 2012,2(4): 552 - 555.

共引文献16

1程美,王力华.医疗智能语音技术与应用综述[J].中国数字医学,2021,16(8):1-7. 被引量：7
2潘梦鹞,吕小勇,陈少伟,郇锐铁,王锋.基于AI智能语音技术线上教学的创新与实践[J].创新创业理论研究与实践,2022(24):170-173. 被引量：1
3刘建航,杨喜鹏,李世宝,陈海华,黄庭培.干扰空间投影在本征音说话人自适应中的应用[J].计算机应用与软件,2017,34(11):188-191.
4魏伟华.语音合成技术综述及研究现状[J].软件,2020,41(12):214-217. 被引量：8
5杜睿山,陈思路,李阳,张可佳,杨丽波,解红涛,宋欣雨.基于Tacotron模型的油田射孔语音合成方案[J].系统仿真技术,2020,16(4):231-234.
6李建文,王咿卜.多项式函数拟合实现汉语声调的语音合成[J].西安科技大学学报,2021,41(3):506-515. 被引量：1
7姑丽斯坦·奥布力喀斯木,帕力旦·吐尔逊,艾斯卡尔·艾木都拉.不同粒度嵌入单元的端到端语音合成技术研究[J].现代计算机,2021,27(24):14-20. 被引量：1
8赵立铉,杨鉴.基于BERT预训练语言模型的印尼语语音合成[J].云南大学学报（自然科学版）,2021,43(6):1086-1095. 被引量：2
9帕丽旦·木合塔尔,吾守尔·斯拉木,买买提阿依甫.HMM与神经网络相融合的低资源语音合成方法[J].计算机仿真,2021,38(12):203-211. 被引量：2
10田泽佳,门豪,卓奕炜,刘宇.基于前向注意力机制的长句子语音合成方法[J].电子设计工程,2022,30(18):86-90. 被引量：2

同被引文献28

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：53
2刘梦媛,杨鉴.基于HMM的缅甸语语音合成系统设计与实现[J].云南大学学报（自然科学版）,2020,42(1):19-27. 被引量：8
3龚永罡,吴萌,廉小亲,裴晨晨.基于Seq2Seq与Bi-LSTM的中文文本自动校对模型[J].电子技术应用,2020,46(3):42-46. 被引量：15
4陈小东,宋文爱,刘晓峰.基于LPCNet的语音合成方法研究[J].计算机与数字工程,2020,48(5):1143-1147. 被引量：3
5唐海桃,薛嘉宾,韩纪庆.一种多尺度前向注意力模型的语音识别方法[J].电子学报,2020,48(7):1255-1260. 被引量：18
6严佩敏,唐婉琪.基于改进BERT的中文文本分类[J].工业控制计算机,2020,33(7):108-110. 被引量：11
7牛潇,秦健.基于App Inventor的语音识别与文本翻译器App的设计与调试[J].电脑知识与技术,2020,16(22):20-22. 被引量：1
8郑宗生,刘敏,胡晨雨,傅泽平,卢鹏,姜晓轶.基于Seq2Seq和Attention的时序卫星云图台风等级预测[J].遥感信息,2020,35(4):16-22. 被引量：6
9刘佳文,屈丹,杨绪魁,张昊,唐君.基于Transformer的越南语连续语音识别[J].信息工程大学学报,2020,21(2):129-133. 被引量：2
10颜世江,陈越,颜婉玲,许彬彬,李琳,洪青阳.端到端闽南语合成系统的设计与实现[J].厦门大学学报（自然科学版）,2020,59(6):988-994. 被引量：3

引证文献2

1涂琼引,成南.基于语音识别的英语翻译终端设计[J].自动化与仪器仪表,2023(1):251-256.
2张冠萍.基于语音合成的英语机器翻译机器人设计[J].自动化与仪器仪表,2023(2):247-252. 被引量：1

二级引证文献1

1付曼.基于语音信号的跨语种交互翻译机器人语义纠错方法[J].信息与电脑,2024,36(5):31-33.

1周建华,郑攀,王帅星,巫世晶,王晓笋.基于小波时频图和卷积神经网络的行星齿轮箱故障诊断方法[J].机械传动,2022,46(1):156-163. 被引量：11
2凡志邈,夏伟杰,刘雪.基于修正CycleGAN的声呐图像库构建方法研究[J].声学技术,2021,40(6):890-894. 被引量：3
3鲁庆欣,姜礼红,孟霖,张明明,王君颖,孟佳.翻转课堂在全科住培理论授课中的应用效果分析[J].中国继续医学教育,2022,14(1):91-94. 被引量：2
4莫子君.农家院落听党声[J].乡镇论坛,2021(36):24-24.
5本刊编辑部.《机器人泌尿外科手术学(原著第2版)》购书信息[J].机器人外科学杂志（中英文）,2022,3(2):131-131.
6汤庆奎,朱鹏,陈景润,张伟,刘海鸥,张雄福.无模板合成均匀单分散的ZSM-5沸石晶粒[J].硅酸盐学报,2021,49(12):2652-2658.
7尹丽,江峰,冯果,谭金刚,胡海龙,吴倩,刘健敏,张权,程思,江伟辉.镁源种类非水解溶胶-凝胶法制备镁稳定钛酸铝纤维的影响[J].中国陶瓷,2021,57(12):28-33.

数据通信

2021年第5期

浏览历史

内容加载中请稍等...

基于迁移学习的自适应语音合成被引量：2

参考文献3

二级参考文献13

共引文献16

同被引文献28

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于迁移学习的自适应语音合成 被引量：2

参考文献3

二级参考文献13

共引文献16

同被引文献28

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于迁移学习的自适应语音合成被引量：2