基于元学习自适应的小样本语音合成

Meta-learning adaption for few-shot text-to-speech

下载PDF

导出

摘要在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人的过程中,很少考虑到在不同适配阶段模型特征的变化规律,导致生成语音不能在保证语音质量的情况下快速提升语音相似性。为了解决上述问题,提出一种使用元学习指导模型适配新说话人的方法,模型中通过元特征模块对适配过程进行指导,在适配新说话人过程中提升语音相似度的同时保证生成语音质量;并通过步数编码器区分不同的适配阶段,以提升模型适配新说话人的速度。在Libri-TTS与VCTK数据集上通过主观与客观评价指标,在不同的适配步数下对现有快速适配新说话人的方法进行了比较,实验结果表明所提方法动态时间规整的梅尔倒谱失真(DTW-MCD)分别为7.4502与6.5243,在合成语音的相似度上优于其他元学习方法,并且能够更快适配新的说话人。 Few-shot Text-To-Speech(TTS)aims to synthesize speech that closely resembles the original speaker using only a small amount of training data.However,this approach faces challenges in quickly adapting to new speakers and improving the similarity between generated speech and speakers while ensuring high speech quality.Existing models often overlook changes in model features during different adaptation stages,leading to slow improvement of speech similarity.To address these issues,a meta-learning-guided model for adapting to new speakers was proposed.The model was guided by a meta-feature module during the adaptation process,ensuring the improvement of speech similarity while maintaining the quality of generated speech during the adaptation to new speakers.Furthermore,the differentiation of adaptation stages was achieved through a step encoder,thereby enhancing the speed of model adaptation to new speakers.The proposed method was evaluated on the Libri-TTS and VCTK datasets using subjective and objective evaluation metrics.Experimental results show that the Dynamic Time Warping-Mel Cepstral Distortion(DTW-MCD)of the proposed model are 7.4502 and 6.5243,respectively.It surpasses other meta-learning methods in terms of synthesized speech similarity and enables faster adaptation to new speakers.

作者吴郅昊迟子秋肖婷王喆 WU Zhihao;CHI Ziqiu;XIAO Ting;WANG Zhe(School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)

机构地区华东理工大学信息科学与工程学院

出处《计算机应用》 CSCD 北大核心 2024年第5期1629-1635,共7页 journal of Computer Applications

基金上海市科技计划项目(21511100800,20511100600) 国家自然科学基金资助项目(62076094)。

关键词小样本生成语音合成元学习说话人适配特征提取 few-shot generation Text-To-Speech(TTS) meta-learning speaker adaption feature extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1黄新东,古力加汗·沙都拉.肾脏疾病的生化、免疫检查92例临床诊治分析[J].中文科技期刊数据库（全文版）医药卫生,2016(8):211-211.
2郑志宏,马涛,孔新梅,方海光.基于最近发展区的学科知识图谱构建及大单元设计研究[J].远程教育杂志,2024,42(2):56-64.
3刘丹.基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法[J].微型电脑应用,2024,40(4):195-197.
4宋新睿.国土空间详细规划编制技术路线构建[J].中国房地产业,2023(13):42-45.
5中国抗癫痫协会青年委员会,谭启富癫痫外科发展专项基金管理委员会,北京神经科学学会脑功能疾病与认知发育专业委员会,国家儿科及小儿外科专业医疗质量控制中心,《癫痫杂志》编辑部,张春青,孙晓琴,吴沟肤,季涛云,郭燕舞,宋建平,王礼,石先俊,黄军,张晓青,张建国,梁树立.癫痫外科手术技术专家共识——第二篇:脑皮质发育不良相关癫痫[J].癫痫杂志,2024,10(3):199-205.
6陈伟.音频信号处理中的自适应降噪算法[J].电声技术,2024,48(3):51-53.
7陈钢,邓晓飞,邓俊.基于视觉注意软池化的场景反光去除方法研究[J].电工技术,2024(7):68-70.
8李璐,张志军,范钰敏,王星,袁卫华.面向冷启动用户的元学习与图转移学习序列推荐[J].山东大学学报（工学版）,2024,54(2):69-79.
9王琳,黄浩.引入预训练表示混合矢量量化和CTC的语音转换[J].计算机工程,2024,50(4):313-320.
10李囡,郭浩,相洁.基于迁移学习双阶段训练的情感语音克隆技术[J].计算机工程与设计,2024,45(5):1533-1540.

计算机应用

2024年第5期

浏览历史

内容加载中请稍等...

基于元学习自适应的小样本语音合成

相关作者

相关机构

相关主题

浏览历史