-
题名基于元学习自适应的小样本语音合成
- 1
-
-
作者
吴郅昊
迟子秋
肖婷
王喆
-
机构
华东理工大学信息科学与工程学院
-
出处
《计算机应用》
CSCD
北大核心
2024年第5期1629-1635,共7页
-
基金
上海市科技计划项目(21511100800,20511100600)
国家自然科学基金资助项目(62076094)。
-
文摘
在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人的过程中,很少考虑到在不同适配阶段模型特征的变化规律,导致生成语音不能在保证语音质量的情况下快速提升语音相似性。为了解决上述问题,提出一种使用元学习指导模型适配新说话人的方法,模型中通过元特征模块对适配过程进行指导,在适配新说话人过程中提升语音相似度的同时保证生成语音质量;并通过步数编码器区分不同的适配阶段,以提升模型适配新说话人的速度。在Libri-TTS与VCTK数据集上通过主观与客观评价指标,在不同的适配步数下对现有快速适配新说话人的方法进行了比较,实验结果表明所提方法动态时间规整的梅尔倒谱失真(DTW-MCD)分别为7.4502与6.5243,在合成语音的相似度上优于其他元学习方法,并且能够更快适配新的说话人。
-
关键词
小样本生成
语音合成
元学习
说话人适配
特征提取
-
Keywords
few-shot generation
Text-To-Speech(TTS)
meta-learning
speaker adaption
feature extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-