语音合成技术是指给定文本经过模型处理生成目标说话人语音的过程,该技术在现实社会中已经得到广泛应用。在众多的语音合成模型中,VITS(The Variational Inference for Text-to-Speech)模型将多任务损失函数进行有效组合,相比以往的模型...语音合成技术是指给定文本经过模型处理生成目标说话人语音的过程,该技术在现实社会中已经得到广泛应用。在众多的语音合成模型中,VITS(The Variational Inference for Text-to-Speech)模型将多任务损失函数进行有效组合,相比以往的模型,能够生成质量更高、听感更自然的语音。然而,现有模型依赖多个损失函数,暂时缺乏对其有效权衡的研究。因此,在现有模型损失函数的基础上,引入了梯度归一化自适应损失平衡优化方法,它根据模型不同损失函数的量级与不同子任务的训练速度来平衡各损失函数之间的权重,以验证该方法在语音合成任务中的适用性。在公开的中文语音合成数据集上评估了该方法合成语音的准确度与自然度,结果表明,采用此损失函数的模型在性能上得到了提升,证明了方法的有效性。展开更多
对于各类TTS(Text to Speech)系统而言,能否准确地预测韵律短语边界对TTS系统的效果有着关键性的影响.目前常使用决策树来做韵律短语边界预测,但这种方法受到了训练数据的均衡性以及决策算法本身无法达到全局最优的制约.为了改善预测效...对于各类TTS(Text to Speech)系统而言,能否准确地预测韵律短语边界对TTS系统的效果有着关键性的影响.目前常使用决策树来做韵律短语边界预测,但这种方法受到了训练数据的均衡性以及决策算法本身无法达到全局最优的制约.为了改善预测效果,在传统的决策树方法之上,将决策树使用的聚类属性与模糊决策相结合,提出通过多属性模糊决策方法来预测英文韵律短语边界.实验表明,使用这种方法后,效果比基于决策树的预测方法的效果有较大提升,F-Score由64. 4%提升到69. 3%,不可接受率也从28. 6%降低到21. 4%.展开更多
文摘语音合成技术是指给定文本经过模型处理生成目标说话人语音的过程,该技术在现实社会中已经得到广泛应用。在众多的语音合成模型中,VITS(The Variational Inference for Text-to-Speech)模型将多任务损失函数进行有效组合,相比以往的模型,能够生成质量更高、听感更自然的语音。然而,现有模型依赖多个损失函数,暂时缺乏对其有效权衡的研究。因此,在现有模型损失函数的基础上,引入了梯度归一化自适应损失平衡优化方法,它根据模型不同损失函数的量级与不同子任务的训练速度来平衡各损失函数之间的权重,以验证该方法在语音合成任务中的适用性。在公开的中文语音合成数据集上评估了该方法合成语音的准确度与自然度,结果表明,采用此损失函数的模型在性能上得到了提升,证明了方法的有效性。