-
题名一种融合激励和颤音建模的端到端歌唱合成方法
- 1
-
-
作者
周骁
胡亚军
潘嘉
胡国平
凌震华
-
机构
科大讯飞股份有限公司
中国科学技术大学信息科学技术学院
-
出处
《数据采集与处理》
CSCD
北大核心
2024年第2期406-415,共10页
-
基金
科技创新2030——“新一代人工智能”重大项目(2020AAA0103600)。
-
文摘
近年来,歌唱合成技术快速发展,基于变分推理和流模型的端到端歌唱合成(VISinger)成为主流,但其在效果上和真人仍有一定差距,主要体现在合成歌声中的音高听感不连续、颤音合成不佳及发音不稳定等。为此,本文针对性地提出了一系列改进方法:针对基频稳定性问题,提出在解码器中增加激励模块,将基频信息以激励信号的形式显式提供给解码器;针对颤音合成不自然问题,增加颤音预测模块,通过流式模型和变分数据增强,显式对歌声中的颤音进行建模;进一步在先验网络中增加ReZero策略。实验结果显示,增加激励信号能提升合成基频的稳定性,颤音建模对颤音的恢复有显著提升作用,ReZero策略对训练速度和发音稳定性有一定提升。主观测听中,本文提出的模型在歌唱合成自然度上相比VISinger有显著优势,平均意见分(Mean opinion score,MOS)达到3.95,对比两阶段建模方法DiffSinger+HiFiGAN也有明显优势,证明了本文所提方法的有效性。
-
关键词
端到端歌唱合成
神经网络
颤音建模
归一化流
变分数据增强
-
Keywords
end-to-end singing voice synthesis
neural networks
vibrato modeling
normalizing flow
variational data augmentation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-