-
题名少样本情感可控语音合成研究与应用
- 1
-
-
作者
张梦姣
杨捍
马军
-
机构
四川省工业互联网智能监测及应用工程技术研究中心
深圳市网联安瑞网络科技有限公司
-
出处
《通信技术》
2024年第9期897-904,共8页
-
文摘
在深度合成技术快速发展的背景下,基于现有语音合成技术,特定人物的语音合成需要在专业的录音棚收集大量的数据,同时,合成语音情感仅限于录制的数据。在VITS2方法的基础上提出了新的情感可控语音合成模型,新增了预训练的说话人特征提取模块、情感特征提取模块、双向流网络损失计算模块和混合训练技巧,实现了少样本情况下情感可控语音合成。在AISHELL3数据集进行实验,结果表明,所提模型在少样本情况下具有更高的合成自然度和合成相似度。在EDS数据集上进行实验表明,所提模型在少样本情况下具有更高的情感相似度,相比于基线方法,在客观指标上合成字错误率也更低,进一步验证了所提方法的有效性。
-
关键词
语音合成
少样本
情感可控
双向流网络
情感特征提取
-
Keywords
speech synthesis
few samples
emotionally controllable
bi-directional flow network
emotion feature extraction
-
分类号
TP302.1
[自动化与计算机技术—计算机系统结构]
-