期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于迁移学习的自适应语音合成
被引量:
4
1
作者
孙志宏
叶焱
+1 位作者
刘太君
许高明
《数据通信》
2021年第5期47-51,共5页
为利用少量目标语料来建立自适应的语音合成系统,提出了基于迁移学习的自适应语音合成方法。本文首先在多说话人语料数据集中,用一个256维讲者嵌入(Speaker Embedding)在模型中表征不同的说话人,然后在Fastspeech2声学模型的基础上进行...
为利用少量目标语料来建立自适应的语音合成系统,提出了基于迁移学习的自适应语音合成方法。本文首先在多说话人语料数据集中,用一个256维讲者嵌入(Speaker Embedding)在模型中表征不同的说话人,然后在Fastspeech2声学模型的基础上进行改进作为声学特征提取器:尝试用参考编码器(Reference Encoder)将语音中的说话人风格进行"解耦合",以更加精确地提取到说话人的音色特征,进而训练出一个多说话人的预训练模型。在获取目标说话人少量语音(十几句话)的情况下,通过微调(Fine-tune)神经网络参数就可获得良好的自适应合成效果。最后,在目标说话人原音频和自适应生成的语音通过映射成空间向量进行对比,实验结果平均可达70%以上的相似度。
展开更多
关键词
迁移学习
自适应
语音合成
讲者嵌入
参考编码器
下载PDF
职称材料
题名
基于迁移学习的自适应语音合成
被引量:
4
1
作者
孙志宏
叶焱
刘太君
许高明
机构
宁波大学信息科学与工程学院
出处
《数据通信》
2021年第5期47-51,共5页
文摘
为利用少量目标语料来建立自适应的语音合成系统,提出了基于迁移学习的自适应语音合成方法。本文首先在多说话人语料数据集中,用一个256维讲者嵌入(Speaker Embedding)在模型中表征不同的说话人,然后在Fastspeech2声学模型的基础上进行改进作为声学特征提取器:尝试用参考编码器(Reference Encoder)将语音中的说话人风格进行"解耦合",以更加精确地提取到说话人的音色特征,进而训练出一个多说话人的预训练模型。在获取目标说话人少量语音(十几句话)的情况下,通过微调(Fine-tune)神经网络参数就可获得良好的自适应合成效果。最后,在目标说话人原音频和自适应生成的语音通过映射成空间向量进行对比,实验结果平均可达70%以上的相似度。
关键词
迁移学习
自适应
语音合成
讲者嵌入
参考编码器
分类号
TN912.33 [电子电信—通信与信息系统]
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于迁移学习的自适应语音合成
孙志宏
叶焱
刘太君
许高明
《数据通信》
2021
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部