期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向域外说话人适应场景的多层级解耦个性化语音合成
1
作者
高盛祥
杨元樟
+3 位作者
王琳钦
莫尚斌
余正涛
董凌
《广西师范大学学报(自然科学版)》
CAS
北大核心
2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不...
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。
展开更多
关键词
语音合成
零资源
说话人
表征
域外说话人
特征解耦
下载PDF
职称材料
题名
面向域外说话人适应场景的多层级解耦个性化语音合成
1
作者
高盛祥
杨元樟
王琳钦
莫尚斌
余正涛
董凌
机构
昆明理工大学信息工程与自动化学院
云南省人工智能重点实验室(昆明理工大学)
云南省媒体融合重点实验室(云南日报报业集团)
出处
《广西师范大学学报(自然科学版)》
CAS
北大核心
2024年第4期11-21,共11页
基金
国家自然科学基金(62376111,U23A20388,61972186,U21B2027)
云南高新技术产业发展项目(201606)
+3 种基金
云南省基础研究计划项目(202001AS070014)
云南省科技人才与平台计划项目(202105AC160018)
云南省媒体融合重点实验室开放课题(220225702)
云南省重点研发计划项目(202303AP140008,202103AA080015)。
文摘
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。
关键词
语音合成
零资源
说话人
表征
域外说话人
特征解耦
Keywords
speech synthesis
zero-shot
speaker representation
out-of-domain speaker
feature disentanglement
分类号
TN912.33 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向域外说话人适应场景的多层级解耦个性化语音合成
高盛祥
杨元樟
王琳钦
莫尚斌
余正涛
董凌
《广西师范大学学报(自然科学版)》
CAS
北大核心
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部