期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
低资源非自回归壮语语音合成
1
作者
王杰
秦董洪
《中央民族大学学报(自然科学版)》
2024年第2期40-47,共8页
基于FastSpeech2模型,文章提出了非自回归的壮语语音合成模型Zhuang-TTS。为了提升模型合成壮语语音的韵律,根据壮语特点及实地调查提出了一套新的壮语音系(声调、声母或辅音、韵母或元音),同时针对壮语声学特点进行了改进:(1)使用壮语...
基于FastSpeech2模型,文章提出了非自回归的壮语语音合成模型Zhuang-TTS。为了提升模型合成壮语语音的韵律,根据壮语特点及实地调查提出了一套新的壮语音系(声调、声母或辅音、韵母或元音),同时针对壮语声学特点进行了改进:(1)使用壮语音素序列表征壮语发音信息;(2)使用音素级的声学调节器(与FastPitch类似),使合成结果更加稳定;(3)使用Conformer代替FastSpeech2模型中的Transformer,同时构建了一个壮语语音合成语料库。实验结果表明,Zhuang-TTS在韵律方面的意见评分(Mean Opinion Score, MOS)达到3.90,合成实时率达8.65×10^(-2)。该模型在合成壮语语音的质量和速度方面获得了较大提升,优于Tacotron2和FastSpeech2基线模型,研究推动了壮语语音合成领域的发展。
展开更多
关键词
壮语语音合成
非
自回归
声学模型
非自回归声码器
CONFORMER
下载PDF
职称材料
MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型
被引量:
3
2
作者
刘瑞
康世胤
+2 位作者
高光来
李劲东
飞龙
《中文信息学报》
CSCD
北大核心
2022年第7期86-97,共12页
针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自...
针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进:①使用蒙古文音素序列来表征蒙古文发音信息;②提出音素级的声学调节器以学习长时韵律变化;③提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。同时,该文构建了一个当前最大规模的蒙古语语音合成数据库:MonSpeech。实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonTTS合成实时率达3.63×10^(-3),满足实时高保真合成要求。最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS)。
展开更多
关键词
蒙古语语音合成
非
自回归
声学建模
非
自回归
神经
声码器
实时
高保真
下载PDF
职称材料
题名
低资源非自回归壮语语音合成
1
作者
王杰
秦董洪
机构
广西民族大学人工智能学院
出处
《中央民族大学学报(自然科学版)》
2024年第2期40-47,共8页
基金
广西科技基地和人才专项(桂科AD23026054)
广西民族大学横向科研项目(2022450016000429)。
文摘
基于FastSpeech2模型,文章提出了非自回归的壮语语音合成模型Zhuang-TTS。为了提升模型合成壮语语音的韵律,根据壮语特点及实地调查提出了一套新的壮语音系(声调、声母或辅音、韵母或元音),同时针对壮语声学特点进行了改进:(1)使用壮语音素序列表征壮语发音信息;(2)使用音素级的声学调节器(与FastPitch类似),使合成结果更加稳定;(3)使用Conformer代替FastSpeech2模型中的Transformer,同时构建了一个壮语语音合成语料库。实验结果表明,Zhuang-TTS在韵律方面的意见评分(Mean Opinion Score, MOS)达到3.90,合成实时率达8.65×10^(-2)。该模型在合成壮语语音的质量和速度方面获得了较大提升,优于Tacotron2和FastSpeech2基线模型,研究推动了壮语语音合成领域的发展。
关键词
壮语语音合成
非
自回归
声学模型
非自回归声码器
CONFORMER
Keywords
Zhuang language speech synthesis
non-autoregressive acoustic model
non-autoregressive vocoder
Conformer
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型
被引量:
3
2
作者
刘瑞
康世胤
高光来
李劲东
飞龙
机构
内蒙古大学计算机学院
虎牙科技有限公司
搜狗科技发展有限公司
出处
《中文信息学报》
CSCD
北大核心
2022年第7期86-97,共12页
基金
内蒙古大学“骏马计划”高层次人才引进项目(100000-22311201/002)
国家重点研发计划项目(2018YFE0122900)
+3 种基金
国家自然科学基金(61773224,62066033)
内蒙古自然科学基金(2018MS06006)
内蒙古自治区成果转化项目(CGZH2018125)
内蒙古自治区应用技术研究与开发资金项目(2019GG372,2020GG0046)。
文摘
针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进:①使用蒙古文音素序列来表征蒙古文发音信息;②提出音素级的声学调节器以学习长时韵律变化;③提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。同时,该文构建了一个当前最大规模的蒙古语语音合成数据库:MonSpeech。实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonTTS合成实时率达3.63×10^(-3),满足实时高保真合成要求。最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS)。
关键词
蒙古语语音合成
非
自回归
声学建模
非
自回归
神经
声码器
实时
高保真
Keywords
Mongolian text-to-speech(TTS)
non-autoregressive acoustic model
non-autoregressive neural vocoder
real-time
high-fidelity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
低资源非自回归壮语语音合成
王杰
秦董洪
《中央民族大学学报(自然科学版)》
2024
0
下载PDF
职称材料
2
MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型
刘瑞
康世胤
高光来
李劲东
飞龙
《中文信息学报》
CSCD
北大核心
2022
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部