期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
低资源非自回归壮语语音合成
1
作者 王杰 秦董洪 《中央民族大学学报(自然科学版)》 2024年第2期40-47,共8页
基于FastSpeech2模型,文章提出了非自回归的壮语语音合成模型Zhuang-TTS。为了提升模型合成壮语语音的韵律,根据壮语特点及实地调查提出了一套新的壮语音系(声调、声母或辅音、韵母或元音),同时针对壮语声学特点进行了改进:(1)使用壮语... 基于FastSpeech2模型,文章提出了非自回归的壮语语音合成模型Zhuang-TTS。为了提升模型合成壮语语音的韵律,根据壮语特点及实地调查提出了一套新的壮语音系(声调、声母或辅音、韵母或元音),同时针对壮语声学特点进行了改进:(1)使用壮语音素序列表征壮语发音信息;(2)使用音素级的声学调节器(与FastPitch类似),使合成结果更加稳定;(3)使用Conformer代替FastSpeech2模型中的Transformer,同时构建了一个壮语语音合成语料库。实验结果表明,Zhuang-TTS在韵律方面的意见评分(Mean Opinion Score, MOS)达到3.90,合成实时率达8.65×10^(-2)。该模型在合成壮语语音的质量和速度方面获得了较大提升,优于Tacotron2和FastSpeech2基线模型,研究推动了壮语语音合成领域的发展。 展开更多
关键词 壮语语音合成 自回归声学模型 非自回归声码器 CONFORMER
下载PDF
MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型 被引量:3
2
作者 刘瑞 康世胤 +2 位作者 高光来 李劲东 飞龙 《中文信息学报》 CSCD 北大核心 2022年第7期86-97,共12页
针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自... 针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进:①使用蒙古文音素序列来表征蒙古文发音信息;②提出音素级的声学调节器以学习长时韵律变化;③提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。同时,该文构建了一个当前最大规模的蒙古语语音合成数据库:MonSpeech。实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonTTS合成实时率达3.63×10^(-3),满足实时高保真合成要求。最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS)。 展开更多
关键词 蒙古语语音合成 自回归声学建模 自回归神经声码器 实时 高保真
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部