低资源非自回归壮语语音合成

Low-resource Non-autoregressive Zhuang Speech Synthesis

下载PDF

导出

摘要基于FastSpeech2模型,文章提出了非自回归的壮语语音合成模型Zhuang-TTS。为了提升模型合成壮语语音的韵律,根据壮语特点及实地调查提出了一套新的壮语音系(声调、声母或辅音、韵母或元音),同时针对壮语声学特点进行了改进:(1)使用壮语音素序列表征壮语发音信息;(2)使用音素级的声学调节器(与FastPitch类似),使合成结果更加稳定;(3)使用Conformer代替FastSpeech2模型中的Transformer,同时构建了一个壮语语音合成语料库。实验结果表明,Zhuang-TTS在韵律方面的意见评分(Mean Opinion Score, MOS)达到3.90,合成实时率达8.65×10^(-2)。该模型在合成壮语语音的质量和速度方面获得了较大提升,优于Tacotron2和FastSpeech2基线模型,研究推动了壮语语音合成领域的发展。 This paper introduces a non-autoregressive Zhuang text-to-speech synthesis model,Zhuang-TTS,based on the FastSpeech2 model.To enhance the rhythmic quality of synthesized Zhuang speech,a new set of Zhuang phonetic features is proposed based on the characteristics of Zhuang language and on-field investigations.These features include tone,initial consonants or consonants,and final vowels or vowels.Improvements are made to address Zhuang language's acoustic characteristics:(i)Utilizing Zhuang phoneme sequences to represent pronunciation information;(ii)Employing a phoneme-level acoustic regulator(similar to FastPitch)for enhanced stability in synthesis results;(ili)Substituting the Conformer for the Transformer in the FastSpeech2 model,considering the acoustic characteristics of Zhuang language.Additionally,a Zhuang speech synthesis corpus is constructed.Experimental results show that Zhuang-TTS achieves a Mean Opinion Score(MOS)of 3.90 in terms of rhythm,a synthesis real-time rate of 8.65×10^(-2).The model's substantial improvements in the quality and speed of synthesizing Zhuang speech,outperforming the baseline models Tacotron2 and FastSpeech2,have also contributed to the advancement of the field of Zhuang speech synthesis.

作者王杰秦董洪 WANG Jie;QIN Donghong(School of Artificial Intelligence,Guangxi Minzu University,Nanning 530006,China)

机构地区广西民族大学人工智能学院

出处《中央民族大学学报（自然科学版）》 2024年第2期40-47,共8页 Journal of Minzu University of China(Natural Sciences Edition)

基金广西科技基地和人才专项(桂科AD23026054) 广西民族大学横向科研项目(2022450016000429)。

关键词壮语语音合成非自回归声学模型非自回归声码器 CONFORMER Zhuang language speech synthesis non-autoregressive acoustic model non-autoregressive vocoder Conformer

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1刘瑞,康世胤,高光来,李劲东,飞龙.MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型[J].中文信息学报,2022,36(7):86-97. 被引量：3

二级参考文献1

1赵建东,高光来,飞龙.基于HMM的蒙古语语音合成技术研究[J].计算机科学,2014,41(1):80-82. 被引量：6

共引文献2

1蔡姗,郭胜,王林.基于混合密度网络的苗语语音合成方法[J].软件导刊,2024,23(4):31-37.
2韩西,梁凯,岳宇.基于音频匹配的藏语驱动视觉语音合成算法研究[J].吉林大学学报（信息科学版）,2024,42(3):509-515.

1卢佳庭(壮族).环江魂回耙,一道让你垂涎三尺的美食[J].三月三（汉文版）,2019,0(6):92-92.
2徐海龙.书写他者文化:由壮族乐器“比咧”谈开[J].歌海,2020(2):47-52. 被引量：1
3何文绚,覃凤余.从江县刚边、高麻壮语语音变异探究[J].绥化学院学报,2023,43(11):75-77.
4李煜琨,孔建国,蒋培元,梁海军.面向空中交通管制的时频域语音增强技术研究[J].航空计算技术,2024,54(3):32-37.
5蔡姗,郭胜,王林.基于混合密度网络的苗语语音合成方法[J].软件导刊,2024,23(4):31-37.
6黄珊,花敏,杨正元,张依婷.智慧助老视角下数字文化体验质量多因素度量研究——以国家数字图书馆为例[J].老龄科学研究,2024,12(3):26-38.
7张雪芹,刘岗,王智能,罗飞,吴建华.基于多特征融合和深度学习的微观扩散预测[J].清华大学学报（自然科学版）,2024,64(4):688-699. 被引量：1
8董正坤,屈瑞,余疏桐,华凌,漆俊锋,卢闫晔,江萍,牛田野,张艺宝.基于稀疏重建锥形束CT和深度学习技术合成双能物质分解图[J].中华放射医学与防护杂志,2024,44(4):317-322.
9谭明,龚伟,廖茂辉,李弘艳,孙萌萌,杜天玮,王群武,张向阳.基于频变衰减弹性阻抗的纵、横波品质因子反演方法[J].断块油气田,2024,31(3):494-502.

中央民族大学学报（自然科学版）

2024年第2期

浏览历史

内容加载中请稍等...

低资源非自回归壮语语音合成

参考文献1

二级参考文献1

共引文献2

相关作者

相关机构

相关主题

浏览历史