期刊文献+

MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型 被引量:3

MonTTS:A Real-time and High-fidelity Mongolian TTS Model with Pure Non-autoregressive Mechanism
下载PDF
导出
摘要 针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进:①使用蒙古文音素序列来表征蒙古文发音信息;②提出音素级的声学调节器以学习长时韵律变化;③提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。同时,该文构建了一个当前最大规模的蒙古语语音合成数据库:MonSpeech。实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonTTS合成实时率达3.63×10^(-3),满足实时高保真合成要求。最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS)。 Aiming at real-time and high-fidelity Mongolian Text-to-Speech(TTS)generation,a FastSpeech2 based non-autoregressive Mongolian TTS system(short forMonTTS)is proposed.To improve the overall performance in terms of prosody naturalness and fidelity,MonTTS adopts three novel mechanisms:1)Mongolian phoneme sequence is used to represent the Mongolian pronunciation;2)phoneme-level variance adaptor is employed to learn the long-term prosody information;and 3)two duration aligners,i.e.Mongolian speech recognition and Mongolian autoregressive TTS based models,are used to provide the duration supervise signal.Besides,we build a large-scale Mongolian TTS corpus,named MonSpeech.The experimental results show that the MonTTS outperforms the state-of-the-art Tacotron-based Mongolian TTS and standard FastSpeech2 baseline systems significantly,with real-time rate(RTF)of 3.63×10^(-3) and Mean Opinion Score(MOS)of 4.53(see https://github.com/ttslr/MonTTS).
作者 刘瑞 康世胤 高光来 李劲东 飞龙 LIU Rui;KANG Shiyin;GAO Guanglai;LI Jingdong;BAO Feilong(Department of Computer Science,Inner Mongolia University,Hohhot,Inner Mongolia 010021,China;Huya Technology Co.,Ltd,Guangzhou,Guangdong 511400,China;Sogou Technology Development Co.,Ltd,Beijing 100084,China)
出处 《中文信息学报》 CSCD 北大核心 2022年第7期86-97,共12页 Journal of Chinese Information Processing
基金 内蒙古大学“骏马计划”高层次人才引进项目(100000-22311201/002) 国家重点研发计划项目(2018YFE0122900) 国家自然科学基金(61773224,62066033) 内蒙古自然科学基金(2018MS06006) 内蒙古自治区成果转化项目(CGZH2018125) 内蒙古自治区应用技术研究与开发资金项目(2019GG372,2020GG0046)。
关键词 蒙古语语音合成 非自回归声学建模 非自回归神经声码器 实时 高保真 Mongolian text-to-speech(TTS) non-autoregressive acoustic model non-autoregressive neural vocoder real-time high-fidelity
  • 相关文献

参考文献1

二级参考文献15

  • 1井晓阳,罗飞,王亚棋.汉语语音合成技术综述[J].计算机科学,2012,39(S3):386-390. 被引量:13
  • 2吴义坚,王仁华.基于HMM的可训练中文语音合成[J].中文信息学报,2006,20(4):75-81. 被引量:17
  • 3敖其尔;巩政.一种波形拼接的语音合成实验[A]重庆,1994408-412.
  • 4Zen Hei-ga,Takashi N,Junichi Y. The HMM-based Speech Synthesis System (HTS) Version 2.0[A].2007.294-299.
  • 5确精扎布;陈壮;何正安.传统蒙古文名义字符、变形显现字符和控制字符使用规则[S]北京:中国标准出版社,2010.
  • 6清格尔泰.蒙古语语法[M]呼和浩特:内蒙古人民出版社,199165-6676-77.
  • 7Tokuda K,Masuko T,Miyazaki N. Hidden Markov models based on multi-space probability distribution for pitch pattern modeling[A].Arizona,1999.229-232.
  • 8masuko T,Tokuda K,Kobayashi T. Speech synthesis from HMMs using dynamic features[A].Atlanta,1996.389-392.
  • 9Kawabara H,Masuda-Katsuse I,deCheveigne A. Restructuring speech representations using pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction:possible role of a repetitive structure in sounds[J].SPEECH COMMUNICATION,1999,(3/4):187-207.
  • 10Paul B,David W. Praat:doing phonetics by computer[OL].http://www.fon.hum.uva.nl/praat/,2005.

共引文献5

同被引文献16

引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部