基于非自回归模型中文语音合成系统研究与实现被引量：1

Research and Implementation of Chinese Speech Synthesis System Based on Non-autoregressive Model

下载PDF

导出

摘要针对传统语音合成质量差、自然度低和自回归模型训练时间较长,效率低等问题,提出了一种基于非自回归模型的中文语音合成方法。该方法相比于自回归模型训练效率拥有大幅提升,并在声码器中采用生成对抗网络,较传统语音合成方法合成音频质量有明显提升。该方法首先输入中文汉字经过前端处理转换为音素,再通过One-hot编码转换到音素嵌入层,通过位置编码确定音素序列位置信息,编码器中前馈网络负责将音素序列转换为隐藏序列,再添加可变信息适配器预测的音频特征,最后由解码器输出梅尔频谱到声码器生成音频波形。实验数据集采用专业中文女声10000句,实验结果表明主观意见得分为3.76,在合成质量方面明显优于传统参数式语音合成方法,训练时间只需要自回归模型的15%。 Aiming at the problems of poor quality and low naturalness of traditional speech synthesis,also long training time and low efficiency of autoregressive models such as Tacotron,this paper proposes a Chinese speech synthesis method based on non-autoregressive model.Compared with the training efficiency of the autoregressive model,this method has greatly improved the training efficiency,and adopts the generative confrontation network in the vocoder,which significantly improves the synthesized audio quality compared with the traditional speech synthesis method.In this method,the input phoneme is converted to the phoneme embedding layer through One-hot encoding,and the position information of the phoneme sequence is determined by position encoding.The feed-forward block in the encoder is responsible for converting the phoneme sequence into the hidden sequence,and then adds the audio features which are predicted by the variance adapter.Finally,the decoder outputs the Mel-spectrogram to the vocoder to generate audio waveforms.The experimental data set uses 10,000 professional Chinese female voices.The experimental results show that the mean opinion score is 3.76,which is significantly better than the traditional splicing speech synthesis method in terms of synthesis quality.The training time only needs 15%of the autoregressive model.

作者王志超吴浩李栋刘益岑 WANG Zhichao;WU Hao;LI Dong;LIU Yicen(School of Automation and Information Engineering,Sichuan University of Science&Engineering,Zigong 643000;Artificial Intelligence Key Laboratory of Sichuan Province,Zigong 643000;Electric Power Research Institute of State Grid Sichuan Electric Power Company,Chengdu 610000)

机构地区四川轻化工大学自动化与信息工程学院人工智能四川省重点实验室国网四川省电力公司电力科学研究院

出处《计算机与数字工程》 2023年第2期325-330,335,共7页 Computer & Digital Engineering

关键词中文语音合成非自回归模型自注意力可变信息适配器声码器 speech synthesis non-autoregressive model self-attention variance adaptor vocoder

分类号 TN912.33 [电子电信—通信与信息系统]

引文网络
相关文献

同被引文献4

1李武波,张蕾,舒鑫.基于Seq2Seq的生成式自动问答系统应用与研究[J].现代计算机,2017,23(24):57-60. 被引量：7
2王海坤,潘嘉,刘聪.语音识别技术的研究进展与展望[J].电信科学,2018,34(2):1-11. 被引量：75
3张伟生,王中卿,李寿山,周国栋.基于对话结构和联合学习的情感和意图分类[J].中文信息学报,2020,34(8):105-112. 被引量：2
4段红梅,汪军,马良河,徐冉.隐马尔可夫模型在语音识别中的应用[J].工科数学,2002,18(6):16-20. 被引量：9

引证文献1

1刘堂亮.基于深度学习的实时语音交互系统的设计与优化[J].计算机应用文摘,2024,40(6):33-35.

1栾立.元气森林升级换“气” 第二增长引擎押宝电解质水[J].中国食品,2023(5):106-107.
2严松思,珠杰,汪超.MP-CMLMs模型的藏汉机器翻译研究[J].计算机与数字工程,2023,51(2):401-404. 被引量：1
3沈赛拉,钟锋,梁兴,陈思悦,沈诗钰,陈璐静.基于随机森林和梯度提升决策树的高血压分析预测[J].计算机时代,2023(5):15-19.
4张士慧,姚旭亮.基于PLC语音播报一体化装置在炼钢生产中的应用[J].冶金设备,2022(S02):115-119.
5陈聪,王晓剑,徐俊元,胡磊,何天磊,梁辰.基于LSTM-ARIMA算法的发电机定子线棒出水温差预测[J].大电机技术,2023(5):43-48. 被引量：1
6张妮(编译).瑞士希梅尔豪斯桥[J].世界桥梁,2023,51(3):128-129.
7蔚淦丞,廖明军,刘俊杰,周雄.基于CNN和GRU的高阶调制自动编码器研究[J].电子技术应用,2023,49(5):41-46. 被引量：1
8陈丽敏,刘成伟,梁新民,张强,周厚德,游兴勇,刘道峰,彭思露.基于Python语言的ARIMA模型在江西省食源性疾病发病率预测中的应用[J].中国食品卫生杂志,2023,35(3):458-463. 被引量：3
9李文,陈佳伟,刘瑞雪,侯玉国,杜守国.张量时间序列预测T-Transformer模型[J].计算机工程与应用,2023,59(11):57-62. 被引量：2
10邵容,陈东方,王晓峰.非对称策略下基于前景信息的TIoU回归损失计算[J].计算机工程与应用,2023,59(11):112-118.

计算机与数字工程

2023年第2期

浏览历史

内容加载中请稍等...

基于非自回归模型中文语音合成系统研究与实现被引量：1

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于非自回归模型中文语音合成系统研究与实现 被引量：1

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于非自回归模型中文语音合成系统研究与实现被引量：1