期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于BERT的端到端语音合成方法 被引量:10
1
作者 安鑫 代子彪 +2 位作者 李阳 孙晓 任福继 《计算机科学》 CSCD 北大核心 2022年第4期221-226,共6页
针对基于RNN的神经网络语音合成模型训练和预测效率低下以及长距离信息丢失的问题,提出了一种基于BERT的端到端语音合成方法,在语音合成的Seq2Seq架构中使用自注意力机制(Self-Attention Mechanism)取代RNN作为编码器。该方法使用预训... 针对基于RNN的神经网络语音合成模型训练和预测效率低下以及长距离信息丢失的问题,提出了一种基于BERT的端到端语音合成方法,在语音合成的Seq2Seq架构中使用自注意力机制(Self-Attention Mechanism)取代RNN作为编码器。该方法使用预训练好的BERT作为模型的编码器(Encoder)从输入的文本内容中提取上下文信息,解码器(Decoder)采用与语音合成模型Tacotron2相同的架构输出梅尔频谱,最后使用训练好的WaveGlow网络将梅尔频谱转化为最终的音频结果。该方法在预训练BERT的基础上通过微调适配下游任务来大幅度减少训练参数和训练时间。同时,借助其自注意力(Self-Attention)机制还可以并行计算编码器中的隐藏状态,从而充分利用GPU的并行计算能力以提高训练效率,并能有效缓解远程依赖问题。与Tacotron2模型的对比实验表明,文中提出的模型能够在得到与Tacotron2模型相近效果的基础上,把训练速度提升1倍左右。 展开更多
关键词 语音合成 循环神经网络 Seq2Seq waveglow 注意力机制
下载PDF
一种基于改进注意力机制的实时鲁棒语音合成方法 被引量:1
2
作者 唐君 张连海 李嘉欣 《信号处理》 CSCD 北大核心 2022年第3期527-535,共9页
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现... 针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度。在LJSpeech数据集上的实验表明,改进后的网络提高了注意力学习的速度和精度,合成语音的错误率相比基线降低了33.4%;同时,整个网络合成语音的速度相比之下提升约523倍,实时因子(Real Time Factor,RTF)为0.96,满足实时性的要求;此外,在语音质量方面,合成语音的平均主观意见分(Mean Opinion Score,MOS)达到3.88。 展开更多
关键词 语音合成 注意力损失机制 Tacotron 2 waveglow 序列到序列
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部