-
题名基于HiFi-GAN的改进型高效声码器
被引量:1
- 1
-
-
作者
唐君
张连海
李嘉欣
李宜亭
-
机构
中国人民解放军战略支援部队信息工程大学信息系统工程学院
-
出处
《信号处理》
CSCD
北大核心
2022年第9期1988-1998,共11页
-
基金
国家自然科学基金资助项目(61673395,62171470)。
-
文摘
HiFi-GAN声码器通过采用缩减网络层的通道数或层数的方式来有效减少模型参数、提高推理速度,但此种方式也严重损害了生成语音的质量。针对此问题,提出了两点改进措施:1.采用多尺度卷积策略对输入Mel谱进行处理来有效表征特征信息;2.采用一维深度可分离卷积替换生成器网络中的标准一维卷积。实验结果表明,多尺度卷积策略有效提升了模型性能,提高了生成语音的质量,而一维深度可分离卷积显著减少了模型参数量并加快了模型推理速度。通过将这两者结合,有效提升了HiFi-GAN模型的性能,具体来说,模型参数量约减少了67.72%,在GPU、CPU上的推理速度分别提升了11.72%、28.98%。此外,语音质量也得到略微提升,平均主观意见分(Mean Opinion Score,MOS)提升了0.07,客观语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)得分提升了0.05。
-
关键词
语音合成
声码器
hifi-gan
深度可分离卷积
多尺度卷积策略
-
Keywords
speech synthesis
vocoder
hifi-gan
depthwise separable convolution
multi-scale convolution strategy
-
分类号
TN912.33
[电子电信—通信与信息系统]
-
-
题名基于CBHG的Mel谱精细结构重建
被引量:1
- 2
-
-
作者
唐君
张连海
李嘉欣
-
机构
信息工程大学
-
出处
《信息工程大学学报》
2022年第2期135-140,共6页
-
基金
国家自然科学基金资助项目(61673395,62171470)。
-
文摘
在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析并预测其缺失的精细结构,最后将这些精细结构叠加到解码输出的Mel谱中以生成细化后的Mel谱,从而提高合成语音的质量。实验结果表明,提出的后处理网络有效恢复了Mel谱在解码过程中丢失的精细结构,同时通过结合高性能、高效率的HiFi-GAN声码器,最终合成语音的平均主观意见分(Mean Opinion Score,MOS)达到4.10,相比基线提升了0.26。
-
关键词
语音合成
CBHG
Mel谱
后处理网络
Tacotron
2
hifi-gan
-
Keywords
speech synthesis
CBHG
Mel spectrum
post-processing network
Tacotron 2
hifi-gan
-
分类号
TN912.33
[电子电信—通信与信息系统]
-