期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
一种融合激励和颤音建模的端到端歌唱合成方法
1
作者 周骁 胡亚军 +2 位作者 潘嘉 胡国平 凌震华 《数据采集与处理》 CSCD 北大核心 2024年第2期406-415,共10页
近年来,歌唱合成技术快速发展,基于变分推理和流模型的端到端歌唱合成(VISinger)成为主流,但其在效果上和真人仍有一定差距,主要体现在合成歌声中的音高听感不连续、颤音合成不佳及发音不稳定等。为此,本文针对性地提出了一系列改进方法... 近年来,歌唱合成技术快速发展,基于变分推理和流模型的端到端歌唱合成(VISinger)成为主流,但其在效果上和真人仍有一定差距,主要体现在合成歌声中的音高听感不连续、颤音合成不佳及发音不稳定等。为此,本文针对性地提出了一系列改进方法:针对基频稳定性问题,提出在解码器中增加激励模块,将基频信息以激励信号的形式显式提供给解码器;针对颤音合成不自然问题,增加颤音预测模块,通过流式模型和变分数据增强,显式对歌声中的颤音进行建模;进一步在先验网络中增加ReZero策略。实验结果显示,增加激励信号能提升合成基频的稳定性,颤音建模对颤音的恢复有显著提升作用,ReZero策略对训练速度和发音稳定性有一定提升。主观测听中,本文提出的模型在歌唱合成自然度上相比VISinger有显著优势,平均意见分(Mean opinion score,MOS)达到3.95,对比两阶段建模方法DiffSinger+HiFiGAN也有明显优势,证明了本文所提方法的有效性。 展开更多
关键词 端到歌唱合成 神经网络 颤音建模 归一化流 变分数据增强
下载PDF
基于梯度归一化的端到端语音合成自适应损失权衡
2
作者 陈宽 陈涛 +2 位作者 尤玮珂 周琳娜 杨忠良 《网络空间安全科学学报》 2024年第1期72-82,共11页
语音合成技术是指给定文本经过模型处理生成目标说话人语音的过程,该技术在现实社会中已经得到广泛应用。在众多的语音合成模型中,VITS(The Variational Inference for Text-to-Speech)模型将多任务损失函数进行有效组合,相比以往的模型... 语音合成技术是指给定文本经过模型处理生成目标说话人语音的过程,该技术在现实社会中已经得到广泛应用。在众多的语音合成模型中,VITS(The Variational Inference for Text-to-Speech)模型将多任务损失函数进行有效组合,相比以往的模型,能够生成质量更高、听感更自然的语音。然而,现有模型依赖多个损失函数,暂时缺乏对其有效权衡的研究。因此,在现有模型损失函数的基础上,引入了梯度归一化自适应损失平衡优化方法,它根据模型不同损失函数的量级与不同子任务的训练速度来平衡各损失函数之间的权重,以验证该方法在语音合成任务中的适用性。在公开的中文语音合成数据集上评估了该方法合成语音的准确度与自然度,结果表明,采用此损失函数的模型在性能上得到了提升,证明了方法的有效性。 展开更多
关键词 文本转语音 端到语音合成 多任务学习 多目标优化 梯度归一化
下载PDF
轻量且基频可预测的端到端语音合成系统
3
作者 梁婷 艾斯卡尔·艾木都拉 +1 位作者 刘煌 徐颖 《南京师范大学学报(工程技术版)》 CAS 2023年第4期37-42,共6页
提出了一种轻量级的基频可控的完全端到端的语音合成模型.该模型基于目前最流行的完全的端到端的语音合成模型VITS做出了三处改进,使得合成的语音韵律感更强,从而提高语音合成的自然度和表现力,同时提高发音的准确性和推理速度.首先,引... 提出了一种轻量级的基频可控的完全端到端的语音合成模型.该模型基于目前最流行的完全的端到端的语音合成模型VITS做出了三处改进,使得合成的语音韵律感更强,从而提高语音合成的自然度和表现力,同时提高发音的准确性和推理速度.首先,引入帧先验网络得到细粒度的均值方差表示,且引入音素预测器和CTC loss以提高发音的稳定性.其次,在模型中使用音素真实时长对齐文本和音频帧,并且加入F0预测器,增强语音的韵律感.另外,用多频带和短时傅立叶变换替换原始模型中的Decoder,有效提高了模型的推理速度.最后,使用MOS测试和RTF作为实验主观和客观的评判标准.实验证明,模型在音频自然度和表现力方面提高了至少5%,且相比原始VITS推理速度提高了3倍. 展开更多
关键词 端到语音合成 韵律预测 逆快速傅立叶变换 变分字编码器 多频带
下载PDF
轨道交通车载端到端语音合成
4
作者 罗潇 刘悦 《机车电传动》 北大核心 2023年第6期122-128,共7页
高自然度的语音合成是车载人机交互进入高级智能化的基本要求之一。现阶段的轨道交通领域仍在广泛使用传统的低自然度语音合成算法,这与高速发展的智能化人机交互技术脱节。相比之下,端到端的深度学习语音合成算法凭借其近乎媲美人声的... 高自然度的语音合成是车载人机交互进入高级智能化的基本要求之一。现阶段的轨道交通领域仍在广泛使用传统的低自然度语音合成算法,这与高速发展的智能化人机交互技术脱节。相比之下,端到端的深度学习语音合成算法凭借其近乎媲美人声的自然度已经成为各领域语音合成的主流算法。文章介绍了一种适用于离线轨道交通车载环境的端到端深度学习语音合成算法,该算法的主观意见评分达到4.18,并且在车载嵌入式硬件平台英伟达Xavier上的实时率达到0.52。试验证明,该算法不仅在自然度等主观性能上远超传统语音合成算法,同时也具备在轨道交通离线车载环境下的工程实用性。 展开更多
关键词 轨道交通 车载人机交互 智能化 深度学习 端到语音合成
下载PDF
基于Tacotron模型和韵律修正的情感语音合成方法 被引量:2
5
作者 张昕 胡航烨 +1 位作者 曹欣怡 王蔚 《数据采集与处理》 CSCD 北大核心 2022年第4期909-916,共8页
语音合成技术日趋成熟,为了提高合成情感语音的质量,提出了一种端到端情感语音合成与韵律修正相结合的方法。在Tacotron模型合成的情感语音基础上,进行韵律参数的修改,提高合成系统的情感表达力。首先使用大型中性语料库训练Tacotron模... 语音合成技术日趋成熟,为了提高合成情感语音的质量,提出了一种端到端情感语音合成与韵律修正相结合的方法。在Tacotron模型合成的情感语音基础上,进行韵律参数的修改,提高合成系统的情感表达力。首先使用大型中性语料库训练Tacotron模型,再使用小型情感语料库训练,合成出具有情感的语音。然后采用Praat声学分析工具对语料库中的情感语音韵律特征进行分析并总结不同情感状态下的参数规律,最后借助该规律,对Tacotron合成的相应情感语音的基频、时长和能量进行修正,使情感表达更为精确。客观情感识别实验和主观评价的结果表明,该方法能够合成较为自然且表现力更加丰富的情感语音。 展开更多
关键词 语音合成 端到端合成 韵律修正 情感语音
下载PDF
深度学习语音合成技术综述 被引量:15
6
作者 张小峰 谢钧 +1 位作者 罗健欣 杨涛 《计算机工程与应用》 CSCD 北大核心 2021年第9期50-59,共10页
语音合成技术在人机交互中扮演着重要角色,深度学习的发展带动语音合成技术高速发展。基于深度学习的语音合成技术在合成语音的质量和速度上都超过了传统语音合成技术。从基于深度学习的声码器和声学模型出发对语音合成技术进行综述,探... 语音合成技术在人机交互中扮演着重要角色,深度学习的发展带动语音合成技术高速发展。基于深度学习的语音合成技术在合成语音的质量和速度上都超过了传统语音合成技术。从基于深度学习的声码器和声学模型出发对语音合成技术进行综述,探讨各类声码器和声学模型的工作原理及其优缺点,在此基础上对语音合成系统进行综述,系统综述经典的基于深度学习的语音合成系统,对基于深度学习的语音合成技术进行展望。 展开更多
关键词 语音合成 声码器 声学模型 端到语音合成系统
下载PDF
深度学习语音合成技术研究 被引量:5
7
作者 张小峰 谢钧 +1 位作者 罗健欣 俞璐 《计算机时代》 2020年第9期24-28,共5页
语音合成在人机交互中扮演着重要角色,伴随着深度学习的发展,语音合成也进入新的发展阶段。文章对基于深度学习的语音合成系统进行研究,总结分析深度学习语音合成特点,并详细介绍四个深度学习语音合成系统。这四个系统包含了单说话人、... 语音合成在人机交互中扮演着重要角色,伴随着深度学习的发展,语音合成也进入新的发展阶段。文章对基于深度学习的语音合成系统进行研究,总结分析深度学习语音合成特点,并详细介绍四个深度学习语音合成系统。这四个系统包含了单说话人、多说话人和任意说话人的语音合成,分析这些系统可以学习基于深度学习语音合成系统的原理,为研究人员提供重要的参考价值。 展开更多
关键词 语音合成 生成式语音合成 端到语音合成 迁移学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部