期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
城市台虚拟数字人的研究与实践
1
作者 孙德莱 《广播与电视技术》 2024年第10期15-19,共5页
本文通过调查分析城市台现有融媒体演播室的现实情况,对基于模板化制作的虚拟数字人资讯包装系统进行了研究和实践,在2D数字人系统的建设费用、制作流程、制作人员方面大幅降低了成本,实现了一种4K高效新媒体微视频/广播级电视栏目制作... 本文通过调查分析城市台现有融媒体演播室的现实情况,对基于模板化制作的虚拟数字人资讯包装系统进行了研究和实践,在2D数字人系统的建设费用、制作流程、制作人员方面大幅降低了成本,实现了一种4K高效新媒体微视频/广播级电视栏目制作方式。 展开更多
关键词 虚拟数字人 模板化制作 tacotron2模型 多模态
下载PDF
端到端的藏语语音合成方法 被引量:2
2
作者 拉巴顿珠 珠杰 +1 位作者 欧珠 尼玛 《应用声学》 CSCD 北大核心 2023年第2期324-332,共9页
近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种... 近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种语言和不同音色的语音合成。该文研究Tacotron2在藏语中的应用,取得了良好的实验结果。首先,通过自然语音采集、自动标注、声学分析等构建了一个中等规模(5500句)藏语卫藏方言的语音语料库,其中包括藏文音素转写、特殊符号处理和Mel谱等各项数据;其次,利用开源程序Tacotron2和上述语音库进行了藏语语音合成试验;最后,通过对合成语音和自然语音的偏差分析,和对合成语音的自然度的主观评价,表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变,提升了合成语音的自然度。因此,基于“端到端”的Tacotron2合成框架在藏语语音合成中具有重要的应用价值,值得进一步研究和推广应用。 展开更多
关键词 语音合成 藏语 字音转换 端到端 tacotron2
下载PDF
基于CBHG的Mel谱精细结构重建 被引量:1
3
作者 唐君 张连海 李嘉欣 《信息工程大学学报》 2022年第2期135-140,共6页
在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析... 在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析并预测其缺失的精细结构,最后将这些精细结构叠加到解码输出的Mel谱中以生成细化后的Mel谱,从而提高合成语音的质量。实验结果表明,提出的后处理网络有效恢复了Mel谱在解码过程中丢失的精细结构,同时通过结合高性能、高效率的HiFi-GAN声码器,最终合成语音的平均主观意见分(Mean Opinion Score,MOS)达到4.10,相比基线提升了0.26。 展开更多
关键词 语音合成 CBHG Mel谱 后处理网络 Tacotron 2 HiFi-GAN
下载PDF
一种基于改进注意力机制的实时鲁棒语音合成方法 被引量:1
4
作者 唐君 张连海 李嘉欣 《信号处理》 CSCD 北大核心 2022年第3期527-535,共9页
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现... 针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度。在LJSpeech数据集上的实验表明,改进后的网络提高了注意力学习的速度和精度,合成语音的错误率相比基线降低了33.4%;同时,整个网络合成语音的速度相比之下提升约523倍,实时因子(Real Time Factor,RTF)为0.96,满足实时性的要求;此外,在语音质量方面,合成语音的平均主观意见分(Mean Opinion Score,MOS)达到3.88。 展开更多
关键词 语音合成 注意力损失机制 Tacotron 2 WaveGlow 序列到序列
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部