-
题名城市台虚拟数字人的研究与实践
- 1
-
-
作者
孙德莱
-
机构
淄博市广播电视台
-
出处
《广播与电视技术》
2024年第10期15-19,共5页
-
文摘
本文通过调查分析城市台现有融媒体演播室的现实情况,对基于模板化制作的虚拟数字人资讯包装系统进行了研究和实践,在2D数字人系统的建设费用、制作流程、制作人员方面大幅降低了成本,实现了一种4K高效新媒体微视频/广播级电视栏目制作方式。
-
关键词
虚拟数字人
模板化制作
tacotron2模型
多模态
-
Keywords
Virtual digital human
Templated making
tacotron2 model
Multimodal
-
分类号
TP37
[自动化与计算机技术—计算机系统结构]
-
-
题名端到端的藏语语音合成方法
被引量:2
- 2
-
-
作者
拉巴顿珠
珠杰
欧珠
尼玛
-
机构
西藏大学信息科学技术学院西藏信息化省部共建协同创新中心
西藏民族大学
-
出处
《应用声学》
CSCD
北大核心
2023年第2期324-332,共9页
-
基金
国家自然科学基金项目(62066042,61872254,62162057)
教育部人文社会科学研究项目(21YJCZH059,20YJA740035)
西藏大学培育计划项目(ZDCZJH21-10)。
-
文摘
近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种语言和不同音色的语音合成。该文研究Tacotron2在藏语中的应用,取得了良好的实验结果。首先,通过自然语音采集、自动标注、声学分析等构建了一个中等规模(5500句)藏语卫藏方言的语音语料库,其中包括藏文音素转写、特殊符号处理和Mel谱等各项数据;其次,利用开源程序Tacotron2和上述语音库进行了藏语语音合成试验;最后,通过对合成语音和自然语音的偏差分析,和对合成语音的自然度的主观评价,表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变,提升了合成语音的自然度。因此,基于“端到端”的Tacotron2合成框架在藏语语音合成中具有重要的应用价值,值得进一步研究和推广应用。
-
关键词
语音合成
藏语
字音转换
端到端
tacotron2
-
Keywords
Speech synthesis
Tibetan
Phoneme transformation
End-to-end
tacotron2
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于CBHG的Mel谱精细结构重建
被引量:1
- 3
-
-
作者
唐君
张连海
李嘉欣
-
机构
信息工程大学
-
出处
《信息工程大学学报》
2022年第2期135-140,共6页
-
基金
国家自然科学基金资助项目(61673395,62171470)。
-
文摘
在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析并预测其缺失的精细结构,最后将这些精细结构叠加到解码输出的Mel谱中以生成细化后的Mel谱,从而提高合成语音的质量。实验结果表明,提出的后处理网络有效恢复了Mel谱在解码过程中丢失的精细结构,同时通过结合高性能、高效率的HiFi-GAN声码器,最终合成语音的平均主观意见分(Mean Opinion Score,MOS)达到4.10,相比基线提升了0.26。
-
关键词
语音合成
CBHG
Mel谱
后处理网络
Tacotron
2
HiFi-GAN
-
Keywords
speech synthesis
CBHG
Mel spectrum
post-processing network
Tacotron 2
HiFi-GAN
-
分类号
TN912.33
[电子电信—通信与信息系统]
-
-
题名一种基于改进注意力机制的实时鲁棒语音合成方法
被引量:1
- 4
-
-
作者
唐君
张连海
李嘉欣
-
机构
中国人民解放军战略支援部队信息工程大学信息系统工程学院
-
出处
《信号处理》
CSCD
北大核心
2022年第3期527-535,共9页
-
基金
国家自然科学基金资助项目(61673395)。
-
文摘
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度。在LJSpeech数据集上的实验表明,改进后的网络提高了注意力学习的速度和精度,合成语音的错误率相比基线降低了33.4%;同时,整个网络合成语音的速度相比之下提升约523倍,实时因子(Real Time Factor,RTF)为0.96,满足实时性的要求;此外,在语音质量方面,合成语音的平均主观意见分(Mean Opinion Score,MOS)达到3.88。
-
关键词
语音合成
注意力损失机制
Tacotron
2
WaveGlow
序列到序列
-
Keywords
speech synthesis
attention loss mechanism
Tacotron 2
WaveGlow
sequence to sequence
-
分类号
TN912.33
[电子电信—通信与信息系统]
-