期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于Tacotron模型的油田射孔语音合成方案
1
作者 杜睿山 陈思路 +4 位作者 李阳 张可佳 杨丽波 解红涛 宋欣雨 《系统仿真技术》 2020年第4期231-234,共4页
射孔施工作业是油田开采的关键步骤之一。针对油田射孔操作依赖井场人工操控的局限,将语音合成技术应用到油田射孔操作中,实现了射孔设备远程操作。在油田射孔操作指令数据集的基础上,实现姿势指令与操作指令的映射,并使用Tacotron模型... 射孔施工作业是油田开采的关键步骤之一。针对油田射孔操作依赖井场人工操控的局限,将语音合成技术应用到油田射孔操作中,实现了射孔设备远程操作。在油田射孔操作指令数据集的基础上,实现姿势指令与操作指令的映射,并使用Tacotron模型的深度学习算法设计语音合成系统,通过梅尔频谱、梅尔倒谱距离等的实验对比分析,结果表明方案的有效性。 展开更多
关键词 油田射孔 语音合成 tacotron
下载PDF
一种基于Tacotron 2的端到端中文语音合成方案 被引量:13
2
作者 王国梁 陈梦楠 陈蕾 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第4期111-119,共9页
颠覆性设计的端到端语音合成系统Tacotron 2,目前仅能处理英文.致力于对Tacotron 2进行多方位改进,设计了一种中文语音合成方案,主要包括:针对汉字不表音、变调和多音字等问题,添加预处理模块,将中文转化为注音字符;针对现有中文训练语... 颠覆性设计的端到端语音合成系统Tacotron 2,目前仅能处理英文.致力于对Tacotron 2进行多方位改进,设计了一种中文语音合成方案,主要包括:针对汉字不表音、变调和多音字等问题,添加预处理模块,将中文转化为注音字符;针对现有中文训练语料不足的情况,使用预训练解码器,在较少语料上获得了较好音质;针对中文语音合成急促停顿问题,采用对交叉熵损失进行加权,并用多层感知机代替变线性变换对停止符进行预测的策略,获得了有效改善;另外通过添加多头注意力机制进一步提高了中文语音合成音质.梅尔频谱、梅尔倒谱距离等的实验对比结果表明了方案的有效性:可以令Tacotron 2较好地适应中文语音合成的要求. 展开更多
关键词 语音合成 多头注意力 tacotron 2
下载PDF
城市台虚拟数字人的研究与实践
3
作者 孙德莱 《广播与电视技术》 2024年第10期15-19,共5页
本文通过调查分析城市台现有融媒体演播室的现实情况,对基于模板化制作的虚拟数字人资讯包装系统进行了研究和实践,在2D数字人系统的建设费用、制作流程、制作人员方面大幅降低了成本,实现了一种4K高效新媒体微视频/广播级电视栏目制作... 本文通过调查分析城市台现有融媒体演播室的现实情况,对基于模板化制作的虚拟数字人资讯包装系统进行了研究和实践,在2D数字人系统的建设费用、制作流程、制作人员方面大幅降低了成本,实现了一种4K高效新媒体微视频/广播级电视栏目制作方式。 展开更多
关键词 虚拟数字人 模板化制作 tacotron2模型 多模态
下载PDF
基于条件变分自编码器的端到端情感语音合成方法 被引量:4
4
作者 张建明 彭锦涛 +1 位作者 贾洪杰 毛启容 《信号处理》 CSCD 北大核心 2023年第4期678-687,共10页
情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均... 情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均表示,无法合成显著的情感语音。该文提出一种基于条件变分自编码器的端到端情感语音合成方法(Conditional Duration-Tacotron,CD-Tacotron),该方法在Tacotron2模型的基础上进行改进,引入条件变分自编码器从语音信号中解耦学习情感信息,并将其作为条件因子,然后通过使用情感标签将其编码为向量后与其他风格信息拼接,最终通过声谱预测网络合成情感语音。在ESD数据集上的主观和客观实验表明,与目前主流的方法GST-Tacotron和VAE-Tacotron相比,该文提出的方法可以生成更具表现力的情感语音。 展开更多
关键词 情感语音合成 条件变分自编码器 端到端 tacotron
下载PDF
不同粒度嵌入单元的端到端语音合成技术研究 被引量:1
5
作者 姑丽斯坦·奥布力喀斯木 帕力旦·吐尔逊 艾斯卡尔·艾木都拉 《现代计算机》 2021年第24期14-20,共7页
语音合成是人机交互、人工智能领域的核心技术,传统的语音合成技术相对复杂,需要大量领域专业知识,设计和实现的门槛较高。深度学习方法的应用,像WaveNet、Tacotron等提出降低了语音合成的实现难度。针对维吾尔语语音合成中的复杂前端,... 语音合成是人机交互、人工智能领域的核心技术,传统的语音合成技术相对复杂,需要大量领域专业知识,设计和实现的门槛较高。深度学习方法的应用,像WaveNet、Tacotron等提出降低了语音合成的实现难度。针对维吾尔语语音合成中的复杂前端,采用Tacotron端到端语音合成技术,使用文本以及所对应的音频数据作为学习模型,简化了语音合成的过程,成功实现了低资源语言维吾尔语的语音合成。为了选出最佳粒度单元进一步提高语音合成效果,在原本的Tacotron模型的基础上分别对维吾尔语词、词素、字符为不同粒度单元的文本进行语音合成实验,对结果进行主观及客观评价,得出了基于Tacotron的端到端模型中以字符为粒度单元的语音合成效果优于词和词素粒度单元的结论。这一结论有助于维吾尔语语音合成技术的更进一步发展。 展开更多
关键词 语音合成 深度学习 端到端 tacotron 多粒度 维吾尔语
下载PDF
基于CBHG的Mel谱精细结构重建 被引量:2
6
作者 唐君 张连海 李嘉欣 《信息工程大学学报》 2022年第2期135-140,共6页
在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析... 在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析并预测其缺失的精细结构,最后将这些精细结构叠加到解码输出的Mel谱中以生成细化后的Mel谱,从而提高合成语音的质量。实验结果表明,提出的后处理网络有效恢复了Mel谱在解码过程中丢失的精细结构,同时通过结合高性能、高效率的HiFi-GAN声码器,最终合成语音的平均主观意见分(Mean Opinion Score,MOS)达到4.10,相比基线提升了0.26。 展开更多
关键词 语音合成 CBHG Mel谱 后处理网络 tacotron 2 HiFi-GAN
下载PDF
端到端的藏语语音合成方法 被引量:2
7
作者 拉巴顿珠 珠杰 +1 位作者 欧珠 尼玛 《应用声学》 CSCD 北大核心 2023年第2期324-332,共9页
近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种... 近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种语言和不同音色的语音合成。该文研究Tacotron2在藏语中的应用,取得了良好的实验结果。首先,通过自然语音采集、自动标注、声学分析等构建了一个中等规模(5500句)藏语卫藏方言的语音语料库,其中包括藏文音素转写、特殊符号处理和Mel谱等各项数据;其次,利用开源程序Tacotron2和上述语音库进行了藏语语音合成试验;最后,通过对合成语音和自然语音的偏差分析,和对合成语音的自然度的主观评价,表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变,提升了合成语音的自然度。因此,基于“端到端”的Tacotron2合成框架在藏语语音合成中具有重要的应用价值,值得进一步研究和推广应用。 展开更多
关键词 语音合成 藏语 字音转换 端到端 tacotron2
下载PDF
一种基于改进注意力机制的实时鲁棒语音合成方法 被引量:1
8
作者 唐君 张连海 李嘉欣 《信号处理》 CSCD 北大核心 2022年第3期527-535,共9页
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现... 针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度。在LJSpeech数据集上的实验表明,改进后的网络提高了注意力学习的速度和精度,合成语音的错误率相比基线降低了33.4%;同时,整个网络合成语音的速度相比之下提升约523倍,实时因子(Real Time Factor,RTF)为0.96,满足实时性的要求;此外,在语音质量方面,合成语音的平均主观意见分(Mean Opinion Score,MOS)达到3.88。 展开更多
关键词 语音合成 注意力损失机制 tacotron 2 WaveGlow 序列到序列
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部