期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Tacotron模型的油田射孔语音合成方案
1
作者
杜睿山
陈思路
+4 位作者
李阳
张可佳
杨丽波
解红涛
宋欣雨
《系统仿真技术》
2020年第4期231-234,共4页
射孔施工作业是油田开采的关键步骤之一。针对油田射孔操作依赖井场人工操控的局限,将语音合成技术应用到油田射孔操作中,实现了射孔设备远程操作。在油田射孔操作指令数据集的基础上,实现姿势指令与操作指令的映射,并使用Tacotron模型...
射孔施工作业是油田开采的关键步骤之一。针对油田射孔操作依赖井场人工操控的局限,将语音合成技术应用到油田射孔操作中,实现了射孔设备远程操作。在油田射孔操作指令数据集的基础上,实现姿势指令与操作指令的映射,并使用Tacotron模型的深度学习算法设计语音合成系统,通过梅尔频谱、梅尔倒谱距离等的实验对比分析,结果表明方案的有效性。
展开更多
关键词
油田射孔
语音合成
tacotron
下载PDF
职称材料
一种基于Tacotron 2的端到端中文语音合成方案
被引量:
13
2
作者
王国梁
陈梦楠
陈蕾
《华东师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2019年第4期111-119,共9页
颠覆性设计的端到端语音合成系统Tacotron 2,目前仅能处理英文.致力于对Tacotron 2进行多方位改进,设计了一种中文语音合成方案,主要包括:针对汉字不表音、变调和多音字等问题,添加预处理模块,将中文转化为注音字符;针对现有中文训练语...
颠覆性设计的端到端语音合成系统Tacotron 2,目前仅能处理英文.致力于对Tacotron 2进行多方位改进,设计了一种中文语音合成方案,主要包括:针对汉字不表音、变调和多音字等问题,添加预处理模块,将中文转化为注音字符;针对现有中文训练语料不足的情况,使用预训练解码器,在较少语料上获得了较好音质;针对中文语音合成急促停顿问题,采用对交叉熵损失进行加权,并用多层感知机代替变线性变换对停止符进行预测的策略,获得了有效改善;另外通过添加多头注意力机制进一步提高了中文语音合成音质.梅尔频谱、梅尔倒谱距离等的实验对比结果表明了方案的有效性:可以令Tacotron 2较好地适应中文语音合成的要求.
展开更多
关键词
语音合成
多头注意力
tacotron
2
下载PDF
职称材料
城市台虚拟数字人的研究与实践
3
作者
孙德莱
《广播与电视技术》
2024年第10期15-19,共5页
本文通过调查分析城市台现有融媒体演播室的现实情况,对基于模板化制作的虚拟数字人资讯包装系统进行了研究和实践,在2D数字人系统的建设费用、制作流程、制作人员方面大幅降低了成本,实现了一种4K高效新媒体微视频/广播级电视栏目制作...
本文通过调查分析城市台现有融媒体演播室的现实情况,对基于模板化制作的虚拟数字人资讯包装系统进行了研究和实践,在2D数字人系统的建设费用、制作流程、制作人员方面大幅降低了成本,实现了一种4K高效新媒体微视频/广播级电视栏目制作方式。
展开更多
关键词
虚拟数字人
模板化制作
tacotron
2模型
多模态
下载PDF
职称材料
基于条件变分自编码器的端到端情感语音合成方法
被引量:
4
4
作者
张建明
彭锦涛
+1 位作者
贾洪杰
毛启容
《信号处理》
CSCD
北大核心
2023年第4期678-687,共10页
情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均...
情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均表示,无法合成显著的情感语音。该文提出一种基于条件变分自编码器的端到端情感语音合成方法(Conditional Duration-Tacotron,CD-Tacotron),该方法在Tacotron2模型的基础上进行改进,引入条件变分自编码器从语音信号中解耦学习情感信息,并将其作为条件因子,然后通过使用情感标签将其编码为向量后与其他风格信息拼接,最终通过声谱预测网络合成情感语音。在ESD数据集上的主观和客观实验表明,与目前主流的方法GST-Tacotron和VAE-Tacotron相比,该文提出的方法可以生成更具表现力的情感语音。
展开更多
关键词
情感语音合成
条件变分自编码器
端到端
tacotron
下载PDF
职称材料
不同粒度嵌入单元的端到端语音合成技术研究
被引量:
1
5
作者
姑丽斯坦·奥布力喀斯木
帕力旦·吐尔逊
艾斯卡尔·艾木都拉
《现代计算机》
2021年第24期14-20,共7页
语音合成是人机交互、人工智能领域的核心技术,传统的语音合成技术相对复杂,需要大量领域专业知识,设计和实现的门槛较高。深度学习方法的应用,像WaveNet、Tacotron等提出降低了语音合成的实现难度。针对维吾尔语语音合成中的复杂前端,...
语音合成是人机交互、人工智能领域的核心技术,传统的语音合成技术相对复杂,需要大量领域专业知识,设计和实现的门槛较高。深度学习方法的应用,像WaveNet、Tacotron等提出降低了语音合成的实现难度。针对维吾尔语语音合成中的复杂前端,采用Tacotron端到端语音合成技术,使用文本以及所对应的音频数据作为学习模型,简化了语音合成的过程,成功实现了低资源语言维吾尔语的语音合成。为了选出最佳粒度单元进一步提高语音合成效果,在原本的Tacotron模型的基础上分别对维吾尔语词、词素、字符为不同粒度单元的文本进行语音合成实验,对结果进行主观及客观评价,得出了基于Tacotron的端到端模型中以字符为粒度单元的语音合成效果优于词和词素粒度单元的结论。这一结论有助于维吾尔语语音合成技术的更进一步发展。
展开更多
关键词
语音合成
深度学习
端到端
tacotron
多粒度
维吾尔语
下载PDF
职称材料
基于CBHG的Mel谱精细结构重建
被引量:
2
6
作者
唐君
张连海
李嘉欣
《信息工程大学学报》
2022年第2期135-140,共6页
在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析...
在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析并预测其缺失的精细结构,最后将这些精细结构叠加到解码输出的Mel谱中以生成细化后的Mel谱,从而提高合成语音的质量。实验结果表明,提出的后处理网络有效恢复了Mel谱在解码过程中丢失的精细结构,同时通过结合高性能、高效率的HiFi-GAN声码器,最终合成语音的平均主观意见分(Mean Opinion Score,MOS)达到4.10,相比基线提升了0.26。
展开更多
关键词
语音合成
CBHG
Mel谱
后处理网络
tacotron
2
HiFi-GAN
下载PDF
职称材料
端到端的藏语语音合成方法
被引量:
2
7
作者
拉巴顿珠
珠杰
+1 位作者
欧珠
尼玛
《应用声学》
CSCD
北大核心
2023年第2期324-332,共9页
近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种...
近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种语言和不同音色的语音合成。该文研究Tacotron2在藏语中的应用,取得了良好的实验结果。首先,通过自然语音采集、自动标注、声学分析等构建了一个中等规模(5500句)藏语卫藏方言的语音语料库,其中包括藏文音素转写、特殊符号处理和Mel谱等各项数据;其次,利用开源程序Tacotron2和上述语音库进行了藏语语音合成试验;最后,通过对合成语音和自然语音的偏差分析,和对合成语音的自然度的主观评价,表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变,提升了合成语音的自然度。因此,基于“端到端”的Tacotron2合成框架在藏语语音合成中具有重要的应用价值,值得进一步研究和推广应用。
展开更多
关键词
语音合成
藏语
字音转换
端到端
tacotron
2
下载PDF
职称材料
一种基于改进注意力机制的实时鲁棒语音合成方法
被引量:
1
8
作者
唐君
张连海
李嘉欣
《信号处理》
CSCD
北大核心
2022年第3期527-535,共9页
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现...
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度。在LJSpeech数据集上的实验表明,改进后的网络提高了注意力学习的速度和精度,合成语音的错误率相比基线降低了33.4%;同时,整个网络合成语音的速度相比之下提升约523倍,实时因子(Real Time Factor,RTF)为0.96,满足实时性的要求;此外,在语音质量方面,合成语音的平均主观意见分(Mean Opinion Score,MOS)达到3.88。
展开更多
关键词
语音合成
注意力损失机制
tacotron
2
WaveGlow
序列到序列
下载PDF
职称材料
题名
基于Tacotron模型的油田射孔语音合成方案
1
作者
杜睿山
陈思路
李阳
张可佳
杨丽波
解红涛
宋欣雨
机构
东北石油大学计算机与信息技术学院
出处
《系统仿真技术》
2020年第4期231-234,共4页
基金
黑龙江省哲学社会科学研究规划项目“基于知识图谱的社会学研究前沿探测方法研究”(19SHE280)。
文摘
射孔施工作业是油田开采的关键步骤之一。针对油田射孔操作依赖井场人工操控的局限,将语音合成技术应用到油田射孔操作中,实现了射孔设备远程操作。在油田射孔操作指令数据集的基础上,实现姿势指令与操作指令的映射,并使用Tacotron模型的深度学习算法设计语音合成系统,通过梅尔频谱、梅尔倒谱距离等的实验对比分析,结果表明方案的有效性。
关键词
油田射孔
语音合成
tacotron
Keywords
oilfield perforation
speech synthesis
tacotron
分类号
TN912.33 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
一种基于Tacotron 2的端到端中文语音合成方案
被引量:
13
2
作者
王国梁
陈梦楠
陈蕾
机构
国家电网安徽省电力有限公司信息通信分公司
华东师范大学计算机科学技术系
出处
《华东师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2019年第4期111-119,共9页
文摘
颠覆性设计的端到端语音合成系统Tacotron 2,目前仅能处理英文.致力于对Tacotron 2进行多方位改进,设计了一种中文语音合成方案,主要包括:针对汉字不表音、变调和多音字等问题,添加预处理模块,将中文转化为注音字符;针对现有中文训练语料不足的情况,使用预训练解码器,在较少语料上获得了较好音质;针对中文语音合成急促停顿问题,采用对交叉熵损失进行加权,并用多层感知机代替变线性变换对停止符进行预测的策略,获得了有效改善;另外通过添加多头注意力机制进一步提高了中文语音合成音质.梅尔频谱、梅尔倒谱距离等的实验对比结果表明了方案的有效性:可以令Tacotron 2较好地适应中文语音合成的要求.
关键词
语音合成
多头注意力
tacotron
2
Keywords
text to speech
multi-head attention
tacotron
2
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
城市台虚拟数字人的研究与实践
3
作者
孙德莱
机构
淄博市广播电视台
出处
《广播与电视技术》
2024年第10期15-19,共5页
文摘
本文通过调查分析城市台现有融媒体演播室的现实情况,对基于模板化制作的虚拟数字人资讯包装系统进行了研究和实践,在2D数字人系统的建设费用、制作流程、制作人员方面大幅降低了成本,实现了一种4K高效新媒体微视频/广播级电视栏目制作方式。
关键词
虚拟数字人
模板化制作
tacotron
2模型
多模态
Keywords
Virtual digital human
Templated making
tacotron
2 model
Multimodal
分类号
TP37 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于条件变分自编码器的端到端情感语音合成方法
被引量:
4
4
作者
张建明
彭锦涛
贾洪杰
毛启容
机构
江苏大学计算机科学与通信工程学院
江苏省大数据泛在感知与智能农业应用工程研究中心
出处
《信号处理》
CSCD
北大核心
2023年第4期678-687,共10页
基金
国家自然科学基金重点项目(U1836220)
国家自然科学基金面上项目(62176106)
+3 种基金
国家自然科学基金青年项目(61906077)
江苏省重点研究开发计划(BE2020036)
江苏省自然科学基金青年项目(BK20190838)
中国博士后科学基金项目(2020T130257,2020M671376)。
文摘
情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均表示,无法合成显著的情感语音。该文提出一种基于条件变分自编码器的端到端情感语音合成方法(Conditional Duration-Tacotron,CD-Tacotron),该方法在Tacotron2模型的基础上进行改进,引入条件变分自编码器从语音信号中解耦学习情感信息,并将其作为条件因子,然后通过使用情感标签将其编码为向量后与其他风格信息拼接,最终通过声谱预测网络合成情感语音。在ESD数据集上的主观和客观实验表明,与目前主流的方法GST-Tacotron和VAE-Tacotron相比,该文提出的方法可以生成更具表现力的情感语音。
关键词
情感语音合成
条件变分自编码器
端到端
tacotron
Keywords
emotional speech synthesis
conditional variational autoencoder
end-to-end
tacotron
分类号
TN912.33 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
不同粒度嵌入单元的端到端语音合成技术研究
被引量:
1
5
作者
姑丽斯坦·奥布力喀斯木
帕力旦·吐尔逊
艾斯卡尔·艾木都拉
机构
新疆大学软件学院
新疆大学信息科学与工程学院
出处
《现代计算机》
2021年第24期14-20,共7页
基金
国家重点研发计划(2017YFC0820602)。
文摘
语音合成是人机交互、人工智能领域的核心技术,传统的语音合成技术相对复杂,需要大量领域专业知识,设计和实现的门槛较高。深度学习方法的应用,像WaveNet、Tacotron等提出降低了语音合成的实现难度。针对维吾尔语语音合成中的复杂前端,采用Tacotron端到端语音合成技术,使用文本以及所对应的音频数据作为学习模型,简化了语音合成的过程,成功实现了低资源语言维吾尔语的语音合成。为了选出最佳粒度单元进一步提高语音合成效果,在原本的Tacotron模型的基础上分别对维吾尔语词、词素、字符为不同粒度单元的文本进行语音合成实验,对结果进行主观及客观评价,得出了基于Tacotron的端到端模型中以字符为粒度单元的语音合成效果优于词和词素粒度单元的结论。这一结论有助于维吾尔语语音合成技术的更进一步发展。
关键词
语音合成
深度学习
端到端
tacotron
多粒度
维吾尔语
Keywords
speech synthesis
deep learning
end-to-end
tacotron
different granular units
uyghur language
分类号
TN912.33 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于CBHG的Mel谱精细结构重建
被引量:
2
6
作者
唐君
张连海
李嘉欣
机构
信息工程大学
出处
《信息工程大学学报》
2022年第2期135-140,共6页
基金
国家自然科学基金资助项目(61673395,62171470)。
文摘
在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析并预测其缺失的精细结构,最后将这些精细结构叠加到解码输出的Mel谱中以生成细化后的Mel谱,从而提高合成语音的质量。实验结果表明,提出的后处理网络有效恢复了Mel谱在解码过程中丢失的精细结构,同时通过结合高性能、高效率的HiFi-GAN声码器,最终合成语音的平均主观意见分(Mean Opinion Score,MOS)达到4.10,相比基线提升了0.26。
关键词
语音合成
CBHG
Mel谱
后处理网络
tacotron
2
HiFi-GAN
Keywords
speech synthesis
CBHG
Mel spectrum
post-processing network
tacotron
2
HiFi-GAN
分类号
TN912.33 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
端到端的藏语语音合成方法
被引量:
2
7
作者
拉巴顿珠
珠杰
欧珠
尼玛
机构
西藏大学信息科学技术学院西藏信息化省部共建协同创新中心
西藏民族大学
出处
《应用声学》
CSCD
北大核心
2023年第2期324-332,共9页
基金
国家自然科学基金项目(62066042,61872254,62162057)
教育部人文社会科学研究项目(21YJCZH059,20YJA740035)
西藏大学培育计划项目(ZDCZJH21-10)。
文摘
近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种语言和不同音色的语音合成。该文研究Tacotron2在藏语中的应用,取得了良好的实验结果。首先,通过自然语音采集、自动标注、声学分析等构建了一个中等规模(5500句)藏语卫藏方言的语音语料库,其中包括藏文音素转写、特殊符号处理和Mel谱等各项数据;其次,利用开源程序Tacotron2和上述语音库进行了藏语语音合成试验;最后,通过对合成语音和自然语音的偏差分析,和对合成语音的自然度的主观评价,表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变,提升了合成语音的自然度。因此,基于“端到端”的Tacotron2合成框架在藏语语音合成中具有重要的应用价值,值得进一步研究和推广应用。
关键词
语音合成
藏语
字音转换
端到端
tacotron
2
Keywords
Speech synthesis
Tibetan
Phoneme transformation
End-to-end
tacotron
2
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于改进注意力机制的实时鲁棒语音合成方法
被引量:
1
8
作者
唐君
张连海
李嘉欣
机构
中国人民解放军战略支援部队信息工程大学信息系统工程学院
出处
《信号处理》
CSCD
北大核心
2022年第3期527-535,共9页
基金
国家自然科学基金资助项目(61673395)。
文摘
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度。在LJSpeech数据集上的实验表明,改进后的网络提高了注意力学习的速度和精度,合成语音的错误率相比基线降低了33.4%;同时,整个网络合成语音的速度相比之下提升约523倍,实时因子(Real Time Factor,RTF)为0.96,满足实时性的要求;此外,在语音质量方面,合成语音的平均主观意见分(Mean Opinion Score,MOS)达到3.88。
关键词
语音合成
注意力损失机制
tacotron
2
WaveGlow
序列到序列
Keywords
speech synthesis
attention loss mechanism
tacotron
2
WaveGlow
sequence to sequence
分类号
TN912.33 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Tacotron模型的油田射孔语音合成方案
杜睿山
陈思路
李阳
张可佳
杨丽波
解红涛
宋欣雨
《系统仿真技术》
2020
0
下载PDF
职称材料
2
一种基于Tacotron 2的端到端中文语音合成方案
王国梁
陈梦楠
陈蕾
《华东师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2019
13
下载PDF
职称材料
3
城市台虚拟数字人的研究与实践
孙德莱
《广播与电视技术》
2024
0
下载PDF
职称材料
4
基于条件变分自编码器的端到端情感语音合成方法
张建明
彭锦涛
贾洪杰
毛启容
《信号处理》
CSCD
北大核心
2023
4
下载PDF
职称材料
5
不同粒度嵌入单元的端到端语音合成技术研究
姑丽斯坦·奥布力喀斯木
帕力旦·吐尔逊
艾斯卡尔·艾木都拉
《现代计算机》
2021
1
下载PDF
职称材料
6
基于CBHG的Mel谱精细结构重建
唐君
张连海
李嘉欣
《信息工程大学学报》
2022
2
下载PDF
职称材料
7
端到端的藏语语音合成方法
拉巴顿珠
珠杰
欧珠
尼玛
《应用声学》
CSCD
北大核心
2023
2
下载PDF
职称材料
8
一种基于改进注意力机制的实时鲁棒语音合成方法
唐君
张连海
李嘉欣
《信号处理》
CSCD
北大核心
2022
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部