期刊文献+
共找到1,659篇文章
< 1 2 83 >
每页显示 20 50 100
面向域外说话人适应场景的多层级解耦个性化语音合成
1
作者 高盛祥 杨元樟 +3 位作者 王琳钦 莫尚斌 余正涛 董凌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不... 个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 展开更多
关键词 语音合成 零资源 说话人表征 域外说话人 特征解耦
下载PDF
语音合成软件声纹特征的分析
2
作者 王向阳 孟利 梁文静 《警察技术》 2024年第6期51-53,共3页
通过研究合成语音的声纹特征,为语音同一认定提供帮助。分析语音合成软件工作原理,使用专业语音分析系统软件对合成语音的过零率、基频、共振峰等特征进行比对分析。得出结果:合成语音的过零率小于正常语音;阴平声调的音高低于正常语音... 通过研究合成语音的声纹特征,为语音同一认定提供帮助。分析语音合成软件工作原理,使用专业语音分析系统软件对合成语音的过零率、基频、共振峰等特征进行比对分析。得出结果:合成语音的过零率小于正常语音;阴平声调的音高低于正常语音,去声声调的音高低于正常语音;音强要高于正常语音;共振峰变化最大的集中在F4,其上升或下降的趋势各有差别,由具体发音音节所决定。结论:合成语音的声纹特征与正常语音存在较大差异。 展开更多
关键词 语音合成 过零率 基频 共振峰
下载PDF
基于层次化Conformer的语音合成
3
作者 吴克伟 韩超 +2 位作者 孙永宣 彭梦昊 谢昭 《计算机科学》 CSCD 北大核心 2024年第2期161-171,共11页
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于... 语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。 展开更多
关键词 语音合成 文本编码器 语音编码器 层次化模型 CONFORMER
下载PDF
基于时序对齐的风格控制语音合成算法
4
作者 郭傲 许柏炎 +1 位作者 蔡瑞初 郝志峰 《广东工业大学学报》 CAS 2024年第2期84-92,共9页
语音合成风格控制的目标是将自然语言转化为对应富有表现力的音频输出。基于Transformer的风格控制语音合成算法能在保持质量的情况下提高了合成速度,但仍存在不足:第一,在风格参考音频和文本长度差异大的情况下,存在合成音频部分风格... 语音合成风格控制的目标是将自然语言转化为对应富有表现力的音频输出。基于Transformer的风格控制语音合成算法能在保持质量的情况下提高了合成速度,但仍存在不足:第一,在风格参考音频和文本长度差异大的情况下,存在合成音频部分风格缺失的问题;第二,基于普通注意力的解码过程容易出现复读、漏读以及跳读的问题。针对以上问题,提出了一种基于时间对齐的风格控制语音合成算法(Temporal Alignment Text-to-Speech,TATTS)分别在编码和解码过程中有效利用时序信息。在编码过程中,TATTS提出了时序对齐的交叉注意力模块联合训练风格音频与文本表示,解决了不等长音频文本的对齐问题;在解码过程中,TATTS考虑了音频时序单调性,在Transformer解码器中引入了逐步单调的多头注意力机制,解决了合成音频中出现的错读问题。与基准模型相比,TATTS在LJSpeech和VCTK数据集上音频结果自然度分别提升了3.8%和4.8%,在VCTK数据集上风格相似度提升了10%,验证了该语音合成算法的有效性,并且体现出风格控制与迁移能力。 展开更多
关键词 语音合成 时序对齐 风格控制 TRANSFORMER 风格迁移
下载PDF
结合轻量卷积的非自回归语音合成方法
5
作者 钟巧霞 曾碧 +1 位作者 林镇涛 林伟 《计算机工程与设计》 北大核心 2024年第4期1166-1172,共7页
对如何有效捕捉音素之间的关联及如何合成韵律丰富的音频进行研究,提出一种结合轻量卷积的非自回归语音合成模型LCTTS。引入轻量卷积建立起音素之间的联系,解决发音出错问题。通过添加音高和能量预测器预测生成语音的韵律,解决音频韵律... 对如何有效捕捉音素之间的关联及如何合成韵律丰富的音频进行研究,提出一种结合轻量卷积的非自回归语音合成模型LCTTS。引入轻量卷积建立起音素之间的联系,解决发音出错问题。通过添加音高和能量预测器预测生成语音的韵律,解决音频韵律缺乏问题。训练模型获取梅尔频谱,结合预先训练好的声码器转化为音频。实验结果表明,提出的LCTTS模型优于先前提出的SpeedySpeech模型,在Emotional Speech Database数据集上平均意见得分获得2.8%的提升,梅尔倒谱失真测度下降0.15。 展开更多
关键词 语音合成 轻量级卷积 韵律合成 梅尔频谱生成 非自回归方法 深度学习 自然语言处理
下载PDF
基于跨语言迁移学习及联合训练的泰语语音合成
6
作者 张欣瑞 杨鉴 王展 《计算机科学》 CSCD 北大核心 2024年第S01期298-304,共7页
随着深度学习和神经网络的快速发展,基于深度神经网络的端到端语音合成系统因性能优异成为主流。然而近年来,泰语语音合成相关研究还不充分,主要原因是大规模泰语数据集稀缺且该语言拼写方式有其特殊性。为此,在低资源前提下基于FastSpe... 随着深度学习和神经网络的快速发展,基于深度神经网络的端到端语音合成系统因性能优异成为主流。然而近年来,泰语语音合成相关研究还不充分,主要原因是大规模泰语数据集稀缺且该语言拼写方式有其特殊性。为此,在低资源前提下基于FastSpeech2声学模型和StyleMelGAN声码器研究泰语语音合成。针对基线系统中存在的问题,提出了3个改进方法以进一步提高泰语合成语音的质量。(1)在泰语语言专家指导下,结合泰语语言学相关知识设计泰语G2P模型,旨在处理泰语文本中存在的特殊拼写方式;(2)根据所设计的泰语G2P模型转换的国际音标表示的音素,选择拥有相似音素输入单元且数据集丰富的语言进行跨语言迁移学习来解决泰语训练数据不足的问题;(3)采用FastSpeech2和StyleMelGAN声码器联合训练的方法解决声学特征失配的问题。为了验证所提方法的有效性,从注意力对齐图、客观评测MCD和主观评测MOS评分3方面进行测评。实验结果表明,使用所提泰语G2P模型可以获得更好的对齐效果进而得到更准确的音素持续时间,采用“所提泰语G2P模型+联合训练+迁移学习”方法的系统可以获得最好的语音合成质量,合成语音的MCD和MOS评分分别为7.43±0.82分和4.53分,明显优于基线系统的9.47±0.54分和1.14分。 展开更多
关键词 语音合成 低资源 泰语G2P模型 迁移学习 联合训练
下载PDF
基于元学习自适应的小样本语音合成
7
作者 吴郅昊 迟子秋 +1 位作者 肖婷 王喆 《计算机应用》 CSCD 北大核心 2024年第5期1629-1635,共7页
在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人... 在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人的过程中,很少考虑到在不同适配阶段模型特征的变化规律,导致生成语音不能在保证语音质量的情况下快速提升语音相似性。为了解决上述问题,提出一种使用元学习指导模型适配新说话人的方法,模型中通过元特征模块对适配过程进行指导,在适配新说话人过程中提升语音相似度的同时保证生成语音质量;并通过步数编码器区分不同的适配阶段,以提升模型适配新说话人的速度。在Libri-TTS与VCTK数据集上通过主观与客观评价指标,在不同的适配步数下对现有快速适配新说话人的方法进行了比较,实验结果表明所提方法动态时间规整的梅尔倒谱失真(DTW-MCD)分别为7.4502与6.5243,在合成语音的相似度上优于其他元学习方法,并且能够更快适配新的说话人。 展开更多
关键词 小样本生成 语音合成 元学习 说话人适配 特征提取
下载PDF
情感语音合成中的语义及韵律特征嵌入方法
8
作者 石凡 杨鉴 《信息技术》 2024年第7期26-33,共8页
针对当前的情感语音合成方法存在合成音频容易忽略文本语义信息的问题,在文本编码器中引入BERT预训练模型,辅助编码器捕获文本语义特征,并提出了语义及韵律特征嵌入方法。缅甸语情感语料的缺乏导致模型难以合成高质量情感语音,因此,文... 针对当前的情感语音合成方法存在合成音频容易忽略文本语义信息的问题,在文本编码器中引入BERT预训练模型,辅助编码器捕获文本语义特征,并提出了语义及韵律特征嵌入方法。缅甸语情感语料的缺乏导致模型难以合成高质量情感语音,因此,文中通过微调各个网络模块参数的方法探索缅甸语情感语音合成模型的训练方法。实验结果表明,文中提出的特征嵌入方法以及训练方法在情感语料缺乏情况下仍能合成出高质量的情感语音,平均情感意见得分分别为4.16与4.18。 展开更多
关键词 缅甸语 情感语音合成 语义特征 韵律特征 微调
下载PDF
低资源非自回归壮语语音合成
9
作者 王杰 秦董洪 《中央民族大学学报(自然科学版)》 2024年第2期40-47,共8页
基于FastSpeech2模型,文章提出了非自回归的壮语语音合成模型Zhuang-TTS。为了提升模型合成壮语语音的韵律,根据壮语特点及实地调查提出了一套新的壮语音系(声调、声母或辅音、韵母或元音),同时针对壮语声学特点进行了改进:(1)使用壮语... 基于FastSpeech2模型,文章提出了非自回归的壮语语音合成模型Zhuang-TTS。为了提升模型合成壮语语音的韵律,根据壮语特点及实地调查提出了一套新的壮语音系(声调、声母或辅音、韵母或元音),同时针对壮语声学特点进行了改进:(1)使用壮语音素序列表征壮语发音信息;(2)使用音素级的声学调节器(与FastPitch类似),使合成结果更加稳定;(3)使用Conformer代替FastSpeech2模型中的Transformer,同时构建了一个壮语语音合成语料库。实验结果表明,Zhuang-TTS在韵律方面的意见评分(Mean Opinion Score, MOS)达到3.90,合成实时率达8.65×10^(-2)。该模型在合成壮语语音的质量和速度方面获得了较大提升,优于Tacotron2和FastSpeech2基线模型,研究推动了壮语语音合成领域的发展。 展开更多
关键词 壮语语音合成 非自回归声学模型 非自回归声码器 CONFORMER
下载PDF
基于VITS模型的藏语康巴方言语音合成研究
10
作者 王嘉文 高定国 +1 位作者 尼琼 巴果 《电脑知识与技术》 2024年第4期8-10,15,共4页
藏语康巴方言是一种分布在中国西南部的少数民族语言,数据量低且具有丰富的声调和声母变化,给语音合成带来了很大的挑战。目前,现有的藏语语音合成模型大多基于传统的声码器或神经网络架构,需要大量的标注数据和复杂的训练过程,而且合... 藏语康巴方言是一种分布在中国西南部的少数民族语言,数据量低且具有丰富的声调和声母变化,给语音合成带来了很大的挑战。目前,现有的藏语语音合成模型大多基于传统的声码器或神经网络架构,需要大量的标注数据和复杂的训练过程,而且合成效果不理想。文章通过改进VITS模型,使其运用于藏语语音合成,在一个小规模的藏语康巴方言语料库上训练了VITS模型。实验结果表明,VITS模型可以很好地应用于藏语康巴方言的语音合成,不仅可以保持语音的自然度和清晰度,还可以准确地反映语音的声调和声母变化。 展开更多
关键词 VITS 藏语 康巴方言 语音合成
下载PDF
基于梯度归一化的端到端语音合成自适应损失权衡
11
作者 陈宽 陈涛 +2 位作者 尤玮珂 周琳娜 杨忠良 《网络空间安全科学学报》 2024年第1期72-82,共11页
语音合成技术是指给定文本经过模型处理生成目标说话人语音的过程,该技术在现实社会中已经得到广泛应用。在众多的语音合成模型中,VITS(The Variational Inference for Text-to-Speech)模型将多任务损失函数进行有效组合,相比以往的模型... 语音合成技术是指给定文本经过模型处理生成目标说话人语音的过程,该技术在现实社会中已经得到广泛应用。在众多的语音合成模型中,VITS(The Variational Inference for Text-to-Speech)模型将多任务损失函数进行有效组合,相比以往的模型,能够生成质量更高、听感更自然的语音。然而,现有模型依赖多个损失函数,暂时缺乏对其有效权衡的研究。因此,在现有模型损失函数的基础上,引入了梯度归一化自适应损失平衡优化方法,它根据模型不同损失函数的量级与不同子任务的训练速度来平衡各损失函数之间的权重,以验证该方法在语音合成任务中的适用性。在公开的中文语音合成数据集上评估了该方法合成语音的准确度与自然度,结果表明,采用此损失函数的模型在性能上得到了提升,证明了方法的有效性。 展开更多
关键词 文本转语音 端到端语音合成 多任务学习 多目标优化 梯度归一化
下载PDF
完全端到端的藏语语音合成方法
12
作者 拉巴顿珠 官政先 +2 位作者 德庆卓玛 张恒 珠杰 《中文信息学报》 CSCD 北大核心 2024年第9期82-92,116,共12页
在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性... 在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性差且推理速度慢的问题,研究了基于深度生成模型的完全端到端VITS模型及其在藏语语音合成中的应用。首先,通过自然语音采集、自动标注和声学分析等构建一个7000条中等规模的藏语卫藏方言语音数据库;其次,由于现有开源模型不能很好地表征藏文音节结构特征,且现有相关描述无法全面地刻画藏语语音结构,为此提出了现代藏文存在7种字形结构的主张,并将其转写成对应的音素序列作为模型的输入;最后,经典的开源模型VITS应用在上述语音数据上进行了藏语语音合成试验。同时,为了提高合成系统的鲁棒性,在模型中引入了预训练的音素强制对齐信息。实验结果表明,相比两阶段的方法,通过端到端建模不仅有效减少了模型的推理时间,进一步提高合成语音的质量,而且基于7种藏文字形结构的音素序列作为建模单元,显著提升藏语音段特征的覆盖率,从而缓解低资源且黏着语常见的数据稀疏带来发音错误,以及音素分散导致模型训练困难问题。 展开更多
关键词 语音合成 藏语 音节结构 字音转换 端到端
下载PDF
基于子音节表征的苗语语音合成方法
13
作者 蔡姗 王林 +3 位作者 谭棉 郭胜 吴磊 王飞 《科学技术与工程》 北大核心 2024年第19期8176-8185,共10页
少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发... 少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发音信息,以区分学习不同音节间的相似发音。根据文本序列和梅尔谱图之间对齐的单调性,引入单调对齐损失来指导注意力模块进行更准确的对齐学习,以减少因注意力机制的自回归性带来的跳词、重复等合成现象。为验证所提方法的有效性,以自建苗语语音合成语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的语音合成方法进行对比实验。实验结果表明,所提方法能够降低不同声调的相同词发音相似时导致的合成错误率,词错误率仅为0.96%,较基线方法改善了6.25%。 展开更多
关键词 苗语语音合成 子音节 单调对齐 语料库 梅尔谱图
下载PDF
情感语音合成综述
14
作者 施昊翔 张旭龙 +2 位作者 王健宗 程宁 肖京 《大数据》 2024年第5期56-73,共18页
作为语音领域一个重要的研究方向,语音合成致力于将文本转化为语音。随着深度学习技术的快速发展,语音合成的目的早已不仅仅是合成一段“能听懂”的音频这么简单,情感的加入往往能使语音变得更加具有表现力。基于此,情感语音合成在语音... 作为语音领域一个重要的研究方向,语音合成致力于将文本转化为语音。随着深度学习技术的快速发展,语音合成的目的早已不仅仅是合成一段“能听懂”的音频这么简单,情感的加入往往能使语音变得更加具有表现力。基于此,情感语音合成在语音中加入不同的情感并对情感进行调控,以生成灵活且准确的情感语音。从情感语音合成中的几个关键科学问题出发,分别对近几年来基于情感迁移、情感强度控制和情绪混合的发展进行了总结分析,并介绍了情感语音合成的相关数据集和评价指标,最后对情感语音合成进行了展望。 展开更多
关键词 情感语音合成 情感迁移 情感强度 深度学习
下载PDF
基于音频匹配的藏语驱动视觉语音合成算法研究
15
作者 韩西 梁凯 岳宇 《吉林大学学报(信息科学版)》 CAS 2024年第3期509-515,共7页
为解决唇部轮廓检测精度较低、视觉语音合成效果不好的问题,提出了基于音频匹配的藏语驱动视觉语音合成算法。该算法从藏语驱动视觉语音信号中提取短时能量和过零率,并建立语音信号的短时自相关函数。首先,提取语音信号中的特征信息,以... 为解决唇部轮廓检测精度较低、视觉语音合成效果不好的问题,提出了基于音频匹配的藏语驱动视觉语音合成算法。该算法从藏语驱动视觉语音信号中提取短时能量和过零率,并建立语音信号的短时自相关函数。首先,提取语音信号中的特征信息,以此获得藏语语音信号的基音轨迹,即音频特征;其次,建立了唇部时空分析模型,分析唇部轮廓在发音过程中变化趋势,采用主成分分析法提取唇部轮廓特征;最后,通过输入输出隐马尔可夫模型获取音频特征与唇部轮廓特征之间的关联,在音频匹配的基础上合成藏语驱动视觉语音。实验结果表明,该方法具有较高的唇部轮廓检测精度,视觉语音合成效果较好。 展开更多
关键词 音频匹配 短时自相关函数 时空分析模型 主成分分析法 视觉语音合成
下载PDF
少样本情感可控语音合成研究与应用
16
作者 张梦姣 杨捍 马军 《通信技术》 2024年第9期897-904,共8页
在深度合成技术快速发展的背景下,基于现有语音合成技术,特定人物的语音合成需要在专业的录音棚收集大量的数据,同时,合成语音情感仅限于录制的数据。在VITS2方法的基础上提出了新的情感可控语音合成模型,新增了预训练的说话人特征提取... 在深度合成技术快速发展的背景下,基于现有语音合成技术,特定人物的语音合成需要在专业的录音棚收集大量的数据,同时,合成语音情感仅限于录制的数据。在VITS2方法的基础上提出了新的情感可控语音合成模型,新增了预训练的说话人特征提取模块、情感特征提取模块、双向流网络损失计算模块和混合训练技巧,实现了少样本情况下情感可控语音合成。在AISHELL3数据集进行实验,结果表明,所提模型在少样本情况下具有更高的合成自然度和合成相似度。在EDS数据集上进行实验表明,所提模型在少样本情况下具有更高的情感相似度,相比于基线方法,在客观指标上合成字错误率也更低,进一步验证了所提方法的有效性。 展开更多
关键词 语音合成 少样本 情感可控 双向流网络 情感特征提取
下载PDF
语音合成技术对传统播音主持的影响及其发展路径
17
作者 高珅 《电视技术》 2024年第6期109-111,共3页
随着智能化技术的不断发展,其在播音主持领域的应用逐渐深入。从提高播报效率、节约成本等方面分析语音合成技术对传统播音主持的影响,从虚拟主持人的应用与发展等方面分析基于语音合成技术的播音主持的发展前景,以期促进传统播音主持... 随着智能化技术的不断发展,其在播音主持领域的应用逐渐深入。从提高播报效率、节约成本等方面分析语音合成技术对传统播音主持的影响,从虚拟主持人的应用与发展等方面分析基于语音合成技术的播音主持的发展前景,以期促进传统播音主持人提升自身工作能力,充分学习语音合成技术的逻辑、文字结构特点等,提高自身新闻播报效果,达到语音合成技术与传统播音主持共同发展的目的。 展开更多
关键词 语音合成技术 传统播音主持 虚拟主持人
下载PDF
AI语音合成技术在广播中的创新应用
18
作者 胡媛 《东西南北》 2024年第18期0080-0082,共3页
本文介绍了AI语音合成技术及运用其进行广播节目片头制作、新闻展述、人机对话等的创新实践,AI语音合成技术在广播 领域的创新应用可以节省人力成本、自动回复受众问题、丰富声音资源、创设虚拟场景等。未来语音合成技术加入音色与情感... 本文介绍了AI语音合成技术及运用其进行广播节目片头制作、新闻展述、人机对话等的创新实践,AI语音合成技术在广播 领域的创新应用可以节省人力成本、自动回复受众问题、丰富声音资源、创设虚拟场景等。未来语音合成技术加入音色与情感 的变化,或许可以如真人般与受众进行精彩、幽默的互动。但随之而来的岗位取代、直播风险、法律问题也同样值得人们关注与 思考。任何新科技的创新应用都应始终贯彻“以人为本”的理念,提升人类的生活品质,为人类和社会带来实际利益。 展开更多
关键词 AI语音合成技术 创新应用 发展 以人为本
下载PDF
基于混合密度网络的苗语语音合成方法
19
作者 蔡姗 郭胜 王林 《软件导刊》 2024年第4期31-37,共7页
苗语语音合成研究对民族文化的传承、保护和发展具有重要意义。针对苗语存在文字缺失、电子资源匮乏及数据难以获取导致其语音合成研究滞后的问题,提出一种基于混合密度网络的苗语语音合成方法。该方法根据持续时间来学习文本与语音间... 苗语语音合成研究对民族文化的传承、保护和发展具有重要意义。针对苗语存在文字缺失、电子资源匮乏及数据难以获取导致其语音合成研究滞后的问题,提出一种基于混合密度网络的苗语语音合成方法。该方法根据持续时间来学习文本与语音间的对齐,解决了根据注意力机制学习对齐时容易出现的漏词、重复等问题。利用混合密度网络提取文本真实的持续时间,并与持续时间预测器联合训练,不需要额外的外部对齐器或自回归模型来指导模型进行对齐学习,简化了模型训练过程。以自建苗语语音合成语料库Hmong_data为基准数据,与先进方法进行对比实验。实验结果显示,该方法的平均意见得分为3.89,较Tacotron2方法提升了0.41,且产生的对齐图更清晰、平滑,合成的语音是可理解和正确的。 展开更多
关键词 苗语 语音合成 混合密度网络 语料库
下载PDF
基于条件变分自编码器的端到端情感语音合成方法 被引量:4
20
作者 张建明 彭锦涛 +1 位作者 贾洪杰 毛启容 《信号处理》 CSCD 北大核心 2023年第4期678-687,共10页
情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均... 情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均表示,无法合成显著的情感语音。该文提出一种基于条件变分自编码器的端到端情感语音合成方法(Conditional Duration-Tacotron,CD-Tacotron),该方法在Tacotron2模型的基础上进行改进,引入条件变分自编码器从语音信号中解耦学习情感信息,并将其作为条件因子,然后通过使用情感标签将其编码为向量后与其他风格信息拼接,最终通过声谱预测网络合成情感语音。在ESD数据集上的主观和客观实验表明,与目前主流的方法GST-Tacotron和VAE-Tacotron相比,该文提出的方法可以生成更具表现力的情感语音。 展开更多
关键词 情感语音合成 条件变分自编码器 端到端 Tacotron
下载PDF
上一页 1 2 83 下一页 到第
使用帮助 返回顶部