期刊文献+
共找到1,981篇文章
< 1 2 100 >
每页显示 20 50 100
基于HMM的语音合成系统的模型压缩 被引量:1
1
作者 涂奇雄 梁维谦 《电声技术》 2010年第7期48-51,共4页
提出了2种方法实现了基于HMM的语音合成系统的模型压缩。首先通过基于地址的模型压缩进行合理的内存管理,删除冗余信息。然后通过降低语音谱参数的维数,在尽量不损失语音质量的条件下压缩模型数据。试验表明,通过以上2种方法,模型大小从... 提出了2种方法实现了基于HMM的语音合成系统的模型压缩。首先通过基于地址的模型压缩进行合理的内存管理,删除冗余信息。然后通过降低语音谱参数的维数,在尽量不损失语音质量的条件下压缩模型数据。试验表明,通过以上2种方法,模型大小从293Mbyte压缩到6.98Mbyte,压缩幅度达到97.6%。同时,内存消耗及处理时间也能满足实时嵌入式应用的要求,主观评价显示合成的语音质量较高。 展开更多
关键词 基于hmm的语音合成 语音 模型压缩 嵌入式应用
下载PDF
面向域外说话人适应场景的多层级解耦个性化语音合成
2
作者 高盛祥 杨元樟 +3 位作者 王琳钦 莫尚斌 余正涛 董凌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不... 个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 展开更多
关键词 语音合成 零资源 说话人表征 域外说话人 特征解耦
下载PDF
合成语音与自然语音的音高差异——从18种语言核心词看合成语音的音高特点
3
作者 王帅 《天津外国语大学学报》 2024年第5期88-98,F0003,共12页
论文以18种语言核心词的合成语音和自然语音为研究对象,从音高均值、最大值、最小值、标准差以及单位时间内词的音高变化幅度分析了合成语音和自然语音的音高表现,考察了合成语音的音高特点。整体看来,较之自然语音,合成语音的整体音高... 论文以18种语言核心词的合成语音和自然语音为研究对象,从音高均值、最大值、最小值、标准差以及单位时间内词的音高变化幅度分析了合成语音和自然语音的音高表现,考察了合成语音的音高特点。整体看来,较之自然语音,合成语音的整体音高均值低于自然语音。在具体的语言中,合成语音的音高表现存在语言间的差异,部分语言的合成语音和自然语音的音高表现非常接近,而部分语言的合成语音和自然语音的音高表现呈现出了较大的差异。就单位时间内词音高的变化幅度而言,大部分语言的合成语音词音高变化幅度大于自然语音的词音高变化幅度,这种情况与合成语音中的词音高曲线存在畸变的现象有关。 展开更多
关键词 核心词 合成语音 自然语音 音高差异
下载PDF
合成语音与自然语音嗓音的声学对比分析——以18种语言为例
4
作者 冉启斌 黄玮 《天津外国语大学学报》 2024年第5期73-87,112,F0003,共17页
文章以18种语言的合成语音和自然语音为语料,考察了合成语音与自然语音在基频微扰、振幅微扰和谐噪比三个嗓音参数上的差异。实验表明:18种语言的合成语音基频微扰均要大于自然语音,其中15种具有统计上的显著差异;14种语言的合成语音振... 文章以18种语言的合成语音和自然语音为语料,考察了合成语音与自然语音在基频微扰、振幅微扰和谐噪比三个嗓音参数上的差异。实验表明:18种语言的合成语音基频微扰均要大于自然语音,其中15种具有统计上的显著差异;14种语言的合成语音振幅微扰大于自然语音,其中13种具有统计上的显著差异;17种语言的合成语音谐噪比小于自然语音,其中15种具有统计上的显著差异。合成语音基频微扰、振幅微扰和谐噪比之间的相关性均比自然语音小。合成语音在声带振动的频率、振幅和嗓音信号的周期性上倾向于具有更强的不规律性。 展开更多
关键词 合成语音 嗓音声学分析 基频微扰 振幅微扰 谐噪比
下载PDF
基于层次化Conformer的语音合成
5
作者 吴克伟 韩超 +2 位作者 孙永宣 彭梦昊 谢昭 《计算机科学》 CSCD 北大核心 2024年第2期161-171,共11页
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于... 语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。 展开更多
关键词 语音合成 文本编码器 语音编码器 层次化模型 CONFORMER
下载PDF
基于时序对齐的风格控制语音合成算法
6
作者 郭傲 许柏炎 +1 位作者 蔡瑞初 郝志峰 《广东工业大学学报》 CAS 2024年第2期84-92,共9页
语音合成风格控制的目标是将自然语言转化为对应富有表现力的音频输出。基于Transformer的风格控制语音合成算法能在保持质量的情况下提高了合成速度,但仍存在不足:第一,在风格参考音频和文本长度差异大的情况下,存在合成音频部分风格... 语音合成风格控制的目标是将自然语言转化为对应富有表现力的音频输出。基于Transformer的风格控制语音合成算法能在保持质量的情况下提高了合成速度,但仍存在不足:第一,在风格参考音频和文本长度差异大的情况下,存在合成音频部分风格缺失的问题;第二,基于普通注意力的解码过程容易出现复读、漏读以及跳读的问题。针对以上问题,提出了一种基于时间对齐的风格控制语音合成算法(Temporal Alignment Text-to-Speech,TATTS)分别在编码和解码过程中有效利用时序信息。在编码过程中,TATTS提出了时序对齐的交叉注意力模块联合训练风格音频与文本表示,解决了不等长音频文本的对齐问题;在解码过程中,TATTS考虑了音频时序单调性,在Transformer解码器中引入了逐步单调的多头注意力机制,解决了合成音频中出现的错读问题。与基准模型相比,TATTS在LJSpeech和VCTK数据集上音频结果自然度分别提升了3.8%和4.8%,在VCTK数据集上风格相似度提升了10%,验证了该语音合成算法的有效性,并且体现出风格控制与迁移能力。 展开更多
关键词 语音合成 时序对齐 风格控制 TRANSFORMER 风格迁移
下载PDF
基于Group-Res2Block的智能合成语音说话人确认方法
7
作者 李菲 苏兆品 +2 位作者 王年松 杨波 张国富 《应用科学学报》 CAS CSCD 北大核心 2024年第4期709-722,共14页
针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的... 针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的分组,以增强说话人局部特征的上下文联系;其次,设计了并行结构的多尺度通道注意力特征融合机制,利用不同大小卷积核实现同一层级的特征在通道维度的特征选择,以获取更具表现力的说话人特征,避免信息冗余;最后,设计了串行结构的多尺度层注意力特征融合机制,构建层结构,将深浅层特征整体进行融合并赋予不同权重,以获取最优的特征表达。为验证所提出特征提取网络的有效性,构建了中英文两种智能合成语音数据集进行消融实验和对比实验。结果表明本文方法在该任务的评价指标精确度(accuracy,ACC)、等错误率(equal error rate,EER)和最小检测代价函数(minimum detection cost function,minDCF)上是最优的。此外,通过对模型泛化性能进行测试,验证了本文方法对未知智能语音算法的适用性。 展开更多
关键词 说话人确认 智能合成语音 Group-Res2Block深度神经网络 多尺度特征 注意力机制
下载PDF
结合轻量卷积的非自回归语音合成方法
8
作者 钟巧霞 曾碧 +1 位作者 林镇涛 林伟 《计算机工程与设计》 北大核心 2024年第4期1166-1172,共7页
对如何有效捕捉音素之间的关联及如何合成韵律丰富的音频进行研究,提出一种结合轻量卷积的非自回归语音合成模型LCTTS。引入轻量卷积建立起音素之间的联系,解决发音出错问题。通过添加音高和能量预测器预测生成语音的韵律,解决音频韵律... 对如何有效捕捉音素之间的关联及如何合成韵律丰富的音频进行研究,提出一种结合轻量卷积的非自回归语音合成模型LCTTS。引入轻量卷积建立起音素之间的联系,解决发音出错问题。通过添加音高和能量预测器预测生成语音的韵律,解决音频韵律缺乏问题。训练模型获取梅尔频谱,结合预先训练好的声码器转化为音频。实验结果表明,提出的LCTTS模型优于先前提出的SpeedySpeech模型,在Emotional Speech Database数据集上平均意见得分获得2.8%的提升,梅尔倒谱失真测度下降0.15。 展开更多
关键词 语音合成 轻量级卷积 韵律合成 梅尔频谱生成 非自回归方法 深度学习 自然语言处理
下载PDF
基于跨语言迁移学习及联合训练的泰语语音合成
9
作者 张欣瑞 杨鉴 王展 《计算机科学》 CSCD 北大核心 2024年第S01期298-304,共7页
随着深度学习和神经网络的快速发展,基于深度神经网络的端到端语音合成系统因性能优异成为主流。然而近年来,泰语语音合成相关研究还不充分,主要原因是大规模泰语数据集稀缺且该语言拼写方式有其特殊性。为此,在低资源前提下基于FastSpe... 随着深度学习和神经网络的快速发展,基于深度神经网络的端到端语音合成系统因性能优异成为主流。然而近年来,泰语语音合成相关研究还不充分,主要原因是大规模泰语数据集稀缺且该语言拼写方式有其特殊性。为此,在低资源前提下基于FastSpeech2声学模型和StyleMelGAN声码器研究泰语语音合成。针对基线系统中存在的问题,提出了3个改进方法以进一步提高泰语合成语音的质量。(1)在泰语语言专家指导下,结合泰语语言学相关知识设计泰语G2P模型,旨在处理泰语文本中存在的特殊拼写方式;(2)根据所设计的泰语G2P模型转换的国际音标表示的音素,选择拥有相似音素输入单元且数据集丰富的语言进行跨语言迁移学习来解决泰语训练数据不足的问题;(3)采用FastSpeech2和StyleMelGAN声码器联合训练的方法解决声学特征失配的问题。为了验证所提方法的有效性,从注意力对齐图、客观评测MCD和主观评测MOS评分3方面进行测评。实验结果表明,使用所提泰语G2P模型可以获得更好的对齐效果进而得到更准确的音素持续时间,采用“所提泰语G2P模型+联合训练+迁移学习”方法的系统可以获得最好的语音合成质量,合成语音的MCD和MOS评分分别为7.43±0.82分和4.53分,明显优于基线系统的9.47±0.54分和1.14分。 展开更多
关键词 语音合成 低资源 泰语G2P模型 迁移学习 联合训练
下载PDF
基于元学习自适应的小样本语音合成
10
作者 吴郅昊 迟子秋 +1 位作者 肖婷 王喆 《计算机应用》 CSCD 北大核心 2024年第5期1629-1635,共7页
在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人... 在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人的过程中,很少考虑到在不同适配阶段模型特征的变化规律,导致生成语音不能在保证语音质量的情况下快速提升语音相似性。为了解决上述问题,提出一种使用元学习指导模型适配新说话人的方法,模型中通过元特征模块对适配过程进行指导,在适配新说话人过程中提升语音相似度的同时保证生成语音质量;并通过步数编码器区分不同的适配阶段,以提升模型适配新说话人的速度。在Libri-TTS与VCTK数据集上通过主观与客观评价指标,在不同的适配步数下对现有快速适配新说话人的方法进行了比较,实验结果表明所提方法动态时间规整的梅尔倒谱失真(DTW-MCD)分别为7.4502与6.5243,在合成语音的相似度上优于其他元学习方法,并且能够更快适配新的说话人。 展开更多
关键词 小样本生成 语音合成 元学习 说话人适配 特征提取
下载PDF
基于注意力和挤压-激励Inception的双分支合成语音检测
11
作者 王晗 赵腊生 +2 位作者 张强 程银清 邱泽鹏 《计算机应用》 CSCD 北大核心 2024年第10期3217-3222,共6页
合成语音攻击给人们的生活带来巨大的威胁。为了解决现有模型从冗余信息中提取关键信息能力不足和单一模型无法综合利用多检测模型优势的问题,提出一种基于注意力和挤压-激励(SE)模块Inception(SE-Inc)的双分支(Dual-ABIB)合成语音检测... 合成语音攻击给人们的生活带来巨大的威胁。为了解决现有模型从冗余信息中提取关键信息能力不足和单一模型无法综合利用多检测模型优势的问题,提出一种基于注意力和挤压-激励(SE)模块Inception(SE-Inc)的双分支(Dual-ABIB)合成语音检测模型。首先,基于SincNet(Sinc-based convolutional neural Network)提取的初始特征图训练注意力分支合成语音检测模型,并输出注意力图;其次,将注意力图和初始特征图相乘后再叠加,并将结果作为SE-Inc分支的输入进行训练;最后,通过决策级加权融合处理2个分支获得的分类分数,从而实现合成语音检测。实验结果表明,所提模型在参数量为539×10^(3)的情况下,在ASVspoof2019数据集上获得了0.0332的最小串联检测代价函数(mint-DCF)和1.15%的等错误率(EER);与SE-ResABNet(Squeeze-Excitation ResNet Attention Branch Network)相比,所提模型在参数量仅为它的56%的情况下,min t-DCF和EER分别下降了34.5%和39.2%;同时,在ASVspoof2015和ASVspoof2021数据集上所提模型表现了更好的泛化能力。以上结果验证了所提模型能够在参数量较小的情况下,获得更低的min t-DCF和EER。 展开更多
关键词 注意力机制 挤压-激励模块 双分支 合成语音检测 决策级融合
下载PDF
情感语音合成中的语义及韵律特征嵌入方法
12
作者 石凡 杨鉴 《信息技术》 2024年第7期26-33,共8页
针对当前的情感语音合成方法存在合成音频容易忽略文本语义信息的问题,在文本编码器中引入BERT预训练模型,辅助编码器捕获文本语义特征,并提出了语义及韵律特征嵌入方法。缅甸语情感语料的缺乏导致模型难以合成高质量情感语音,因此,文... 针对当前的情感语音合成方法存在合成音频容易忽略文本语义信息的问题,在文本编码器中引入BERT预训练模型,辅助编码器捕获文本语义特征,并提出了语义及韵律特征嵌入方法。缅甸语情感语料的缺乏导致模型难以合成高质量情感语音,因此,文中通过微调各个网络模块参数的方法探索缅甸语情感语音合成模型的训练方法。实验结果表明,文中提出的特征嵌入方法以及训练方法在情感语料缺乏情况下仍能合成出高质量的情感语音,平均情感意见得分分别为4.16与4.18。 展开更多
关键词 缅甸语 情感语音合成 语义特征 韵律特征 微调
下载PDF
低资源非自回归壮语语音合成
13
作者 王杰 秦董洪 《中央民族大学学报(自然科学版)》 2024年第2期40-47,共8页
基于FastSpeech2模型,文章提出了非自回归的壮语语音合成模型Zhuang-TTS。为了提升模型合成壮语语音的韵律,根据壮语特点及实地调查提出了一套新的壮语音系(声调、声母或辅音、韵母或元音),同时针对壮语声学特点进行了改进:(1)使用壮语... 基于FastSpeech2模型,文章提出了非自回归的壮语语音合成模型Zhuang-TTS。为了提升模型合成壮语语音的韵律,根据壮语特点及实地调查提出了一套新的壮语音系(声调、声母或辅音、韵母或元音),同时针对壮语声学特点进行了改进:(1)使用壮语音素序列表征壮语发音信息;(2)使用音素级的声学调节器(与FastPitch类似),使合成结果更加稳定;(3)使用Conformer代替FastSpeech2模型中的Transformer,同时构建了一个壮语语音合成语料库。实验结果表明,Zhuang-TTS在韵律方面的意见评分(Mean Opinion Score, MOS)达到3.90,合成实时率达8.65×10^(-2)。该模型在合成壮语语音的质量和速度方面获得了较大提升,优于Tacotron2和FastSpeech2基线模型,研究推动了壮语语音合成领域的发展。 展开更多
关键词 壮语语音合成 非自回归声学模型 非自回归声码器 CONFORMER
下载PDF
基于VITS模型的藏语康巴方言语音合成研究
14
作者 王嘉文 高定国 +1 位作者 尼琼 巴果 《电脑知识与技术》 2024年第4期8-10,15,共4页
藏语康巴方言是一种分布在中国西南部的少数民族语言,数据量低且具有丰富的声调和声母变化,给语音合成带来了很大的挑战。目前,现有的藏语语音合成模型大多基于传统的声码器或神经网络架构,需要大量的标注数据和复杂的训练过程,而且合... 藏语康巴方言是一种分布在中国西南部的少数民族语言,数据量低且具有丰富的声调和声母变化,给语音合成带来了很大的挑战。目前,现有的藏语语音合成模型大多基于传统的声码器或神经网络架构,需要大量的标注数据和复杂的训练过程,而且合成效果不理想。文章通过改进VITS模型,使其运用于藏语语音合成,在一个小规模的藏语康巴方言语料库上训练了VITS模型。实验结果表明,VITS模型可以很好地应用于藏语康巴方言的语音合成,不仅可以保持语音的自然度和清晰度,还可以准确地反映语音的声调和声母变化。 展开更多
关键词 VITS 藏语 康巴方言 语音合成
下载PDF
基于梯度归一化的端到端语音合成自适应损失权衡
15
作者 陈宽 陈涛 +2 位作者 尤玮珂 周琳娜 杨忠良 《网络空间安全科学学报》 2024年第1期72-82,共11页
语音合成技术是指给定文本经过模型处理生成目标说话人语音的过程,该技术在现实社会中已经得到广泛应用。在众多的语音合成模型中,VITS(The Variational Inference for Text-to-Speech)模型将多任务损失函数进行有效组合,相比以往的模型... 语音合成技术是指给定文本经过模型处理生成目标说话人语音的过程,该技术在现实社会中已经得到广泛应用。在众多的语音合成模型中,VITS(The Variational Inference for Text-to-Speech)模型将多任务损失函数进行有效组合,相比以往的模型,能够生成质量更高、听感更自然的语音。然而,现有模型依赖多个损失函数,暂时缺乏对其有效权衡的研究。因此,在现有模型损失函数的基础上,引入了梯度归一化自适应损失平衡优化方法,它根据模型不同损失函数的量级与不同子任务的训练速度来平衡各损失函数之间的权重,以验证该方法在语音合成任务中的适用性。在公开的中文语音合成数据集上评估了该方法合成语音的准确度与自然度,结果表明,采用此损失函数的模型在性能上得到了提升,证明了方法的有效性。 展开更多
关键词 文本转语音 端到端语音合成 多任务学习 多目标优化 梯度归一化
下载PDF
完全端到端的藏语语音合成方法
16
作者 拉巴顿珠 官政先 +2 位作者 德庆卓玛 张恒 珠杰 《中文信息学报》 CSCD 北大核心 2024年第9期82-92,116,共12页
在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性... 在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性差且推理速度慢的问题,研究了基于深度生成模型的完全端到端VITS模型及其在藏语语音合成中的应用。首先,通过自然语音采集、自动标注和声学分析等构建一个7000条中等规模的藏语卫藏方言语音数据库;其次,由于现有开源模型不能很好地表征藏文音节结构特征,且现有相关描述无法全面地刻画藏语语音结构,为此提出了现代藏文存在7种字形结构的主张,并将其转写成对应的音素序列作为模型的输入;最后,经典的开源模型VITS应用在上述语音数据上进行了藏语语音合成试验。同时,为了提高合成系统的鲁棒性,在模型中引入了预训练的音素强制对齐信息。实验结果表明,相比两阶段的方法,通过端到端建模不仅有效减少了模型的推理时间,进一步提高合成语音的质量,而且基于7种藏文字形结构的音素序列作为建模单元,显著提升藏语音段特征的覆盖率,从而缓解低资源且黏着语常见的数据稀疏带来发音错误,以及音素分散导致模型训练困难问题。 展开更多
关键词 语音合成 藏语 音节结构 字音转换 端到端
下载PDF
采用局部相位量化的合成语音检测方法
17
作者 徐嘉 简志华 +1 位作者 金宏辉 杨曼 《电信科学》 北大核心 2024年第2期63-71,共9页
由于语音合成的便利性,合成伪装语音对说话人认证系统的安全构成了很大的威胁。为了进一步提升说话人认证系统的伪装语音检测能力,提出了一种利用语谱图频域信息的合成语音检测方法,它通过局部相位量化算法对语谱图频域信息进行描述。首... 由于语音合成的便利性,合成伪装语音对说话人认证系统的安全构成了很大的威胁。为了进一步提升说话人认证系统的伪装语音检测能力,提出了一种利用语谱图频域信息的合成语音检测方法,它通过局部相位量化算法对语谱图频域信息进行描述。首先,将语谱图分为若干子块,然后对每个子块进行局部相位量化,经直方图统计分析后获得局部相位量化特征向量并将该特征向量作为随机森林分类器的输入特征,实现合成语音检测。实验结果表明,该方法进一步降低了合成语音检测系统的串联检测代价数值,并且具有更强的泛化能力。 展开更多
关键词 说话人认证 伪装攻击 合成语音检测 局部相位量化
下载PDF
合成语音与自然语音的谱矩对比分析——以18种语言为例
18
作者 丁俊 《天津外国语大学学报》 2024年第5期99-110,F0003,共13页
文章以18种语言的核心词汇的合成语音为研究对象,以其自然语音为参照,通过提取谱重心、离散度、偏度和峰度4个谱矩参数,考察合成语音区别于自然语音的谱矩特点。结果发现,谱矩参数在合成语音和自然语音之间存在显著差异。从总体来看,合... 文章以18种语言的核心词汇的合成语音为研究对象,以其自然语音为参照,通过提取谱重心、离散度、偏度和峰度4个谱矩参数,考察合成语音区别于自然语音的谱矩特点。结果发现,谱矩参数在合成语音和自然语音之间存在显著差异。从总体来看,合成语音的4个谱矩参数均低于自然语音,但差异程度不同。合成语音与自然语音的峰度差异最大,偏度次之,离散度、谱重心的差异相对较小。对于不同参数的差异表现,总体分析与18种语言的具体对比分析结果一致,但不同语言的内部参数差异并不相同。 展开更多
关键词 合成语音 自然语音 谱重心 离散度 偏度 峰度
下载PDF
情感语音合成综述
19
作者 施昊翔 张旭龙 +2 位作者 王健宗 程宁 肖京 《大数据》 2024年第5期56-73,共18页
作为语音领域一个重要的研究方向,语音合成致力于将文本转化为语音。随着深度学习技术的快速发展,语音合成的目的早已不仅仅是合成一段“能听懂”的音频这么简单,情感的加入往往能使语音变得更加具有表现力。基于此,情感语音合成在语音... 作为语音领域一个重要的研究方向,语音合成致力于将文本转化为语音。随着深度学习技术的快速发展,语音合成的目的早已不仅仅是合成一段“能听懂”的音频这么简单,情感的加入往往能使语音变得更加具有表现力。基于此,情感语音合成在语音中加入不同的情感并对情感进行调控,以生成灵活且准确的情感语音。从情感语音合成中的几个关键科学问题出发,分别对近几年来基于情感迁移、情感强度控制和情绪混合的发展进行了总结分析,并介绍了情感语音合成的相关数据集和评价指标,最后对情感语音合成进行了展望。 展开更多
关键词 情感语音合成 情感迁移 情感强度 深度学习
下载PDF
基于子音节表征的苗语语音合成方法
20
作者 蔡姗 王林 +3 位作者 谭棉 郭胜 吴磊 王飞 《科学技术与工程》 北大核心 2024年第19期8176-8185,共10页
少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发... 少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发音信息,以区分学习不同音节间的相似发音。根据文本序列和梅尔谱图之间对齐的单调性,引入单调对齐损失来指导注意力模块进行更准确的对齐学习,以减少因注意力机制的自回归性带来的跳词、重复等合成现象。为验证所提方法的有效性,以自建苗语语音合成语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的语音合成方法进行对比实验。实验结果表明,所提方法能够降低不同声调的相同词发音相似时导致的合成错误率,词错误率仅为0.96%,较基线方法改善了6.25%。 展开更多
关键词 苗语语音合成 子音节 单调对齐 语料库 梅尔谱图
下载PDF
上一页 1 2 100 下一页 到第
使用帮助 返回顶部