期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于迁移学习双阶段训练的情感语音克隆技术
1
作者 李囡 郭浩 相洁 《计算机工程与设计》 北大核心 2024年第5期1533-1540,共8页
为解决传统基于SV2TTS架构的语音克隆系统合成语音缺乏丰富表达能力的问题,提出一种基于迁移学习双阶段训练说话人编码器的情感语音克隆方法。在说话人识别技术基础上,利用迁移学习,对说话人编码器进行音色克隆训练;在情感克隆训练阶段... 为解决传统基于SV2TTS架构的语音克隆系统合成语音缺乏丰富表达能力的问题,提出一种基于迁移学习双阶段训练说话人编码器的情感语音克隆方法。在说话人识别技术基础上,利用迁移学习,对说话人编码器进行音色克隆训练;在情感克隆训练阶段,采用情感语音数据集对其参数进行微调,提取具有情感信息的说话人特征。将此特征作为合成器的输入对梅尔谱的生成过程进行调节,通过声码器将此梅尔谱转换为具有目标说话人信息的情感语音。主客观分析结果表明,该方法所生成的克隆语音的情感相似度更高,音色相似度也有一定改善。 展开更多
关键词 迁移学习 情感语音克隆 情感语音合成 双阶段训练 说话人识别 说话人编码 参数微调
下载PDF
一种节奏与内容解纠缠的语音克隆模型
2
作者 王萌 姜丹 曹少中 《人工智能与机器人研究》 2024年第1期166-176,共11页
语音克隆是一种通过语音分析、说话人分类和语音编码等算法合成与参考语音非常相似的语音技术。为了增强说话人个人发音特征转移情况,提出了节奏与内容解纠缠的MRCD模型。通过节奏随机扰动模块的随机阈值重采样将语音信号所传递的节奏... 语音克隆是一种通过语音分析、说话人分类和语音编码等算法合成与参考语音非常相似的语音技术。为了增强说话人个人发音特征转移情况,提出了节奏与内容解纠缠的MRCD模型。通过节奏随机扰动模块的随机阈值重采样将语音信号所传递的节奏信息解纠缠,使语音节奏相互独立;利用梅尔内容增强模块获取说话人的相似发言特征内容,同时增加风格损失函数及循环一致性损失函数衡量生成的语音与源语音的谱图及说话人身份之间差异,最后用端到端的语音合成模型FastSpeech2进行语音克隆。为了进行实验评估,将该方法应用于公开的AISHELL3数据集进行语音转换任务。通过客观和主观评价指标对该模型进行评估,结果表明,转换后的语音在保持自然度得分的同时,在说话人相似度方面优于之前的方法。 展开更多
关键词 语音克隆 零样本 扬声器表示 内容增强
下载PDF
基于音色一致的语音克隆说话人特征提取方法
3
作者 李嘉欣 张连海 李宜亭 《信号处理》 CSCD 北大核心 2023年第4期719-729,共11页
当前基于预训练说话人编码器的语音克隆方法可以为训练过程中见到的说话人合成较高音色相似性的语音,但对于训练中未看到的说话人,语音克隆的语音在音色上仍然与真实说话人音色存在明显差别。针对此问题,本文提出了一种基于音色一致的... 当前基于预训练说话人编码器的语音克隆方法可以为训练过程中见到的说话人合成较高音色相似性的语音,但对于训练中未看到的说话人,语音克隆的语音在音色上仍然与真实说话人音色存在明显差别。针对此问题,本文提出了一种基于音色一致的说话人特征提取方法,该方法使用当前先进的说话人识别模型TitaNet作为说话人编码器的基本架构,并依据说话人音色在语音片段中保持不变的先验知识,引入一种音色一致性约束损失用于说话人编码器训练,以此提取更精确的说话人音色特征,增加说话人表征的鲁棒性和泛化性,最后将提取的特征应用端到端的语音合成模型VITS进行语音克隆。实验结果表明,本文提出的方法在2个公开的语音数据集上取得了相比基线系统更好的性能表现,提高了对未见说话人克隆语音的音色相似度。 展开更多
关键词 语音克隆 说话人编码器 说话人表征 音色一致性
下载PDF
一种基于x-vector说话人特征的语音克隆方法
4
作者 张雅欣 张连海 《信息工程大学学报》 2020年第6期664-669,共6页
基于SVTTS架构的语音克隆系统采用d-vector描述说话人编码特征,由于该特征提取过程中没有考虑到整段句子的语音信息,从而影响了克隆语音的相似度。针对此问题,提出一种基于x-vector说话人特征的语音克隆方法。该方法采用x-vector作为表... 基于SVTTS架构的语音克隆系统采用d-vector描述说话人编码特征,由于该特征提取过程中没有考虑到整段句子的语音信息,从而影响了克隆语音的相似度。针对此问题,提出一种基于x-vector说话人特征的语音克隆方法。该方法采用x-vector作为表征目标说话人的嵌入向量,拼接到合成器中,并通过声码器克隆出目标说话人的语音。实验结果表明采用x-vector的方法提取嵌入向量的相似度更高;与传统方法相比,该方法克隆语音的自然度和相似性分别提升了0.32和0.14。 展开更多
关键词 语音克隆 说话人编码 d-vector x-vector
下载PDF
一种三维度基于改进MFCC特征模型的AI克隆语音源鉴定方法 被引量:1
5
作者 王学光 诸珺文 张爱新 《计算机科学》 CSCD 北大核心 2023年第11期177-184,共8页
AI克隆语音技术的出现将对现代社会法治秩序造成致命冲击。近年来研究人员仅关注了AI合成语音与样本语音内容相同领域的研究,而对AI合成语音与样本内容不同的检材的鉴定研究却甚少,相关鉴定内容无法识别。为此,提出了一种三维度基于改进... AI克隆语音技术的出现将对现代社会法治秩序造成致命冲击。近年来研究人员仅关注了AI合成语音与样本语音内容相同领域的研究,而对AI合成语音与样本内容不同的检材的鉴定研究却甚少,相关鉴定内容无法识别。为此,提出了一种三维度基于改进MFCC特征模型对AI克隆语音源进行鉴定。首先对先前研究人员人工分析的AI克隆语音特性进行验证,总结出可识别的“共振峰F5异常活跃”与“能量、共振峰、音高曲线异常突变”的特征。其次基于AI克隆语音的特征运用二阶差分修正MFCC系数并采用“逆差逻辑推演法”将能量、共振峰、音高曲线突变特性进一步量化采样,将其定义为语音鉴定的特征向量三元组。然后以特征向量三元组为输入,运用D-S证据合成规则将三组检材与样本比对的结果融合。最后形成三维度基于改进MFCC特征参量的检材评定模型。人群随机采样实验结果表明,该AI克隆语音源鉴定方法对以同一人为克隆源所合成的AI克隆语音鉴定的平均概率为67.324%,标准差为7.32%,鉴定效果很好。 展开更多
关键词 AI克隆语音 MFCC特征 三维度语音建模 语音源鉴定
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部