现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(D...现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(DP-Res2Net),提出一种基于时域波形的半监督端到端虚假语音检测方法。首先,为了解决训练数据集和测试数据集两者数据分布差异较大的问题,采用半监督学习进行领域迁移;然后,对于特征工程,直接将时域采样点输入DP-Res2Net中,增加局部的多尺度信息,并充分利用音频片段之间的依赖性;最后,输入特征经过浅层卷积模块、特征融合模块、全局平均池化模块得到嵌入张量,用来判别自然语音与虚假伪造语音。在公开可用的ASVspoof 2021 Speech Deep Fake评估集和VCC数据集上评估了所提出方法的性能,实验结果表明它的等错误率(EER)为19.97%,与官方最优基线系统相比降低了10.8%。基于时域波形的半监督端到端检测虚假语音检测方法面对未知攻击时是有效的,且具有更高的泛化能力。展开更多
随着深度学习技术的发展,合成语音的质量和听感与真实自然语音越来越难以区分,这严重威胁了基于声纹识别相关应用的可靠性和安全性。现有研究从特征提取和后端二分类器两个维度上提出了各种方法用于伪造语音检测,取得了优异的效果。然而...随着深度学习技术的发展,合成语音的质量和听感与真实自然语音越来越难以区分,这严重威胁了基于声纹识别相关应用的可靠性和安全性。现有研究从特征提取和后端二分类器两个维度上提出了各种方法用于伪造语音检测,取得了优异的效果。然而,当模型面对未知的伪造类型数据时,模型检测准确率急剧下降,特别是对于跨数据集评估测试场景。受到自监督学习框架在多种语音识别下游任务成功经验的启发,提出一种基于预训练和微调结合的伪造语音检测框架。预训练使用无标签数据学习通用的语音表征,之后利用有标签的真实伪造语音数据集来微调整个网络参数,达到区分真实自然音和伪造语音的目的。该方法在ASVspoof 2019逻辑攻击数据集上的联合检测代价函数值为0.0061,等错误率(EER)值为0.19%,同时在ASVspoof 2015和Fake or Real跨数据集评测上也展现了良好的泛化能力。展开更多
文摘现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(DP-Res2Net),提出一种基于时域波形的半监督端到端虚假语音检测方法。首先,为了解决训练数据集和测试数据集两者数据分布差异较大的问题,采用半监督学习进行领域迁移;然后,对于特征工程,直接将时域采样点输入DP-Res2Net中,增加局部的多尺度信息,并充分利用音频片段之间的依赖性;最后,输入特征经过浅层卷积模块、特征融合模块、全局平均池化模块得到嵌入张量,用来判别自然语音与虚假伪造语音。在公开可用的ASVspoof 2021 Speech Deep Fake评估集和VCC数据集上评估了所提出方法的性能,实验结果表明它的等错误率(EER)为19.97%,与官方最优基线系统相比降低了10.8%。基于时域波形的半监督端到端检测虚假语音检测方法面对未知攻击时是有效的,且具有更高的泛化能力。
文摘随着深度学习技术的发展,合成语音的质量和听感与真实自然语音越来越难以区分,这严重威胁了基于声纹识别相关应用的可靠性和安全性。现有研究从特征提取和后端二分类器两个维度上提出了各种方法用于伪造语音检测,取得了优异的效果。然而,当模型面对未知的伪造类型数据时,模型检测准确率急剧下降,特别是对于跨数据集评估测试场景。受到自监督学习框架在多种语音识别下游任务成功经验的启发,提出一种基于预训练和微调结合的伪造语音检测框架。预训练使用无标签数据学习通用的语音表征,之后利用有标签的真实伪造语音数据集来微调整个网络参数,达到区分真实自然音和伪造语音的目的。该方法在ASVspoof 2019逻辑攻击数据集上的联合检测代价函数值为0.0061,等错误率(EER)值为0.19%,同时在ASVspoof 2015和Fake or Real跨数据集评测上也展现了良好的泛化能力。