情感伪造音频通过改变语音的情感状态来达到欺骗目的,这对现有的伪造音频检测模型提出了新的挑战。提出一种基于深度情感嵌入和图注意力网络的情感伪造音频检测方法(Graph Attention Networks Using Deep Emotion Embedding,GADE),旨在...情感伪造音频通过改变语音的情感状态来达到欺骗目的,这对现有的伪造音频检测模型提出了新的挑战。提出一种基于深度情感嵌入和图注意力网络的情感伪造音频检测方法(Graph Attention Networks Using Deep Emotion Embedding,GADE),旨在提高对情感伪造音频的检测能力。GADE由深度情感嵌入提取前端和基于图注意力网络的后端2个部分组成。深度情感嵌入提取前端利用共注意力机制结合传统手工特征与深度特征,分别提取语音中时域和频域的深度情感信息;基于图注意力网络的后端能够有效融合时域和频域信息,提高模型对情感伪造音频的检测性能。在ASVspoof 2019、ASVspoof 2021和EmoFake数据集上与常见的伪造音频检测模型进行对比实验。结果表明:提出的GADE在未使用情感伪造音频训练的情况下,相比现有的先进伪造音频检测模型AASIST,对情感伪造音频的检测性能提高了22.8%;在使用情感伪造音频训练后,对情感伪造音频的检测性能提高了77.3%。展开更多
文摘情感伪造音频通过改变语音的情感状态来达到欺骗目的,这对现有的伪造音频检测模型提出了新的挑战。提出一种基于深度情感嵌入和图注意力网络的情感伪造音频检测方法(Graph Attention Networks Using Deep Emotion Embedding,GADE),旨在提高对情感伪造音频的检测能力。GADE由深度情感嵌入提取前端和基于图注意力网络的后端2个部分组成。深度情感嵌入提取前端利用共注意力机制结合传统手工特征与深度特征,分别提取语音中时域和频域的深度情感信息;基于图注意力网络的后端能够有效融合时域和频域信息,提高模型对情感伪造音频的检测性能。在ASVspoof 2019、ASVspoof 2021和EmoFake数据集上与常见的伪造音频检测模型进行对比实验。结果表明:提出的GADE在未使用情感伪造音频训练的情况下,相比现有的先进伪造音频检测模型AASIST,对情感伪造音频的检测性能提高了22.8%;在使用情感伪造音频训练后,对情感伪造音频的检测性能提高了77.3%。