-
题名基于CNN-Transformer的欺骗语音检测
- 1
-
-
作者
徐童心
黄俊
-
机构
重庆邮电大学通信与信息工程学院
-
出处
《无线电工程》
2024年第5期1091-1098,共8页
-
基金
国家自然科学基金(61771085)。
-
文摘
语音合成和转换技术的不断更迭对声纹识别系统产生重大威胁。针对现有语音欺骗检测方法中难以适应多种欺骗类型,对未知欺骗攻击检测能力不足的问题,提出了一种结合卷积神经网络(Convolutional Neural Network,CNN)与Transformer的欺骗语音检测模型。设计基于坐标注意力(Coordinate Attention,CA)嵌入的SE-ResNet18的位置感知特征序列提取网络,将语音信号局部时频表示映射为高维特征序列并引入二维位置编码(two-Dimensional Position Encoding,2D-PE)保留特征之间的相对位置关系;提出多尺度自注意力机制从多个尺度建模特征序列之间的长期依赖关系,解决Transformer难以捕捉局部依赖的问题;引入特征序列池化(Sequence Pooling,SeqPool)提取话语级特征,保留Transformer层输出帧级特征序列之间的相关性信息。在ASVspoof2019大赛官方逻辑访问(Logic Access,LA)数据集的实验结果表明,提出的方法相对于当前先进的欺骗语音检测系统,等错误率(Equal Error Rate,EER)平均降低12.83%,串联检测成本函数(tandem Detection Cost Function,t-DCF)平均降低7.81%。
-
关键词
欺骗语音检测
位置感知序列
TRANSFORMER
特征序列池化
-
Keywords
spoofed speech detection
position aware sequence
Transformer
feature SeqPool
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-