基于注意力机制的端到端合成语音检测被引量：2

End-to-end Synthetic Speech Detection Based on Attention Mechanism

下载PDF

导出

摘要近年来深度伪造(Deepfake)技术的迅猛发展使合成语音的自然度和拟人度有了显著提升,对合成语音检测研究提出了更大挑战。本文将五种轻量级注意力模块中的机制改进为适用于语音序列的通道注意力机制和一维空间注意力机制,然后将模块分别嵌入到Inc-TSSDNet网络中,提出基于注意力机制的端到端合成语音检测系统。结果表明,改进系统能够重点关注某些对于检测真伪更关键的通道或区域来提高检测性能,相比于基线模型,引入注意力机制的十种模型在增加的参数量较少的情况下,ASVspoof2019测试集的等错误率(Equal Error Rate,EER)和最小串联检测代价函数(Minimum Tandem Detection Cost Function,min t-DCF)都有所降低,其中在池化层之前嵌入CBAM(Convolutional Block Attention Module)的模型测试集EER最低且具有较强的泛化性,在池化层之前嵌入ECA(Efficient Channel Attention)模块的模型测试集min t-DCF最低且统计性能较基线模型有显著提升。 In recent years the rapid development of deepfake technology has significantly improved the naturalness and personality of synthetic speech,which poses a greater challenge to the research of synthetic speech detection.In this paper,the mechanisms of five light-weight attention modules are incorporated and modified into channel attention mechanism and one-dimensional spatial attention mechanism suitable for speech sequence,and then the modules are embedded into IncTSSDNet respectively,establishing an end-to-end synthetic speech detection system based on attention mechanism.The results show that the improved system can focus on some channels or regions that are more critical to the detection of synthetic artifacts to improve the detection performance.Compared with the baseline model,the ten models with attention mechanism can effectively reduce the equal error rate(EER)and minimum tandem detection cost function(min t-DCF)on the evaluation set of ASVspoof2019 challenge,with a slight increase of the number of model parameters.Among them,the model embedded with CBAM(Convolutional Block Attention Module)before the pooling layer has the lowest EER and promising generalization capability,while the model embedded with ECA(Efficient Channel Attention)module before the pooling layer has the lowest min t-DCF and the statistical performance of the model is significantly improved compared with the baseline model.

作者王锦阳华光黄双 WANG Jinyang;HUA Guang;HUANG Shuang(School of Electronic Information,Wuhan University,Wuhan,Hubei 430072,China;Wuhan Second Ship Design and Research Institute,Wuhan,Hubei 430064,China)

机构地区武汉大学电子信息学院武汉第二船舶设计研究所

出处《信号处理》 CSCD 北大核心 2022年第9期1975-1987,共13页 Journal of Signal Processing

基金国家自然科学基金(61802284)。

关键词合成语音检测端到端通道注意力机制一维空间注意力机制 synthetic speech detection end-to-end channel attention mechanism one-dimensional spatial attention mechanism

分类号 TN912 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1陶建华,傅睿博,易江燕,王成龙,汪涛.语音伪造与鉴伪的发展与挑战[J].信息安全学报,2020,5(2):28-38. 被引量：16
2任延珍,刘晨雨,刘武洋,王丽娜.语音伪造及检测技术研究综述[J].信号处理,2021,37(12):2412-2439. 被引量：16
3梁瑞刚,吕培卓,赵月,陈鹏,邢豪,张颖君,韩冀中,赫然,赵险峰,李明,陈恺.视听觉深度伪造检测技术研究综述[J].信息安全学报,2020,5(2):1-17. 被引量：28

二级参考文献1

1陶建华,傅睿博,易江燕,王成龙,汪涛.语音伪造与鉴伪的发展与挑战[J].信息安全学报,2020,5(2):28-38. 被引量：16

共引文献53

1孙毅,武睿,蒋晓明,张旭东.深度伪造影像鉴定综述[J].信息网络安全,2020(S01):94-98. 被引量：1
2张超,陈莎.深度合成的外生性风险及平台治理原则[J].中国新闻传播研究,2022(5):39-49. 被引量：1
3徐燕萍.“深度伪造”背景下新闻事实核查的路径探析[J].新媒体研究,2021(4):8-10. 被引量：18
4夏翔,方磊,方四安,柳林.基于自监督预训练和有监督微调的伪造语音检测方法[J].计算机应用,2023,43(S01):263-268.
5盛春明.基于分数阶傅里叶变换和K-均值聚类的重放语音检测算法[J].电声技术,2022,46(8):118-123.
6芦天亮,涂君奥,杜彦辉,刘颖卿.基于大数据技术的电信网络诈骗案件分析实验设计[J].实验技术与管理,2020,37(10):50-55. 被引量：9
7陈冬梅.人工智能时代深度合成技术应用的风险及治理[J].辽宁行政学院学报,2020(5):76-79. 被引量：2
8仝鑫,王斌君,王润正,潘孝勤.面向自然语言处理的深度学习对抗样本综述[J].计算机科学,2021,48(1):258-267. 被引量：12
9韩语晨,华光,张海剑.基于Inception3D网络的眼部与口部区域协同视频换脸伪造检测[J].信号处理,2021,37(4):567-577. 被引量：7
10赵国宁.智能时代“深度合成”的技术逻辑与传播生态变革[J].新闻界,2021(6):65-76. 被引量：28

同被引文献7

1张鹏,王丽红,毛琳.语音合成系统中波形拼接过渡算法的研究[J].黑龙江大学自然科学学报,2011,28(6):867-870. 被引量：1
2梁瑞刚,吕培卓,赵月,陈鹏,邢豪,张颖君,韩冀中,赫然,赵险峰,李明,陈恺.视听觉深度伪造检测技术研究综述[J].信息安全学报,2020,5(2):1-17. 被引量：28
3张钰,刘建伟,左信.多任务学习[J].计算机学报,2020,43(7):1340-1378. 被引量：33
4徐剑,简志华,于佳祺,金易帆,游林,汪云路.采用完整局部二进制模式的伪装语音检测[J].电信科学,2021,37(5):91-99. 被引量：5
5任延珍,刘晨雨,刘武洋,王丽娜.语音伪造及检测技术研究综述[J].信号处理,2021,37(12):2412-2439. 被引量：16
6于佳祺,简志华,徐嘉,游林,汪云路,吴超.基于联合特征与随机森林的伪装语音检测[J].电信科学,2022,38(6):91-99. 被引量：4
7梁超,高勇.一种利用SE-Res2Net的合成语音检测系统[J].无线电工程,2022,52(9):1560-1565. 被引量：3

引证文献2

1袁甜甜,李志华,邱阳.基于辅助学习的改进端到端合成语音检测方法[J].计算机与现代化,2023(5):52-57.
2金宏辉,简志华,杨曼,吴超.采用圆周局部三值模式纹理特征的合成语音检测方法[J].电信科学,2023,39(6):85-95.

1韦庚吾,李英娜.基于改进Yolov4的输电线路鸟巢轻量级检测算法[J].电力科学与工程,2022,38(10):64-72. 被引量：3
2林润超,黄荣,董爱华.基于注意力机制和元特征二次重加权的小样本目标检测[J].计算机应用,2022,42(10):3025-3032. 被引量：3
3黄思佳,郑虹,郑肇谦.注意力机制改进信息增益模型[J].长春工业大学学报,2022,43(2):159-163.
4王国英.基于多粒度与动态词向量的机器翻译关键技术研究[J].自动化与仪器仪表,2022(9):181-185. 被引量：1
5武历展,王夏黎,张倩,王炜昊,李超.基于优化YOLOv5s的跌倒人物目标检测方法[J].图学学报,2022,43(5):791-802. 被引量：8
6鱼跃华,张海波,李昕,寇姣姣,李康,耿国华,周明全.基于数据增强的秦俑碎片深度分类模型[J].激光与光电子学进展,2022,59(18):101-110. 被引量：1
7葛瑶,高鹏,鲁大营.融合注意力机制的海洋涡旋特征检测与分类模型构建[J].曲阜师范大学学报（自然科学版）,2022,48(4):47-56.
8董成祥,魏昕,张坤鹏,汪永超,杨宇辉.基于图卷积网络的乘客打车需求预测[J].工业工程,2022,25(5):98-105. 被引量：3
9张伟,周旗开,李睿智,牛福.基于注意力机制的迷彩伪装人员检测算法研究[J].医疗卫生装备,2022,43(9):1-7. 被引量：4
10郭文博,石刚,刘晓松.小波包能量谱结合LSTM-CNN-CBAM的旋转机械故障诊断[J].组合机床与自动化加工技术,2022(10):69-73. 被引量：7

信号处理

2022年第9期

浏览历史

内容加载中请稍等...

基于注意力机制的端到端合成语音检测被引量：2

参考文献3

二级参考文献1

共引文献53

同被引文献7

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于注意力机制的端到端合成语音检测 被引量：2

参考文献3

二级参考文献1

共引文献53

同被引文献7

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于注意力机制的端到端合成语音检测被引量：2