基于倒谱特征数据增强的真实场景合成语音检测

Real scene synthetic speech detection based on cepstral feature data augmentation

下载PDF

导出

摘要现有合成语音检测系统在真实场景下性能损失严重。本文提出了一种基于频域掩蔽的倒谱特征数据增强方法。该方法对输入信号的线性滤波器组特征(LFBs)进行频域掩蔽,以引入符合真实场景的语音失真;计算掩蔽特征的线性频率倒谱系数(LFCC),以降低特征维度,提升检测性能。本文利用轻量级卷积神经网络(LCNN)、深度残差网络(ResNet)和一维卷积Transformer模型(OCT)建立了3种检测系统,用于验证所提方法的有效性。真实场景数据集上的实验结果表明,所提方法可使不同合成语音检测系统的等错误率(EER)相较无增强的基线降低6.39%~25.95%。将所提方法与基于音频编解码的增强技术相结合时,不同系统的EER比基线降低31.71%~42.47%,进一步提升了系统对真实场景的泛化能力,且性能优于现有数据增强方法。 The performance of existing synthetic speech detection systems is significantly degraded in real scenarios.This paper proposes a data augmentation method for cepstral features via frequency masking.First,linear filter banks(LFBs)of the input signal are masked on frequency channels for realistic speech distortion.Then,the linear frequency cepstral coefficients(LFCC)of the masked features are calculated to reduce the feature dimensionality and improve the detection performance.Using light convolutional neural network(LCNN),deep residual network(ResNet)and one-dimensional convolutional Transformer(OCT),three detection systems are established to verify the effectiveness of the proposed method.Experiments on the real scene datasets show that the proposed method can reduce the equal error rate(EER)of different synthetic speech detection systems by 6.39%-25.95%compared with the baseline without augmentation.The proposed method with the codec-based augmentation can reduce the EER of different systems by 31.71%-42.47%compared with the baseline,which further improves the generalization ability of the systems in real scenarios,and outperforms the existing data augmentation methods.

作者万伊李春国杨飞然杨军 WAN Yi;LI Chunguo;YANG Feiran;YANG Jun(Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049;School of Information Science and Engineering,Southeast University,Nanjing 210096)

机构地区中国科学院声学研究所中国科学院大学东南大学信息科学与工程学院

出处《高技术通讯》 CAS 北大核心 2024年第10期1013-1023,共11页 Chinese High Technology Letters

基金国家自然科学基金(62171438) 北京市自然科学基金(4242013) 中国科学院声学研究所自主部署“前沿探索”类项目(QYTS202111)资助。

关键词合成语音检测数据增强真实场景频域掩蔽泛化能力 synthetic speech detection data augmentation real scenes frequency masking generalization ability

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献2

1袁文浩,娄迎曦,梁春燕,夏斌.利用生成噪声提高语音增强方法的泛化能力[J].电子学报,2019,47(4):791-797. 被引量：6
2任延珍,刘晨雨,刘武洋,王丽娜.语音伪造及检测技术研究综述[J].信号处理,2021,37(12):2412-2439. 被引量：18

二级参考文献4

1何玉文,鲍长春,夏丙寅.基于AR-HMM在线能量调整的语音增强方法[J].电子学报,2014,42(10):1991-1997. 被引量：6
2孟宪波,鲍长春.基于最小控制GARCH模型的噪声估计算法[J].电子学报,2016,44(3):747-752. 被引量：6
3刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：70
4陶建华,傅睿博,易江燕,王成龙,汪涛.语音伪造与鉴伪的发展与挑战[J].信息安全学报,2020,5(2):28-38. 被引量：16

共引文献22

1盛春明.基于分数阶傅里叶变换和K-均值聚类的重放语音检测算法[J].电声技术,2022,46(8):118-123.
2肖鑫鑫.复杂噪声环境下的普通话测试系统设计[J].信息技术,2020,44(11):78-82. 被引量：1
3曹洁,周尧风,于泓,李晓旭.基于SI-SDR优化的生成对抗网络语音增强方法[J].华中科技大学学报（自然科学版）,2020,48(11):17-23. 被引量：5
4郭启训,孙琦,张迁.神经网络在汽车起重机幅度预测中的应用及泛化性能分析[J].建设机械技术与管理,2021,34(3):146-149.
5余焕伟,陈仙凤,朱先华,赵星波,杜锡勇.基于高斯混合-隐马尔可夫模型的特种设备敲击检测[J].无损检测,2021,43(8):14-20. 被引量：6
6杨海涛,王华朋,楚宪腾,牛瑾琳,张琨瑶.基于深度卷积神经网络的伪造语音检测[J].警察技术,2022(1):33-36. 被引量：2
7李勇斌,王彬,邵高平,邵帅.一种基于RCGAN的水声通信信号降噪方法[J].电子学报,2022,50(1):54-62. 被引量：3
8于佳祺,简志华,徐嘉,游林,汪云路,吴超.基于联合特征与随机森林的伪装语音检测[J].电信科学,2022,38(6):91-99. 被引量：4
9王锦阳,华光,黄双.基于注意力机制的端到端合成语音检测[J].信号处理,2022,38(9):1975-1987. 被引量：2
10唐玉敏,范菁,曲金帅.深度伪造生成与检测研究综述[J].计算机工程与应用,2022,58(23):56-66. 被引量：3

1黄春英,蔡丹琳.大数据时代财务档案管理数字化建设的问题与对策[J].中国管理信息化,2024,27(18):89-91.
2潘齐炜,程吉祥,田甜,吴丹,曾蕊.基于特征融合与注意力机制的鸟类声纹识别方法[J].声学技术,2024,43(5):686-695.
3陈旭初,蒲钰,张卫强.基于dVAE-BERT模型的阿尔茨海默症检测方法[J].电子学报,2024,52(9):2971-2978.
4吴礼福,孙芯年.基于倒谱分析的弦乐和打击乐的源分离[J].计算机与数字工程,2024,52(8):2524-2529.
5赵峰,钱强,左延群,侯帅帅,段云飞,王琎,孔令杰.基于MSK-LFM的光载太赫兹通感信号产生与传输方案[J].西安邮电大学学报,2024,29(4):1-12.
6王晗,赵腊生,张强,程银清,邱泽鹏.基于注意力和挤压-激励Inception的双分支合成语音检测[J].计算机应用,2024,44(10):3217-3222.
7陈思竹,龙华,邵玉斌.基于改进MFCC和能量算子倒谱的语种识别[J].计算机科学,2024,51(S02):367-372.
8孙付安,陆佳程,张军.流态天线辅助混合场通信中天线位置优化设计[J].移动通信,2024,48(10):121-126.
9王禹晰.生成式人工智能的知识产权法律因应及制度创新探讨[J].楚天法治,2024(20):0010-0012.
10张泽瑞,殷跃红.基于异步脑机接口系统的远程低时延控制研究[J].机械与电子,2024,42(10):42-48.

高技术通讯

2024年第10期

浏览历史

内容加载中请稍等...

基于倒谱特征数据增强的真实场景合成语音检测

参考文献2

二级参考文献4

共引文献22

相关作者

相关机构

相关主题

浏览历史