改进卷积神经网络的单词级语音活体检测方法

Word-level voice liveness detection method basedon improved convolutional neural network

下载PDF

导出

摘要为提高智能家居语音验证系统中重放语音的检测精度,提出了一种新型的单词级语音活体检测方法,采用轻量型卷积全局门控循环神经网络(light convolutional global gate recurrent neural network, LC-GGRNN)作为深度特征提取器,由支持向量机(support vector machine, SVM)执行真实和重放语音的分类,即LC-GGRNN-SVM框架。LC-GGRNN是在轻量型卷积神经网络的基础上引入了全局注意力机制和门控循环单元,前者关注提取特征的通道信息、空间信息以及通道与空间相互作用的信息,后者学习深度特征的长期相关性。提取POCO(pop noise corpus)数据集中音频文件的3种声学特征分别用于模型训练、验证和测试。结果表明,提取的伽马通频率倒谱系数声学特征在所提方法上检测效果最好,准确率、等错误率分别为85.72%、14.28%,错误接受率和错误拒绝率之和为28.59%,所提方法在POCO上的语音活体检测还具有性别依赖性。此外,所提方法对句子级重放语音检测也具有较好的泛化性。 In order to improve the detection accuracy of replay voice in the smart home voice verification system,a new word-level voice liveness detection method is proposed,that is,a light convolutional global gate recurrent neural network(LC-GGRNN)is used as a deep feature extractor,real and replay voice classification is performed by the support vector machine(SVM),that is framework of LC-GGRNN-SVM.In particular,a global attention mechanism and a gated recurrent unit are introduced into LC-GGRNN based on the light convolutional neural network.The former is to focus on the channel information,spatial information,and the interaction information between channel and space about extracted features,and the latter is to learn the long-term correlation of deep features.Three acoustic features extracted from audio files in the POCO(pop noise corpus)dataset are used for model training,validation,and testing.The results show that the extracted acoustic features of Gammatone frequency cepstral coefficients have the best detection effect on the proposed method.The accuracy and equal error rates are 85.72%and 14.28%,respectively,and the sum of the false acceptance rate and the false rejection rate is 28.59%.It can also be proved that voice liveness detection of the proposed method on POCO is gender-dependent.In addition,the proposed method also has good generalization for sentence-level replay voice detection.

作者李志刚宋晓婷郭琪美孙晓川 LI Zhigang;SONG Xiaoting;GUO Qimei;SUN Xiaochuan(College of Artificial Intelligence,North China University of Science and Technology,Tangshan 063210,P.R.China;Hebei Key Laboratory of Industrial Intelligent Perception,Tangshan 063210,P.R.China)

机构地区华北理工大学人工智能学院河北省工业智能感知重点实验室

出处《重庆邮电大学学报（自然科学版）》 CSCD 北大核心 2024年第1期39-48,共10页 Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition)

基金河北省高等学校科学技术研究项目(ZD2021088) 国家重点研发计划项目(2017YFE0135700)~~。

关键词语音活体检测声学特征气爆杂音轻量型卷积神经网络支持向量机(SVM) POCO数据集 voice liveness detection acoustic features pop noise light convolutional neural network support vector machine(SVM) pop noise corpus(POCO)dataset

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献2

1胡向东,张婷.基于时空融合深度学习的工业互联网异常流量检测方法[J].重庆邮电大学学报（自然科学版）,2022,34(6):1056-1064. 被引量：5
2孔浩,杨勇,王国胤.基于多分类器融合的语音识别方法研究[J].重庆邮电大学学报（自然科学版）,2011,23(4):492-495. 被引量：7

二级参考文献13

1蔡铁,朱杰.一种基于类融合向量的支持向量机及其在语音识别系统中的应用[J].电路与系统学报,2005,10(6):106-110. 被引量：1
2DUIN R, TAX D. Experiments with classifier combining rules. In Proceedings of the 1 st International Workshop on Multiple Classifier Systems (MCSC2000) [ M ]. Italy : Cagliari ,2000 : 16-19.
3CHRISTOPHER J C. Burges. A tutorial on support vector machines for pattern recognition [ J ]. Data Mining and Knowledge, 1998,2 (2) : 121-167.
4罗毅.一种基于HMM和ANN的语音情感识别分类器[J].微计算机信息,2007,23(34):218-219. 被引量：10
5陈英武,高妍方.贝叶斯网络扩展研究综述[J].控制与决策,2008,23(10):1081-1086. 被引量：14
6林嘉宇,刘荧.用于语音信号非线性建模的RBF神经网络的训练方法及其性能[J].信号处理,2001,17(4):322-328. 被引量：4
7王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002,25(7):759-766. 被引量：594
8王勇,周慧怡,俸皓,叶苗,柯文龙.基于深度卷积神经网络的网络流量分类方法[J].通信学报,2018,39(1):14-23. 被引量：63
9石乐义,朱红强,刘祎豪,刘佳.基于相关信息熵和CNN-BiLSTM的工业控制系统入侵检测[J].计算机研究与发展,2019,56(11):2330-2338. 被引量：46
10缪祥华,单小撤.基于密集连接卷积神经网络的入侵检测技术研究[J].电子与信息学报,2020,42(11):2706-2712. 被引量：20

共引文献10

1徐国浪,魏延.基于多核函数的模糊支持向量机学习算法[J].重庆师范大学学报（自然科学版）,2012,29(6):50-53. 被引量：11
2孙一鸣,刘葳.基于HTK的日语连续语音识别系统的建立与研究[J].计算机光盘软件与应用,2013,16(16):192-193. 被引量：1
3王威,胡桂明,杨丽,黄东芳,周杨.基于ELM和PCA的汉语数字语音识别研究[J].电声技术,2015,39(11):49-53. 被引量：2
4文妍,谭继文,李善.基于多分类器融合与模糊综合评判的滚动轴承故障诊断[J].中国科技论文,2016,11(4):464-469. 被引量：3
5孙一鸣,刘葳.基于动态范围调整语音特征调整算法分析[J].电子制作,2013,21(15):29-30.
6徐翠萍.基于隐马尔科夫模型的网球音频语义分析[J].信息技术,2019,43(8):103-106.
7赵瑜,霍永华,黄伟,杨文芳.基于双向LSTM模型的流量异常检测方法[J].无线电工程,2023,53(7):1712-1718. 被引量：1
8周雪峰,徐强,谭艳婷,郎嘉忆,经航,赵志强.基于改进灰色聚类算法的云架构数据中心网络异常流量过滤算法[J].电信科学,2023,39(7):90-98.
9豆腾腾,侯保华.基于网络流量特征匹配和时间微分博弈的网络异常监测[J].云南师范大学学报（自然科学版）,2023,43(5):36-40. 被引量：1
10蔡梓豪,姜屹,张来平,邓小刚.基于卷积注意力网络的网格质量评价方法[J].四川大学学报（自然科学版）,2023,60(5):133-142. 被引量：1

1宁志强,汪媛媛,张驰,魏凌波,俞能海,HAO Yue.基于广播通信信道的轻量级车辆轨迹安全验证方案[J].网络与信息安全学报,2023,9(5):71-81.
2王绵绵,王振华,余二梅.产前尼古丁暴露对子代大鼠血管内皮祖细胞的影响[J].中国医药指南,2023,21(23):61-65.
3梁青青,周小燕,赵春艳.基于CNN-GRU-CTC的藏族学生普通话发音偏误检测[J].兰州文理学院学报（自然科学版）,2023,37(5):47-51. 被引量：1
4张旭,杨华莲.央行“言行”偏差与金融市场间长期动态相关性——基于混频DCC-MIDAS模型[J].经济与管理,2024,38(1):9-17.
5王思远,宋鑫.基于大数据算法模型的电力运维故障诊断方法研究[J].信息与电脑,2023,35(19):43-45.
6王志翼,张红兵.基于改进时延神经网络的合成语音检测[J].电声技术,2023,47(9):118-120.
7冯畅,吴晓龙,赵熠扬,徐明星,郑方.生成式伪造语音安全问题与解决方案[J].信息安全研究,2024,10(2):122-129.
8李雯乔,李发弟,王新基,乐祥鹏.家畜早期妊娠诊断的研究进展[J].畜牧兽医学报,2023,54(5):1782-1791. 被引量：2
9聂维齐,吴寿岭,陈朔华,吴侠,王丹,黄玮.青年单纯舒张期高血压与颈动脉斑块负荷评分的相关性研究[J].心肺血管病杂志,2024,43(1):41-45.
10张拓.土压平衡盾构泡沫及油脂消耗量分析计算[J].机械管理开发,2023,38(12):8-12.

重庆邮电大学学报（自然科学版）

2024年第1期

浏览历史

内容加载中请稍等...

改进卷积神经网络的单词级语音活体检测方法

参考文献2

二级参考文献13

共引文献10

相关作者

相关机构

相关主题

浏览历史