-
题名应用ResNet和CatBoost检测重放语声
被引量:1
- 1
-
-
作者
孙晓川
付景昌
宋晓婷
宗利芳
李志刚
-
机构
华北理工大学人工智能学院
河北省工业智能感知重点实验室
-
出处
《应用声学》
CSCD
北大核心
2023年第4期861-870,共10页
-
基金
河北省高等学校科学技术研究项目(ZD2021088)
国家重点研发计划项目(2017YFE0135700)。
-
文摘
针对短语声指令声频信息少、不适用句子级重放语声检测的问题以及近距离录声后用高质量重放设备重放的语声难以检测的问题,提出了一种适用于词级重放语声检测的模型。首先,利用短时傅里叶变换、低频平均能量计算和帧排序等方法选择声频帧,然后提取这些帧的伽马通频率倒谱系数。其次,用基于自注意机制的残差网络模型进一步提取伽马通频率倒谱系数中的信息,并转化为特征向量。最后,将提取后的特征向量用CatBoost分类,从而提高检测性能。在POCO数据集上的实验结果表明,提出的方法可以以87.54%的准确率和12.53%的等错误率检测重放语声,优于基线和现有的方法。该文提出的方法在ASVspoof2019 PA数据集上的等错误率与串联检测代价函数分别为4.92%和0.1418,证明该文方法也适用于多种设置的重放语声检测。
-
关键词
重放语声检测
气爆杂声
残差网络
CatBoost
-
Keywords
Replay voice detection
Pop noise
ResNet
CatBoost
-
分类号
TN912.3
[电子电信—通信与信息系统]
-