-
题名基于ASP-SERes2Net的说话人识别算法
- 1
-
-
作者
令晓明
陈鸿雁
张小玉
张真
-
机构
兰州交通大学光电技术与智能控制教育部重点实验室
兰州交通大学国家绿色镀膜技术与装备工程技术研究中心
-
出处
《北京工业大学学报》
CAS
北大核心
2025年第1期42-50,共9页
-
基金
甘肃省自然科学基金资助项目(22JR5RA332)
甘肃省高等教育教学成果培育项目(2021)。
-
文摘
为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(squeeze-and-excitation,SE)注意力模块;然后,用注意力统计池化(attention statistics pooling,ASP)代替原来的平均池化;最后,采用附加角裕度的Softmax(additive angular margin Softmax,AAM-Softmax)对说话人身份进行分类。通过实验,将ASP-SERes2Net算法与时延神经网络(time delay neural network,TDNN)、ResNet34和Res2Net进行对比,ASP-SERes2Net算法的最小检测代价函数(minimum detection cost function,MinDCF)值为0.0401,等误率(equal error rate,EER)为0.52%,明显优于其他3个模型。结果表明,ASP-SERes2Net算法性能更优,适合应用于噪声环境下的说话人识别。
-
关键词
说话人识别
梅尔语谱图
Res2Net
压缩激活(squeeze-and-excitation
SE)注意力模块
注意力统计池化(attention
statistics
pooling
asp)
附加角裕度的Softmax(additive
angular
margin
Softmax
AAM-Softmax)
-
Keywords
speaker recognition
Mel spectrogram
Res2Net
squeeze-and-excitation(SE)attention module
attention statistics pooling(asp)
additive angular margin Softmax(AAM-Softmax)
-
分类号
TN
[电子电信]
-