-
题名基于分层注意力特征融合的说话人识别
- 1
-
-
作者
赵宏
高楠
王伟杰
杨昌东
-
机构
兰州理工大学计算机与通信学院
中国邮政储蓄银行甘肃省分行信息科技管理部
-
出处
《计算机工程与设计》
北大核心
2024年第11期3413-3419,共7页
-
基金
国家自然科学基金项目(62166025)
甘肃省重点研发计划基金项目(21YF5GA073)。
-
文摘
为缓解现有说话人识别模型提取的说话人特征可靠性不强,融合特征时不同尺度特征关联性不高的问题,研究一种基于分层注意力特征融合网络(hierarchical attention feature fusion network,HAFF-Net)的说话人识别算法。利用卷积和池化操作对经过预处理的语音特征进行下采样,降低特征的维度;将提取的特征输入到分层注意力特征融合模块(hiera-rchical attention feature fusion block,HAFFB)中,利用平均协调注意力(mean coordinate attention,MCA)增强说话人特征的可靠性,利用注意力特征融合模块(attention feature fusion,AFF)捕获多尺度互补特征;采用统计池化和全连接层提取说话人的嵌入特征,应用附加角裕度损失函数(AAM-Softmax)端到端优化模型。研究结果表明,所提算法可以有效增强特征表达的可靠性,成功捕获了多尺度特征之间的差异,提高了说话人识别的性能。
-
关键词
说话人识别
分层注意力
平均协调注意力
注意力特征融合
多尺度特征
附加角裕度损失函数
端到端
-
Keywords
speaker recognition
hierarchical attention
mean coordinate attention
attention feature fusion
multi-scale features
additive angular margin loss
end-to-end
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-