-
题名基于特征融合与注意力机制的鸟类声纹识别方法
- 1
-
-
作者
潘齐炜
程吉祥
田甜
吴丹
曾蕊
-
机构
西南石油大学电气信息学院
-
出处
《声学技术》
2024年第5期686-695,共10页
-
基金
国家自然科学基金(61603319,61601385)
西南石油大学智能控制与图像处理青年科技创新培育团队(2017CXTD010)。
-
文摘
鸟类声纹识别技术是一种将经过预处理的多种鸟类声音作为输入,通过网络模型识别出相应鸟类的技术。针对真实环境下鸟类声纹识别中单一音频特征局限和模型学习特征能力不佳问题,文章提出了一种基于特征融合和注意力机制的鸟类声纹识别方法。首先,在特征提取时分别获取梅尔频率倒谱系数和功率正则化倒谱系数,其次利用均值和方差归一化处理将两种特征融合得到新型融合特征参数MPFC;然后,以ResNet-50为主干网络在其残差模块中引入轻量化坐标注意力机制得到改进网络模型—坐标注意力残差网络;最后,将融合特征分别输入到坐标注意力残差网络(residual coordinate attention net, ResCA),ResNet-50、ResNeSt-50、DenseNet-121和EfficientNet-B0并在两个数据集Birdsdata和BirdCLEF上进行对比实验。实验结果表明,融合特征比单一特征有更好的表征能力,能够提高一定识别率,改进网络也具有较好的识别效果。
-
关键词
鸟类声纹识别
特征融合
梅尔频率倒谱系数
功率正则化倒谱系
-
Keywords
bird call recognition
feature fusion
Mel frequency cepstrum coefficient
power-normalized cepstral coefficient
-
分类号
TN912.3
[电子电信—通信与信息系统]
-