基于自注意力机制时频谱同源特征融合的鸟鸣声分类被引量：2

Homologous spectrogram feature fusion with self-attention mechanism for bird sound classification

下载PDF

导出

摘要目前深度学习模型大都难以应对复杂背景噪声下的鸟鸣声分类问题。考虑到鸟鸣声具有时域连续性、频域高低性特点,提出了一种利用同源谱图特征进行融合的模型用于复杂背景噪声下的鸟鸣声分类。首先,使用卷积神经网络(CNN)提取鸟鸣声梅尔时频谱特征;然后,使用特定的卷积以及下采样操作,将同一梅尔时频谱特征的时域和频域维度分别压缩至1,得到仅包含鸟鸣声高低特性的频域特征以及连续特性的时域特征。基于上述提取频域以及时域特征的操作,在时域和频域维度上同时对梅尔时频谱特征进行提取,得到具有连续性以及高低特性的时频域特征。然后,将自注意力机制分别用于得到的时域、频域、时频域特征以加强其各自拥有的特性。最后,将这三类同源谱图特征决策融合后的结果用于鸟鸣声分类。所提模型用于Xeno-canto网站的8种鸟类音频分类,并在分类对比实验中取得了平均精确率(MAP)为0.939的较好结果。实验结果表明该模型能应对复杂背景噪声下的鸟鸣声分类效果较差的问题。 At present,most deep learning models are difficult to deal with the classification of bird sound under complex background noise.Because bird sound has the continuity characteristic in time domain and high-low characteristic in frequency domain,a fusion model of homologous spectrogram features was proposed for bird sound classification under complex background noise.Firstly,Convolutional Neural Network(CNN)was used to extract Mel-spectrogram features of bird sound.Then,the time domain and frequency domain dimensions of the same Mel-spectrogram feature were compressed to 1 by specific convolution and down-sampling operations,so that frequency domain feature with only high-low characteristics and the time domain feature with only continuous characteristics were obtained.Based on the above operation to extract frequency domain and time domain features,the features of Mel-spectrogram were extracted both in time domain and frequency domain,the time-frequency domain features with continuity and high-low characteristics were obtained.Then the self-attention mechanism was applied to the obtained time domain,frequency domain and time-frequency domain features,strengthening their own characteristics.Finally,the results of these three homologous spectrogram features after decision fusion were used for bird sound classification.The proposed model was used for audio classification of 8 bird species on Xeno-canto website,achieved the better result in the comparison experiment with the Mean Average Precision(MAP)of0.939.The experimental results show that the proposed model can deal with the problem of the poor classification effect of bird sound under complex background noise.

作者刘志华陈文洁陈爱斌 LIU Zhihua;CHEN Wenjie;CHEN Aibin(College of Computer and Information Engineering,Central South University of Forestry and Technology,Changsha Hunan 410004,China;Institute of Applied Artificial Intelligence,Central South University of Forestry and Technology,Changsha Hunan 410004,China)

机构地区中南林业科技大学计算机与信息工程学院中南林业科技大学人工智能应用研究所

出处《计算机应用》 CSCD 北大核心 2022年第4期1260-1268,共9页 journal of Computer Applications

基金智慧物流技术湖南省重点实验室资助项目(2019TP1015)。

关键词深度学习鸟鸣声分类卷积神经网络自注意力机制同源谱图特征融合 deep learning bird sound classification Convolutional Neural Network(CNN) self-attention mechanism homologous spectrogram feature fusion

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1张赛花,赵兆,许志勇,张怡.基于Mel子带参数化特征的自动鸟鸣识别[J].计算机应用,2017,37(4):1111-1115. 被引量：8
2邢照亮,吴伟银,张正晓,陈麒麟,倪东明.基于C-LSTM的鸟鸣声识别方法[J].科技创新与应用,2021,11(15):15-18. 被引量：2
3刘伟波,曾庆宁,卜玉婷,郑展恒.基于双微阵列与卷积神经网络的语音识别方法[J].计算机应用,2019,39(11):3268-3273. 被引量：12
4谢将剑,杨俊,邢照亮,张卓,陈新.多特征融合的鸟类物种识别方法[J].应用声学,2020,39(2):199-206. 被引量：14
5阙鑫华,乔倩,蒋慧,吴旭成,柴晨思,王瑞,郑红.基于改进DTW算法的海岛水鸟鸣声识别应用研究[J].农村经济与科技,2021,32(11):320-322. 被引量：2
6李朝洪,赵晓红.黑龙江省森工国有林区生态建设与经济转型协调发展研究[J].南京林业大学学报（自然科学版）,2019,43(2):144-152. 被引量：18

二级参考文献43

1王忠德,陆袆玮,陈水华,范忠勇,陈苍松.浙江舟山五峙山列岛夏季繁殖水鸟资源及其分布动态[J].四川动物,2008,27(6):965-969. 被引量：5
2曹利军,王华东.可持续发展评价指标体系建立原理与方法研究[J].环境科学学报,1998,18(5):526-532. 被引量：237
3SHENShaoqing,GoNGPeng,CHENGXiao,YINGQing.Sound-based remote sensing of terrestrial animals： localization and error analysis[J].遥感学报,2011,15(6):1255-1275. 被引量：2
4姜钰.国有林区低碳循环经济耦合发展测度分析[J].中国软科学,2012(1):107-115. 被引量：13
5施荣华,孟秋杰,董健,郭迎.一种基于对角载入的鲁棒MVDR波束形成算法[J].湖南大学学报（自然科学版）,2012,39(9):57-61. 被引量：4
6李锋,沈文星.基于循环经济的黄山市化工园区生态产业链共生模式选择[J].南京林业大学学报（自然科学版）,2013,37(3):140-144. 被引量：6
7张小霞,李应.基于能量检测的复杂环境下的鸟鸣识别[J].计算机应用,2013,33(10):2945-2949. 被引量：6
8董沛武,张雪舟.林业产业与森林生态系统耦合度测度研究[J].中国软科学,2013(11):178-184. 被引量：45
9易平,方世明.地质公园社会经济与生态环境效益耦合协调度研究——以嵩山世界地质公园为例[J].资源科学,2014,36(1):206-216. 被引量：100
10陈莎莎,李应.结合时-频纹理特征的随机森林分类器应用于鸟声识别[J].计算机应用与软件,2014,31(1):154-157. 被引量：13

共引文献47

1韩鹏飞,陈晓.基于MFCC-IMFCC和GA-SVM的鸟声识别[J].计算机系统应用,2022,31(11):393-399. 被引量：7
2张雷,袁博,查晨东.一种强噪声干扰下的炮控系统声音识别算法[J].计算机测量与控制,2019,27(6):104-107. 被引量：2
3谷晶.林业产业发展与林业生态建设研究[J].花卉,2019,0(16):174-175. 被引量：1
4邓家斌.智能趣味陪护机器人系统设计[J].科学大众（科技创新）,2019,0(11):125-125.
5高志勇,郭尔卓,耿一田,易子钧,曹嘉平,王新宇.生态文明背景下林业企业管理模式改革[J].现代农业科技,2020,0(5):263-265. 被引量：3
6景向欣,曹隽,陈松林,彭先玉,陶文龙,王翠苒.基于森工重点国有林区改革的高职院校专业设置实践研究--以黑龙江生态工程职业学院为例[J].黑龙江生态工程职业学院学报,2020,33(3):100-102. 被引量：1
7吕洁华,孙喆,张滨.新型城镇化与生态环境协调发展及关键因素判别[J].生态经济,2020,36(6):83-88. 被引量：33
8张国荣,刘炳君,付成丽.基于Python和CNN的数字验证码识别[J].太原师范学院学报（自然科学版）,2020,19(3):62-65. 被引量：5
9张翔,李金燕,郭娇.基于熵权—耦合协调度模型的水源地可持续发展能力评价[J].生态经济,2020,36(9):164-168. 被引量：19
10吕秀丽,陈帅男.基于卷积神经网络的丹顶鹤定位识别[J].电子测量技术,2020,43(20):104-108. 被引量：4

同被引文献27

1韩鹏飞,陈晓.基于MFCC-IMFCC和GA-SVM的鸟声识别[J].计算机系统应用,2022,31(11):393-399. 被引量：7
2颜鑫,李应.利用抗噪幂归一化倒谱系数的鸟类声音识别[J].电子学报,2013,41(2):295-300. 被引量：17
3陈莎莎,李应.结合时-频纹理特征的随机森林分类器应用于鸟声识别[J].计算机应用与软件,2014,31(1):154-157. 被引量：13
4王恩泽,何东健.基于MFCC和双重GMM的鸟类识别方法[J].计算机工程与设计,2014,35(5):1868-1871. 被引量：12
5魏静明,李应.利用抗噪纹理特征的快速鸟鸣声识别[J].电子学报,2015,43(1):185-190. 被引量：16
6孙斌,万鹏威,陶达,赵玉晓.基于自适应最优核时频分布的鸟类识别[J].数据采集与处理,2015,30(6):1187-1195. 被引量：7
7张赛花,赵兆,许志勇,张怡.基于Mel子带参数化特征的自动鸟鸣识别[J].计算机应用,2017,37(4):1111-1115. 被引量：8
8刘昊天,姜海燕,舒欣,徐彦,伍艳莲,郭小清.基于特征迁移的多物种鸟声识别方法[J].数据采集与处理,2017,32(6):1239-1247. 被引量：8
9刘钊,张宇琛,胡海龙.随机森林和大规模声学特征的噪声环境鸟声识别仿真[J].系统仿真技术,2017,13(4):359-362. 被引量：3
10谢将剑,李文彬,张军国,丁长青.基于Chirplet语图特征和深度学习的鸟类物种识别方法[J].北京林业大学学报,2018,40(3):122-127. 被引量：17

引证文献2

1李怀城,杨道武,温治芳,王亚楠,陈爱斌.基于Inception-CSA深度学习模型的鸟鸣分类[J].华中农业大学学报,2023,42(3):97-104. 被引量：1
2申小虎,朱翔宇,史洪飞,王传之.基于机器学习鸟声识别算法研究进展[J].生物多样性,2023,31(11):164-189.

二级引证文献1

1蔡建民,何培宇,杨智鹏,李露莹,赵启军,潘帆.基于深度特征融合的鸟鸣识别方法及其可解释性分析[J].生物多样性,2023,31(7):138-147.

1阙鑫华,乔倩,蒋慧,吴旭成,柴晨思,王瑞,郑红.基于改进DTW算法的海岛水鸟鸣声识别应用研究[J].农村经济与科技,2021,32(11):320-322. 被引量：2
2杨军,张华,冯德山,罗相涛,袁忠明,柳杰,王珣.GPR探测中管线异常自动提取与识别[J].地球物理学进展,2021,36(3):1333-1340. 被引量：7
3祝海江,唐昊,孙静娴,杜振霞.基于时频谱特征的白酒品质分类方法研究[J].光谱学与光谱分析,2021,41(9):2962-2968. 被引量：4
4屈晓渊,崔青.基于梅尔频率倒谱系数的音频分类研究[J].电子设计工程,2022,30(9):82-87. 被引量：7
5杨艳艳,青宪,谢丹平,陈晓燕,张素坤,韩静磊,刘娟娟,范芳,蒋炜玮.电子废弃物拆解区二噁英污染特征及暴露风险评估[J].环境科学学报,2022,42(3):441-449. 被引量：3
6雷影,于美辰,司雨蕙,荆媛,戎可.古北界啄木鸟属三种啄木鸟基于鸣声的生物地理变异[J].世界生态学,2022,11(1):49-60.

计算机应用

2022年第4期

浏览历史

内容加载中请稍等...

基于自注意力机制时频谱同源特征融合的鸟鸣声分类被引量：2

参考文献6

二级参考文献43

共引文献47

同被引文献27

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于自注意力机制时频谱同源特征融合的鸟鸣声分类 被引量：2

参考文献6

二级参考文献43

共引文献47

同被引文献27

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于自注意力机制时频谱同源特征融合的鸟鸣声分类被引量：2