基于多分辨率特征和时频注意力的环境声音分类被引量：3

Environmental sound classification based on multi-resolution features and time-frequency attention

下载PDF

导出

摘要针对环境声音分类(ESC),提出了一种基于多分辨率特征和时频注意力的卷积神经网络环境声音分类方法。首先,相较单一分辨率的谱图,多通道多分辨率特征可以丰富特征信息,实现不同特征分辨率之间信息互补,增强特征的表达能力;其次,针对声信号提出了一种时频注意力模块,该模块先利用不同大小的一维卷积分别关注时域和频域有效信息,再用二维卷积将两者进行融合,从而抑制环境声中背景噪声并消除由多通道多分辨率带来的冗余信息干扰。实验结果表明,在ESC-10和ESC-50两个基准数据集上的分类准确率达到了98.50%和88.46%,与现有的最新方法相比分别提高了2.70%和0.76%。 For ESC,this paper proposed a convolutional neural network method based on multi-resolution features and time-frequency attention module.Firstly,compared with the single-resolution spectrogram,multi-channel and multi-resolution features could enrich feature information,realize information complementarity among different feature resolutions,and enhance the expression ability of features.Secondly,for sound signals,this paper proposed a time-frequency attention module.The module firstly used different sizes of one-dimensional convolution to focus on the effective information in the time domain and frequency domain,and then used two-dimensional convolution to fuse the two-domain information to suppress the background noise in the environment sound and eliminate redundant information interference caused by multi-channel and multi-resolution features.The experimental results show that the classification accuracy rates on the two benchmark data sets of ESC-10 and ESC-50 have reached 98.50%and 88.46%,which are 2.70%and 0.76%higher than the latest methods.

作者刘慧李小霞何宏森 Liu Hui;Li Xiaoxia;He Hongsen(School of Information Engineering,Southwest University of Science&Technology,Mianyang Sichuan 621010,China;Robot Technology Used for Special Environment Key Laboratory of Sichuan Province,Southwest University of Science&Technology,Mianyang Sichuan 621010,China)

机构地区西南科技大学信息工程学院西南科技大学特殊环境机器人技术四川省重点实验室

出处《计算机应用研究》 CSCD 北大核心 2021年第12期3569-3573,共5页 Application Research of Computers

基金国家自然科学基金资助项目(62071399)。

关键词环境声音分类卷积神经网络时频注意力多通道特征多分辨率特征 environmental sound classification(ESC) convolution neural network(CNN) time-frequency attention module multi-channel features multi-resolution features

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1常峥,罗萍,杨波,张晓晓.基于HHT-MFCC和短时能量的慢性阻塞性肺病患者呼吸声识别[J].计算机应用,2021,41(2):598-603. 被引量：4
2李业良,张二华,唐振民.基于混合式注意力机制的语音识别研究[J].计算机应用研究,2020,37(1):131-134. 被引量：10

二级参考文献5

1屠彬彬,于凤芹.基于EMD的改进MFCC的语音情感识别[J].计算机工程与应用,2012,48(18):119-122. 被引量：6
2毕超,冯玉田,李园辉,刁志蕙.基于HHT的声频传感器车辆分类识别[J].电声技术,2016,40(6):48-52. 被引量：6
3闫锋,吕双祺.基于SVM理论的航空发动机飞行数据可视化建模[J].科技创新与应用,2020,0(12):6-10. 被引量：1
4赵文兵,贾懋珅,王琪.基于压缩感知和音频指纹的固定音频检索方法[J].计算机系统应用,2020,29(8):165-172. 被引量：2
5刘光斌,陈少卿,程敬之.呼吸系统的声特性及临床应用[J].应用声学,1992,11(6):26-29. 被引量：1

共引文献12

1闫书豪,乔美英.基于一维WConv-BiLSTM的轴承故障诊断算法[J].电子科技,2021,34(4):75-82. 被引量：4
2陈娟.心音信号的MFCC特征参数提取方法[J].岳阳职业技术学院学报,2021,36(4):75-78. 被引量：1
3江官星,付悦.基于多任务训练的用户登入语音识别模型仿真[J].计算机仿真,2022,39(9):190-194. 被引量：5
4林金洪,吴国沛,蔡蒂,张铁.仿壁虎爬壁机器人的语音识别及语音回放系统研制[J].机械设计与制造,2023(2):219-222. 被引量：1
5徐建新,赵树杰,马超,巴翔.基于EWT-熵值方法的发动机风扇叶片损伤监控[J].航空动力学报,2023,38(1):23-31.
6程鑫颐,刘海.基于3D技术的虚拟口译仿真系统设计[J].自动化与仪器仪表,2023(8):262-267.
7刘育坤,郑霖,黎塔,张鹏远.多声学场景下端到端语音识别声学编码器的自适应[J].声学学报,2023,48(6):1260-1268. 被引量：2
8金豪圣.基于深度学习的智能机器人语音自动校准系统[J].电子设计工程,2023,31(24):95-99. 被引量：1
9景辉,王心雨,阎志远,戴琳琳.智能服务机器人在铁路客运站应用场景的设计与实现[J].铁道运输与经济,2024,46(1):51-58.
10陈晓,曾昭优.基于特征融合和B-SVM的鸟鸣声识别算法[J].声学技术,2024,43(1):119-126. 被引量：1

同被引文献16

1李炜,刘禹,李立刚,周亮,宋长山.基于自适应降噪的柱塞泵故障音频特征提取方法[J].国外电子测量技术,2023,42(1):1-6. 被引量：6
2王静远,李超,熊璋,单志广.以数据为中心的智慧城市研究综述[J].计算机研究与发展,2014,51(2):239-259. 被引量：228
3王熙,李应.多频带谱减法用于生态环境声音分类[J].计算机工程与应用,2014,50(3):190-193. 被引量：4
4何光林,陶斯倩,范红波.基于噪声特征的地震动信号目标预警和识别算法研究[J].北京理工大学学报,2014,34(1):64-67. 被引量：7
5蒋翠清,邵宏波.基于MFCC与改进ACF的汽车声音识别算法研究[J].计算机技术与发展,2015,25(2):140-143. 被引量：6
6史秋莹,郑铁然.基于深度学习的环境声音识别[J].智能计算机与应用,2018,8(5):34-37. 被引量：9
7冯陈定,李少波,姚勇,杨静.基于改进卷积神经网络与动态衰减学习率的环境声音识别算法[J].科学技术与工程,2019,19(1):177-182. 被引量：15
8张科,苏雨,王靖宇,王霰宇,张彦华.基于融合特征以及卷积神经网络的环境声音分类系统研究[J].西北工业大学学报,2020,38(1):162-169. 被引量：21
9曾金芳,黄费贞,白冰,徐林涛.基于耳蜗谱图纹理特征的声音事件识别[J].声学技术,2020,39(1):69-75. 被引量：6
10杨磊,赵红东.基于轻量级深度神经网络的环境声音识别[J].计算机应用,2020,40(11):3172-3177. 被引量：5

引证文献3

1吴佳赛,高振斌.基于双二流卷积和多特征融合的D-S声音分类[J].计算机应用研究,2022,39(3):693-698. 被引量：2
2周帅,李理,彭章君,黄鹏程.基于多通道特征和混合注意力的环境声音分类[J].计算机技术与发展,2023,33(8):43-50. 被引量：2
3李军,王子壬,董红亮,钮焱.基于双向椭圆局部二值模式的环境声音分类[J].国外电子测量技术,2023,42(8):63-70. 被引量：1

二级引证文献5

1周帅,李理,彭章君,黄鹏程.基于多通道特征和混合注意力的环境声音分类[J].计算机技术与发展,2023,33(8):43-50. 被引量：2
2余星辰,李小伟.基于特征融合的煤矿瓦斯和煤尘爆炸声音识别方法[J].煤炭学报,2023,48(S02):638-646. 被引量：1
3曾援,李剑,马明星,庞润嘉,贺斌.基于改进Transformer模型的多声源分离方法[J].计算机技术与发展,2024,34(5):60-65.
4李军,王子壬,向彦伯,钮焱.基于多组多分辨率特征和小波通道注意力的环境声音分类[J].无线电工程,2024,54(8):1862-1870.
5Tan Xiao-Feng,Li Xi-Hai,Niu Chao,Zeng Xiao-Niu,Li Hong-Ru,Liu Tian-You.Classification method of infrasound events based on the MVIDA algorithm and MS-SE-ResNet[J].Applied Geophysics,2024,21(4):667-679.

1张永清.浅谈同期声在纪录片创作中的运用[J].声屏世界,2021(13):69-70. 被引量：3
2陈梦伟,毛琳,杨大伟.多通道特征增强风格迁移算法[J].大连民族大学学报,2021,23(5):410-416. 被引量：1
3何宁.“三全育人”视域下网络思政教育模式创新研究[J].大陆桥视野,2021(11):122-123. 被引量：2
4肖昌城,吴锡.基于门控卷积残差网络的卫星图像道路提取[J].计算机应用研究,2021,38(12):3820-3825. 被引量：4
5汪鹏,辛雪静,王利琴,刘瑞.基于YOLOv3的光学遥感图像目标检测算法[J].激光与光电子学进展,2021,58(20):501-509. 被引量：17
6张超然.基于文化自信的高校思想政治教育[J].文化产业,2021(13):161-162. 被引量：1
7企业家、专家探讨创新发展之道第一期“赣商下午茶会”活动侧记[J].赣商,2021(9):68-71.
8DENON AH-C830NCW真无线降噪耳机[J].视听前线,2021(11):65-65.
9张博,龙慧,刘刚.基于特征约束与光流场模型的多通道视频目标跟踪算法[J].液晶与显示,2021,36(11):1554-1564. 被引量：5
10程曦,杨力,季茂荣,王宏伟.基于先验信息的地雷目标红外图像增强算法[J].探测与控制学报,2021,43(5):60-64. 被引量：2

计算机应用研究

2021年第12期

浏览历史

内容加载中请稍等...

基于多分辨率特征和时频注意力的环境声音分类被引量：3

参考文献2

二级参考文献5

共引文献12

同被引文献16

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于多分辨率特征和时频注意力的环境声音分类 被引量：3

参考文献2

二级参考文献5

共引文献12

同被引文献16

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于多分辨率特征和时频注意力的环境声音分类被引量：3