基于注意力模型的卷积循环神经网络城市声音识别被引量：4

Urban Sound Classification Using Convolutional Recurrent Neural Networks with Attention Model

下载PDF

导出

摘要环境声音识别(environment sound recognition,ESR)在基于情景感知和辅助技术等领域发挥着重要作用。卷积神经网络(CNN)和循环神经网络(RNN)作为两种最具代表性的特征提取方法,在语音和音乐信号处理方面都取得显著效果;然而二者都存在一定缺点,CNN无法有效提取时间特征,RNN在提取空间特征上也存在明显劣势。为了有效提取并利用时间特征和空间特征,提出一种新模型,利用时间分布CNN从梅尔频谱图中提取城市环境声音特征,然后应用双向长短时记忆网络(BiLSTM)从CNN输出中获取时间信息,最后在输出序列上实施注意力机制,从而关注到与城市环境声音最相关的特征进而做出分类判断,注意力机制既提高了分类准确性,又增强了模型的可解释性。实验结果表明:在Urbansound8K数据集中,该模型可获得80.2%的分类准确率,这优于以往在同一数据集的报告结果。 Environment sound recognition(ESR)is widely applied in the fields of context-based awareness and assistive technologies.Convolutional neural network(CNN)and recurrent neural network(RNN)are the most effective feature extraction methods,which have achieved remarkable results in speech and music signal processing.However,CNN is not effective enough to process time-related features,and RNN has a disadvantage in extracting spatial features.To effectively extract and use temporal and spatial features,a novel model(CNN+BiLSTM+attention-mechanism)was proposed to overcome the above shortcomings.In this model,CNN was adopted to learn significant features from Mel spectral information,and then bi-directional long and short-term memory(BiLSTM)was used to obtain the time information from the CNN output,and finally,an attention-mechanism was implemented on the output sequence of the BiLSTM to focus on the target characteristics of the ambient sound.The experimental result is proved to obtain an average accuracy of 80.2%,which is superior to the other state-of-the-art classification methods in the Urbandsound8K dataset.

作者杨磊赵红东 YANG Lei;ZHAO Hong-dong(School of Electronic and Information Engineering,Hebei University ofTechnology,Tianjin 300300,China)

机构地区河北工业大学电子信息工程学院

出处《科学技术与工程》北大核心 2020年第33期13757-13761,共5页 Science Technology and Engineering

基金光电信息控制和安全技术重点实验室基金(614210701041705)。

关键词卷积神经网络双向长短时记忆网络注意力机制 convolutional neural network bi-directional long and short-term memory attention-mechanism

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1李玲俐.基于MFCC-SVM和交叉验证方法的环境音分类[J].计算机与现代化,2016(8):36-39. 被引量：8
2张晴晴,刘勇,潘接林,颜永红.基于卷积神经网络的连续语音识别[J].工程科学学报,2015,37(9):1212-1217. 被引量：72

二级参考文献14

1Choi W-H, Kim S-I, Keum M-S, et al. Acoustic and visu- al signal based context awareness system for mobile appli- cation[ J ]. IEEE Transactions on Consumer Electronics, 2011,57(2) :738-746.
2Ma Ling, Milner B, Smith D. Acoustic environment classi- fication[ J ]. ACM Transactions on Speech and Language Processing, 2006,3 (2).
3Wichern G, Xue Jiachen, Thornburg H, et al. Segmenta- tion, indexing, and retrieval for environmental and natural sounds [ J ]. IEEE Transactions on Audio, Speech, and Language Processing, 2010,18 (3) :688-707.
4Mohanapriya S P, Sumesh E P, Karthika R. Environmen- tal sound recognition using Gaussian mixture model and neural network classifier[ C ]//Proceedings of the 2014 In- ternational Conference on Green Computing Communication and Electrical Engineering (ICGCCEE). 2014.
5Giannoulis D, Benetos E, Stowel D, et al. Detection and classification of acoustic scenes and events: An IEEE AASP challenge [ C ]// Proceedings of the 2013 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. 2013.
6Tsukakoshi K, Ida K. Analysis of GMM by a Gaussian wavelet transform [ J ]. Procedia Computer Science, 2012, 8:467-472.
7Liaw Y-C, Wu C-M, Leou M-L. Fast k-nearest neighbors search using modified principal axis search tree [ J ]. Digit- al Signal Processing, 2010,20 (5) : 1494-1501.
8Chang C-C, Lin C-J. LIBSVM : A library for support vector machines[ J ]. ACM Transactions on Intelligent Systems and Technology, 2011,2 (3) : Article 27.
9魏丹芳,李应.基于MFCC和加权动态特征组合的环境音分类[J].计算机与数字工程,2010,38(2):7-10. 被引量：4
10肖勇,覃爱娜.改进的HMM和小波神经网络的抗噪语音识别[J].计算机工程与应用,2010,46(22):162-164. 被引量：9

共引文献78

1白雄文,王红艳,孙宇,周炼赤.基于人工智能的自然语言处理技术分析[J].电子技术（上海）,2021(1):176-177. 被引量：4
2景维鹏,张兴革.基于POWER8的动态自适应池化算法[J].计算机工程,2016,42(5):207-212. 被引量：1
3曾雪琼,黎杰.基于卷积神经网络的时频图像识别研究[J].机械与电子,2016,34(5):25-29. 被引量：6
4方宁,周宇,叶庆卫,李玉刚.基于无监督学习卷积神经网络的振动信号模态参数识别[J].计算机应用,2017,37(3):786-790. 被引量：12
5董刚,马宏伟,南源桐,马琨.刮板输送机飘链故障诊断技术研究[J].煤炭科学技术,2017,45(5):41-46. 被引量：8
6贾京龙,余涛,吴子杰,程小华.基于卷积神经网络的变压器故障诊断方法[J].电测与仪表,2017,54(13):62-67. 被引量：84
7侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：82
8程曦,张友华,陈祎琼,吴云志,乐毅.深度学习在储粮害虫的特征提取与分类上的应用[J].皖西学院学报,2017,33(5):67-72. 被引量：4
9朱锡祥,刘凤山,张超,吕钊,吴小培.基于一维卷积神经网络的车载语音识别研究[J].微电子学与计算机,2017,34(11):21-25. 被引量：16
10王霞,杜桂明,王光艳,张艳.基于卷积神经网络的面罩语音识别[J].传感器与微系统,2017,36(10):31-34. 被引量：6

同被引文献9

1张希翔,赵欢.基于随机森林的语音人格预测方法[J].计算机工程,2017,34(6):253-258. 被引量：6
2仲如星,孔薇.基于互信息和距离相关性算法的乳腺癌信号转导通路串扰[J].科学技术与工程,2017,17(29):205-211. 被引量：4
3王若平,李仁仁,陈达亮,王东,房宇.基于改进小波包去噪与梅尔倒谱系数的低信噪比交通环境声音识别[J].科学技术与工程,2019,19(36):290-295. 被引量：14
4张科,苏雨,王靖宇,王霰宇,张彦华.基于融合特征以及卷积神经网络的环境声音分类系统研究[J].西北工业大学学报,2020,38(1):162-169. 被引量：21
5杨磊,赵红东.基于轻量级深度神经网络的环境声音识别[J].计算机应用,2020,40(11):3172-3177. 被引量：5
6王华秋,李鑫.门循环单元预测模型在故障诊断中的应用[J].重庆理工大学学报（自然科学）,2021,35(2):152-158. 被引量：6
7彭宁,陈爱斌,周国雄,陈文洁,刘晶.基于正弦注意力表征网络的环境声音识别[J].应用科学学报,2021,39(4):641-649. 被引量：5
8张淑军,王帅,李辉.基于CNN和BLSTM的连续手语识别[J].重庆理工大学学报（自然科学）,2022,36(4):177-186. 被引量：6
9李筱艺,王传美.基于GAS-Copula-XGBoost的预测建模及应用研究[J].重庆理工大学学报（自然科学）,2022,36(6):291-301. 被引量：3

引证文献4

1杨海涛,王华朋,楚宪腾,牛瑾琳,林暖辉,张琨瑶.基于卷积循环神经网络的语音逻辑攻击检测[J].科学技术与工程,2022,22(18):7937-7944. 被引量：1
2郑文宾,何蔚.面向多场景的环境异常声音识别[J].科学技术与工程,2023,23(17):7444-7449. 被引量：8
3闫路,来佳丽,王明辉.多信息融合和自注意力识别新冠磷酸化位点[J].重庆理工大学学报（自然科学）,2023,37(6):242-248.
4苏瑞轩,葛动元,姚锡凡.基于通道和帧级特征注意力模型的环境声音识别[J].科学技术与工程,2024,24(16):6792-6798. 被引量：2

二级引证文献11

1高春艳,赖光金,吕晓玲,白祎扬,张明路.基于卷积神经网络的移动机器人声源定位方法综述[J].科学技术与工程,2024,24(7):2617-2624. 被引量：2
2李志营,纪俊,周书喆,李嘉琪,李欣慧,冯超南,管丽丽,马灶晖,马燕桃.基于深度学习语音分析的双相障碍患者情绪时相检测[J].中华精神科杂志,2024,57(4):207-212.
3姜军华.声音识别技术在电视广告监测中的应用研究[J].电声技术,2024,48(6):74-76.
4孟东.基于雷达信号转换的多维空间声音识别技术[J].电声技术,2024,48(6):150-152.
5陈彦茹,肖思宇.基于声音识别技术的数字媒体图像三维重构方法[J].电声技术,2024,48(8):73-75.
6胡尕红.基于人工智能的电力设备异常声音检测方法研究[J].电声技术,2024,48(8):150-152.
7万玫汐,王华朋,闫道申,刘鹏展,许铭洋.基于改进ECAPA-TDNN的法庭自动说话人识别[J].科学技术与工程,2024,24(27):11763-11773.
8朱振飞,葛动元,姚锡凡,苏瑞轩.融合Swin Transformer和CNN的环境声音分类模型[J].科学技术与工程,2024,24(28):12259-12267.
9冯宏普,刘振华,高委员,张敬东.声音识别技术在矿井提升系统改造方案中的应用[J].电声技术,2024,48(10):42-44.
10吕虎.声音识别技术在计算机信息检测中的应用研究[J].电声技术,2024,48(10):101-103.

1张兴芳.智慧教室环境下小学数学课堂互动行为特征[J].教育界,2020(45):15-16.
2杨磊,赵红东.基于轻量级深度神经网络的环境声音识别[J].计算机应用,2020,40(11):3172-3177. 被引量：5
3金文清,韩芳.一种基于音高显著性增强的主旋律提取方法[J].计算机科学,2020,47(S01):24-28. 被引量：1
4杨君.大数据驱动下基于情景感知的智能信息推荐研究[J].大众科技,2020,22(10):4-6.
5周玉香,蒋荣,王敏敏.长三角某区大气颗粒物时间特征与原因分析[J].环境保护与循环经济,2020,40(11):54-56. 被引量：1
6张丽,魏占云,李耘,钱玉英,马丽娜.临终关怀教学在住院医师规范化培训中的效果分析[J].医学教育管理,2020,6(6):575-580. 被引量：3
7曾姚姚.习服疗法联合认知行为治疗主观性耳鸣的疗效分析[J].福建医药杂志,2020,42(6):171-172. 被引量：1
8李付.基于计算机辅助技术的POE交换机注塑模具优化分析[J].塑料科技,2020,48(11):76-79. 被引量：3
9李学军,程红.基于决策融合的苹果分级检测关键技术研究[J].食品与机械,2020,36(12):136-140. 被引量：8
10刘迎春,谢年春,高瑱涛.精准教学视野下基于学习测评数据的可视化反馈研究[J].黑龙江高教研究,2020,38(12):39-44. 被引量：12

科学技术与工程

2020年第33期

浏览历史

内容加载中请稍等...

基于注意力模型的卷积循环神经网络城市声音识别被引量：4

参考文献2

二级参考文献14

共引文献78

同被引文献9

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于注意力模型的卷积循环神经网络城市声音识别 被引量：4

参考文献2

二级参考文献14

共引文献78

同被引文献9

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于注意力模型的卷积循环神经网络城市声音识别被引量：4