改进卷积神经网络的音频场景分类研究被引量：5

Research on acoustic scene classification based on improved convolutional neural network

下载PDF

导出

摘要音频场景分类作为声学场景理解的关键环节,对机器感知复杂环境并做出智能选择有着非常重要的意义。针对音频场景分类性能提升这一问题,提出改进的基于卷积神经网络模型的音频场景分类方法。首先对音频数据重新采样,预处理后得到对数梅尔谱图,随后输入到改进的卷积神经网络模型,进行卷积和池化处理提取谱图的特征,由Softmax分类器对音频场景标签进行分类。实验最后在城市音频数据集上进行十折交叉验证,实验结果表明,所提模型比传统的卷积神经网络模型的分类准确率更高,准确率达到了80%。 As a key part of acoustic scene understanding,acoustic scene classification is very important for the machine to perceive complex environments and make intelligent choices.In view of this,an acoustic scene classification method based on improved convolutional neural network model is proposed to enhance the acoustic scene classification performance.The audio data is subjected into resampling and preprocessing in sequence to get the log⁃mel spectrum.And then,the log⁃mel spectrum is input to the improved convolutional neural network model for convolution and pooling processing,so as to extract the spectrum features.Softmax classifier is used for the classification of audio scene labels.The 10⁃fold cross⁃validation was performed on the urban audio dataset.The experimental results show that the classification accuracy of the proposed classification method reaches 80%,which are higher than that of the traditional convolutional neural network model.

作者杨立东张壮壮 YANG Lidong;ZHANG Zhuangzhuang(School of Information Engineering,Inner Mongolia University of Science and Technology,Baotou 014010,China)

机构地区内蒙古科技大学信息工程学院

出处《现代电子技术》 2021年第3期91-94,共4页 Modern Electronics Technique

基金国家自然科学基金项目(61640012) 内蒙古自然科学基金项目(2017MS(LH)0602)。

关键词音频场景分类卷积神经网络 Softmax分类器特征提取梅尔谱图准确率 acoustic scene classification convolutional neural network Softmax classifier feature extraction Mel spec⁃trum accuracy

分类号 TN911.7-34 [电子电信—通信与信息系统] TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1LU Lu,YANG Yuhong,JIANG Yuzhi,AI Haojun,TU Weiping.Shallow Convolutional Neural Networks for Acoustic Scene Classification[J].Wuhan University Journal of Natural Sciences,2018,23(2):178-184. 被引量：3

共引文献2

1乔高杰,廖闻剑.基于Squeeze-Excitation的音频场景分类研究[J].电子设计工程,2021,29(19):179-183. 被引量：1
2张秋余,王煜坤.基于改进Inception网络的语音分类模型[J].计算机应用,2023,43(3):909-915. 被引量：1

同被引文献36

1卢坚,陈毅松,孙正兴,张福炎.基于隐马尔可夫模型的音频自动分类[J].软件学报,2002,13(8):1593-1597. 被引量：46
2彭博,臧笛.基于深度学习的车标识别方法研究[J].计算机科学,2015,42(4):268-273. 被引量：30
3胡亮,董兆宇,戴煜林,程志学.深沟球轴承系列特征频率计算分析[J].噪声与振动控制,2015,35(3):169-172. 被引量：12
4卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17. 被引量：524
5李彦冬,郝宗波,雷航.卷积神经网络研究综述[J].计算机应用,2016,36(9):2508-2515. 被引量：538
6戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017,32(2):221-231. 被引量：69
7LU Lu,YANG Yuhong,JIANG Yuzhi,AI Haojun,TU Weiping.Shallow Convolutional Neural Networks for Acoustic Scene Classification[J].Wuhan University Journal of Natural Sciences,2018,23(2):178-184. 被引量：3
8杨国亮,曾建尤,王志元.基于深层卷积神经网络的图像美感度分类[J].中北大学学报（自然科学版）,2018,39(4):467-473. 被引量：5
9赵建鹏,周俊.基于长短时记忆网络的旋转机械状态预测研究[J].噪声与振动控制,2017,37(4):155-159. 被引量：28
10付炜,杨洋.基于卷积神经网络和随机森林的音频分类方法[J].计算机应用,2018,38(A02):58-62. 被引量：13

引证文献5

1吕铷麟,贾镇,胡益滔,何洪源,何伟文.基于卷积神经网络的食品塑料包装袋光谱识别[J].包装工程,2022,43(3):121-128. 被引量：3
2程飞飞,王龙,谌洪茂.基于迁移学习改进VGG模型的场景分类[J].机器人技术与应用,2022(3):35-38. 被引量：2
3彭凯贝,孙小明,陈皓炜,王建荣.基于卷积神经网络的火车站语音情感识别方法[J].计算机仿真,2023,40(2):177-180. 被引量：1
4张秋余,王煜坤.基于改进Inception网络的语音分类模型[J].计算机应用,2023,43(3):909-915. 被引量：1
5范慧鹏,李瑞华,李福林,房哲续,彭六保.深度学习算法在工业设备故障诊断应用研究[J].传感器技术与应用,2021,9(4):193-200.

二级引证文献7

1陈文悦,何军,朱立学,马稚昱,褚璇,刘洪利,韦鸿钰.基于迁移学习的芒果成熟度分类算法研究[J].仲恺农业工程学院学报,2022,35(4):56-61. 被引量：2
2张志凯,韩红章,赵雪芊,李忠.基于改进YOLOv3模型的软包装食品自动识别方法[J].食品与机械,2023,39(5):95-100. 被引量：2
3李俊卿,马亚鹏,胡晓东,马志鹏,王罗,何玉灵,张承志.基于CBAM-InceptionV2-双流CNN的风电机组轴承故障诊断[J].智慧电力,2023,51(6):28-33. 被引量：3
4许萌,韩鹏.面向学前教育对话机器人的多模态情感识别实现关键技术[J].自动化与仪器仪表,2023(9):137-141.
5胡晓光,姜红,吴爱平,吴倩,吴兵,王阳.基于拉力数值的服装包装塑料袋分析研究[J].实验与分析,2023,1(2):97-101.
6郑文杰,乔木,杨袆,崔其会.基于点云数据的变电站三维建模方法研究[J].山东电力技术,2024,51(3):65-72.
7刘宝莹,杨晨光,李清政,李龙,王磊,翟华.双光路红外分选机结构对废旧塑料瓶剔除率的影响[J].塑料科技,2024,52(2):49-53.

1冯鹏宇,陈平华,申建芳.融合LSTM和注意力机制的音乐分类推荐方法[J].计算机科学与应用,2020,10(12):2280-2290.
2张艳月,张宝华,赵云飞,吕晓琪,谷宇,李建军.基于双通道深度密集特征融合的遥感影像分类[J].激光技术,2021,45(1):73-79. 被引量：4
32021年组稿方向[J].计算机应用,2021,41(1).
4王安强,赵知劲.基于改进遗传算法的跳频通信智能决策引擎[J].杭州电子科技大学学报（自然科学版）,2021,41(1):1-6. 被引量：4
5王颖颖,郭笑寒,高慧卉,吕凤阳,王新梅.大连地区无偿献血人群HIV感染情况及防控策略分析[J].国际医药卫生导报,2021,27(2):314-317. 被引量：2

现代电子技术

2021年第3期

浏览历史

内容加载中请稍等...

改进卷积神经网络的音频场景分类研究被引量：5

参考文献1

共引文献2

同被引文献36

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

改进卷积神经网络的音频场景分类研究 被引量：5

参考文献1

共引文献2

同被引文献36

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

改进卷积神经网络的音频场景分类研究被引量：5