时频图像特征用于声场景分类被引量：1

Time-frequency representation based feature extraction for audio scene classification

下载PDF

导出

摘要为解决根据音频流识别声场景的问题,对音频信号进行恒Q变换,得到其时频表达图像,然后进行滤波平滑等处理,随之提取能够表述信号谱能量变化方向信息的梯度直方图特征,以及能够捕捉信号谱纹理信息的局部二值模式特征,输入具有线性核函数的支持向量机分类器,对不同声场景数据进行分类实验。结果表明,相对于传统的时频域特征和梅尔频率倒谱系数特征,所提出的特征基本能够捕捉到给定声场景具有区分度的信息,所得分类率更高,且两者的互补作用使得联合特征分类效果达到最优,该方法为声信号特征提取贡献了一种新思路。 To recognize audio scene in a complex environment according to an audio stream, a constant-Q transform is chosen to obtain the timefrequency representation TFR of the signal. Due to the lack of prior knowledge on the signal and noise, a mean filtering is used to smooth the TFR image, then the features based on the histogram of gradients HOG of the TFR image are extracted, which can reflect the local direction of variation both in time and frequency of the signal power spectrum. Consequently the Local Binary Pattern LBP feature is considered, which captures the texture information of the signal. As for the classification algorithm, support vector machine with linear kernel function is used. Classification experiment has been done on the data of different acoustic scenes. Compared with the classical audio features such as MFCCs, the proposed features capture the discriminative power of a given audio scene to show good performance in classification, and the combined features achieve the best results. It is valuable in the field of feature extraction of acoustic signal.

作者高敏尹雪飞陈克安 GAO Min YIN Xue-fei CHEN Ke-an(School of Electronics and Information, Northwestern Polytechnical University, Xi＇an 710129, Shaanxi, China School of Marine Science and Technology, Northwestern Polytechnical University, Xi＇an 710072, Shaanxi, China)

机构地区西北工业大学电子信息学院西北工业大学航海学院

出处《声学技术》 CSCD 北大核心 2017年第5期399-404,共6页 Technical Acoustics

基金国家自然科学基金资助项目11574249 11074202

关键词声场景恒Q变换梯度直方图局部二值模式 acoustic scene classification constant-Q transform histogram of oriented gradient local binary pattern

分类号 TN911.72 [电子电信—通信与信息系统]

引文网络
相关文献

同被引文献15

1宫文峰,陈辉,张美玲,张泽辉.基于深度学习的电机轴承微小故障智能诊断方法[J].仪器仪表学报,2020,41(1):195-205. 被引量：88
2杨进,文玉梅,李平.基于相关分析和近似熵的管道泄漏声信号特征提取及辨识方法[J].仪器仪表学报,2009,30(2):272-279. 被引量：52
3林勇,周晓军,杨先勇,张文斌.基于SPWVD识别的滚动轴承智能检测方法[J].振动与冲击,2009,28(9):86-90. 被引量：10
4姚玉玲,王宁,石洪华,谭君红.水声信号时频分析方法比较及应用研究[J].中国海洋大学学报（自然科学版）,2011,41(11):115-119. 被引量：5
5李敏,罗洪艳,郑小林,谭立文,朱文武.一种改进的最大类间方差图像分割法[J].南京理工大学学报,2012,36(2):332-337. 被引量：55
6孙斌,万鹏威,陶达,赵玉晓.基于自适应最优核时频分布的鸟类识别[J].数据采集与处理,2015,30(6):1187-1195. 被引量：7
7焦敬品,李勇强,吴斌,何存富.基于BP神经网络的管道泄漏声信号识别方法研究[J].仪器仪表学报,2016,37(11):2588-2596. 被引量：67
8肖启阳,李健,孙洁娣,曾周末,靳世久.基于EWT及互时频的天然气管道泄漏定位[J].仪器仪表学报,2016,37(12):2735-2742. 被引量：8
9闫菁,冯早,吴建德,马军.排水管道堵塞故障的声诊断方法研究[J].云南大学学报（自然科学版）,2018,40(3):431-439. 被引量：4
10李洋,冯早,黄国勇,朱雪峰.基于DT-CWT和S4VM的埋地排水管道堵塞故障识别研究[J].电子科技,2018,31(10):33-38. 被引量：3

引证文献1

1赵燕锋,冯早,朱雪峰,伍林峰.复杂工况下基于时频图像和CNN-SVM的管道堵塞识别研究[J].电子测量与仪器学报,2021,35(2):161-170. 被引量：6

二级引证文献6

1李恬,冯早,朱雪峰.基于主动学习和最优路径森林的管道故障分类识别方法[J].电子测量与仪器学报,2022,36(12):67-76. 被引量：1
2赵康,查志华,李贺,吴杰.基于声振信号对称极坐标图像的苹果霉心病早期检测[J].农业工程学报,2021,37(18):290-298. 被引量：6
3马敏,李继伟,曾田.基于双通道混合网络融合支持向量机的电容层析成像流型辨识[J].电子测量技术,2022,45(4):153-159. 被引量：2
4易笃政,冯早,朱雪峰.低频声学激励在变工况环境下排水管道中的传播特性研究[J].振动与冲击,2023,42(18):259-267. 被引量：1
5韩崔燕,周扬,汪犁辉,雷豁,姚丹,梁卫清.基于YOLOv5s的CCTV排水管道缺陷识别方法研究[J].市政技术,2024,42(3):230-236. 被引量：1
6陈志勇,杜江.基于1D-CNN-PSO-SVM的电力变压器故障诊断[J].计算机仿真,2024,41(3):71-75.

1赵晨萍,冯象初,王卫卫,贾西西.图像恢复问题的梯度稀疏化正则方法[J].系统工程与电子技术,2017,39(10):2353-2358. 被引量：1
2徐琪.插图在阅读教学中的有效利用[J].语文天地（初中版）,2017,0(11):72-73.
3汪家冬,邹采荣,蒋本聪,王青云.基于数字助听器声音场景分类的噪声抑制算法[J].数据采集与处理,2017,32(4):825-830. 被引量：4
4晏强冬.浅述虚拟场景灯光布局[J].民营科技,2017(10):109-109. 被引量：1
5蒋雪,韩芳.基于卷积神经网络的图像纹理的超分辨率重建[J].微型机与应用,2017,36(20):57-60. 被引量：1
6陈苏婷,王卓,王奇.基于非线性尺度空间的航拍场景分类[J].上海交通大学学报,2017,51(10):1228-1234. 被引量：4
7滕明俊.化学反应与能量变化知识点解读[J].中学生数理化（高考理化）,2017,0(10):3-5.
8黄江春,郭健,王莹.数字电视机顶盒的组成及原理[J].数码世界,2017,0(10):94-95.
9童建军,热娜古丽·艾斯凯尔.热化学方程式的书写和理解[J].广东教育（高中版）,2017,0(11):57-59.
10范奎武,郭超.根据同时观测信息确定航天器姿态四元数的一种解析方法[J].导航与控制,2017,16(4):55-59.

声学技术

2017年第5期

浏览历史

内容加载中请稍等...

时频图像特征用于声场景分类被引量：1

同被引文献15

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

时频图像特征用于声场景分类 被引量：1

同被引文献15

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

时频图像特征用于声场景分类被引量：1