-
题名基于双重数据增强策略的音频分类方法
被引量:3
- 1
-
-
作者
周迅
张晓龙
-
机构
武汉科技大学计算机科学与技术学院
武汉科技大学大数据科学与工程研究院
武汉科技大学智能信息处理与实时工业系统湖北省重点实验室
-
出处
《武汉科技大学学报》
CAS
北大核心
2020年第2期155-160,共6页
-
基金
国家自然科学基金资助项目(U1803262,61702381).
-
文摘
卷积神经网络模型作为音频特征提取器具有较好的应用效果,但该类模型的训练过程对数据量要求比较高。针对这一问题,本文提出一种基于双重数据增强策略的音频分类方法。首先采用传统音频数据增强方法(旋转、调音、变调、加噪),并将增强后的数据转化为语谱图,再采用随机均值替换法进行谱图增强。在此基础上训练Inception_Resnet_V2神经网络模型作为音频特征提取器,最后训练随机森林模型作为分类器完成音频分类任务。实验结果表明,与已有方法相比,采用双重数据增强策略可明显提升音频分类精度,并且训练出的特征提取模型具有较强的泛化能力。
-
关键词
音频分类
双重数据增强
卷积神经网络
特征提取
随机森林
语谱图
-
Keywords
audio classification
double data augmentation
convolutional neural network
feature extraction
random forest
spectrogram
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-