音质(Timbre)是音乐感知和言语识别的重要线索。传统音质分析方法无法同时获取理想的时间分辨率和频域分辨率,对音频的非平稳特性没有很好地处理。本文采用时变滤波经验模态分解(Time Varying Filtering based EMD,TVF-EMD)方法提取音...音质(Timbre)是音乐感知和言语识别的重要线索。传统音质分析方法无法同时获取理想的时间分辨率和频域分辨率,对音频的非平稳特性没有很好地处理。本文采用时变滤波经验模态分解(Time Varying Filtering based EMD,TVF-EMD)方法提取音频的固有模态函数用于希尔伯特变换,并构建了音质的希尔伯特频谱分布特征和希尔伯特轮廓特征。在乐器分类问题中,将提取的两类音质特征与Mel倒谱系数特征(Mel Frequency Cepstral Coefficients,MFCCs)有效结合,然后构造基于双向长短时记忆网络的音质时序分类器,在公开乐器演奏音频数据库中进行了乐器分类实验。结果表明,所提出的音质特征可以有效补充Mel倒谱特征等传统特征无法表达的非线性非平稳信息,大大提高了本音质表征方法对复杂音频的适应性和鲁棒性。展开更多
文摘音质(Timbre)是音乐感知和言语识别的重要线索。传统音质分析方法无法同时获取理想的时间分辨率和频域分辨率,对音频的非平稳特性没有很好地处理。本文采用时变滤波经验模态分解(Time Varying Filtering based EMD,TVF-EMD)方法提取音频的固有模态函数用于希尔伯特变换,并构建了音质的希尔伯特频谱分布特征和希尔伯特轮廓特征。在乐器分类问题中,将提取的两类音质特征与Mel倒谱系数特征(Mel Frequency Cepstral Coefficients,MFCCs)有效结合,然后构造基于双向长短时记忆网络的音质时序分类器,在公开乐器演奏音频数据库中进行了乐器分类实验。结果表明,所提出的音质特征可以有效补充Mel倒谱特征等传统特征无法表达的非线性非平稳信息,大大提高了本音质表征方法对复杂音频的适应性和鲁棒性。