为了提高低信噪比下语种识别的准确率,引入一种新的特征提取融合方法.在前端加入有声段检测,并基于人耳听觉感知模型提取伽玛通频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)特征,通过主成分分析对特征进行压缩、降噪,...为了提高低信噪比下语种识别的准确率,引入一种新的特征提取融合方法.在前端加入有声段检测,并基于人耳听觉感知模型提取伽玛通频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)特征,通过主成分分析对特征进行压缩、降噪,融合每个有声段的Teager能量算子倒谱参数,通过高斯混合通用背景模型进行语种识别验证.实验结果表明,在信噪比为-5~0 dB时,相对于基于对数梅尔尺度滤波器组能量特征方法,融合特征集方法对5种语言的识别率,分别提升了23.7%~34.0%,其他信噪比等级下识别率也有明显的提升.展开更多
在现实声场景中存在着大量的有用信息,当场景中出现了异常音频时(如哭声、玻璃碎裂、物体摔裂、爆炸、车辆急促鸣笛等),意味着这个场景中存在着一定的危险性,可通过对场景中异常声音的关键特征进行识别检索来达到对危险声环境检测的效...在现实声场景中存在着大量的有用信息,当场景中出现了异常音频时(如哭声、玻璃碎裂、物体摔裂、爆炸、车辆急促鸣笛等),意味着这个场景中存在着一定的危险性,可通过对场景中异常声音的关键特征进行识别检索来达到对危险声环境检测的效果。国内外研究者针对检测声音事件时效率较低、稳定性较差等问题,不对异常声音进行分类建模,而仅结合特征参数特点分类爆炸声、尖叫声、哭笑声等异常情况,通常选用的参数有短时能量、过零率、梅尔倒谱系数(Mel-Frequency Cepstrum,MFCC)等。为了探寻更适合异常音频检测的参数,本文提出了一种基于改进梅尔频率倒谱系数MFCC(Mel-scale Frequency Cepstral Coefficients,MFCC)与短时能量特征的异常音频检测方法。展开更多
为了对腭裂语音的高鼻音进行等级区分,提出基于声学特征参数分析的腭裂语音高鼻音等级自动识别算法,提取基于香农能量和Mel倒谱系数(Mel frequency cepstrum coefficient,MFCC)的S-MFCC作为声学特征参数,结合高斯混合模型(Gaussian mixt...为了对腭裂语音的高鼻音进行等级区分,提出基于声学特征参数分析的腭裂语音高鼻音等级自动识别算法,提取基于香农能量和Mel倒谱系数(Mel frequency cepstrum coefficient,MFCC)的S-MFCC作为声学特征参数,结合高斯混合模型(Gaussian mixture model,GMM)分类器实现对腭裂语音4类高鼻音等级(正常、轻度、中度和重度)的自动识别。实验结果表明,提出的自动识别算法取得了较高的高鼻音类别正确识别率,对4类高鼻音的平均识别率达到79%以上,其中,提出的S-MFCC参数取得了85%的平均正确识别率,优于传统的香农能量算法、MFCC算法,具有较高的临床应用价值。展开更多
文摘为了提高低信噪比下语种识别的准确率,引入一种新的特征提取融合方法.在前端加入有声段检测,并基于人耳听觉感知模型提取伽玛通频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)特征,通过主成分分析对特征进行压缩、降噪,融合每个有声段的Teager能量算子倒谱参数,通过高斯混合通用背景模型进行语种识别验证.实验结果表明,在信噪比为-5~0 dB时,相对于基于对数梅尔尺度滤波器组能量特征方法,融合特征集方法对5种语言的识别率,分别提升了23.7%~34.0%,其他信噪比等级下识别率也有明显的提升.
文摘在现实声场景中存在着大量的有用信息,当场景中出现了异常音频时(如哭声、玻璃碎裂、物体摔裂、爆炸、车辆急促鸣笛等),意味着这个场景中存在着一定的危险性,可通过对场景中异常声音的关键特征进行识别检索来达到对危险声环境检测的效果。国内外研究者针对检测声音事件时效率较低、稳定性较差等问题,不对异常声音进行分类建模,而仅结合特征参数特点分类爆炸声、尖叫声、哭笑声等异常情况,通常选用的参数有短时能量、过零率、梅尔倒谱系数(Mel-Frequency Cepstrum,MFCC)等。为了探寻更适合异常音频检测的参数,本文提出了一种基于改进梅尔频率倒谱系数MFCC(Mel-scale Frequency Cepstral Coefficients,MFCC)与短时能量特征的异常音频检测方法。