摘要
共振峰和谐波成分是语音的一个典型特征。由于语音和环境的多变性,采用普通的方法提取这些特征存在很多困难。该文提出了一种在窄带语谱图上通过图像增强的方法,通过sobel算子计算窄带语谱图的方向场,通过Gabor滤波增强谐波区域,通过门限方法得到二值化图,去除方向大于45°和依赖度低的点,得到连续的水平方向的带状分布,即谐波分布区域,求取谐波分布区域内的能量,以此作为门限判决的特征。实验结果表明,在不同信噪比、多种非平稳噪声环境下都能够达到较好的语音检出效果;同时这个特征不但能抑制高能量突发噪声,而且在非平稳噪声背景下的语音检测也表现出了优秀性能。其优点为,不需要噪声的先验知识,充分利用了语音在频率域和时间域的相关性,适应于各种非平稳复杂噪声。
Formant and consonance are two discriminable features of speech,but these features are difficult to extract due to the wide variety of speech and many complex backgrounds.This paper presents an image enhancement method to calculate the formant consonance energy parameter by identifying the consonance region in a narrow-band spectrogram.The consonance region is identified through orientation estimation,consonance enhancement,binarisation,and post-processing using the Sobel operator,the Gabor filter,a thresho...
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008年第S1期754-759,共6页
Journal of Tsinghua University(Science and Technology)
关键词
语音端点检测
共振峰谐波能量
图像增强
窄带语谱图
speech endpoint detection
formant-consonance energy
image enhancement
narrow-band spectrogram