摘要
在说话人确认系统的实际应用中,让用户提供大量的训练语音是不现实的,所以在GMM-SVM系统中,正样本点数通常只有一个,而负样本点数远远多于正样本点数,造成SVM分类超平面严重偏向负样本,这种情况对于支持向量机的性能影响很大。针对此问题,提出了基于时间间隔对语音数据进行分段的方法,来增多正样本点数,得到更好的分类超平面。美国国家标准与技术研究所(NIST)2002年说话人识别数据库上的实验证明,语音分段的方法能在一定程度上提升整个说话者确认系统的识别精度和鲁棒性。
在说话人确认系统的实际应用中,让用户提供大量的训练语音是不现实的,所以在GMM-SVM系统中,正样本点数通常只有一个,而负样本点数远远多于正样本点数,造成SVM分类超平面严重偏向负样本,这种情况对于支持向量机的性能影响很大。针对此问题,提出了基于时间间隔对语音数据进行分段的方法,来增多正样本点数,得到更好的分类超平面。美国国家标准与技术研究所(NIST)2002年说话人识别数据库上的实验证明,语音分段的方法能在一定程度上提升整个说话者确认系统的识别精度和鲁棒性。
出处
《电子技术(上海)》
2010年第3期18-19,共2页
Electronic Technology
关键词
语音分段
GMM超向量
支持向量机
通用背景模型
说话人确认
utterance partition based on time interval
GMM supervector
support vector machine(SVM)
universal background model(UBM)
speaker verification