最小方差无失真响应感知倒谱系数在说话人识别中的应用被引量：4

Perceptual MVDR-based cepstral coefficients for speaker recognition

下载PDF

导出

摘要研究最小方差无失真响应感知倒谱系数在说话人识别中的应用。提取最小方差无失真响应感知倒谱系数,对其进行高斯混合模型建模并采用联合因子分析的方法来拟合高斯混合模型中的说话人和信道差异,在美国国家标准技术研究院2008年说话人识别评测核心测试集上分别对最小方差无失真响应感知倒谱系数和传统的Mel频率倒谱系数进行测试。结果显示,两种不同特征的系统性能相当,采用线性融合方法后,在不同测试集上的等错误率相对下降了7.6%～30.5%,最小检测错误代价相对下降了3.2%～21.2%。实验表明,最小方差无失真响应感知倒谱系数能有效应用于说话人识别中,且与传统的Mel频率倒谱系数存在一定程度的互补性。 A new feature extraction technique named perceptual MVDR-based cepstral coefficients （PMCCs） is intro- duced into speaker recognition. PMCCs are extracted and modeled using Gaussian Mixture Models （GMMs） for speaker recognition. In order to compensate for speaker and channel variability effects, joint factor analysis （JFA） is used. The experiments are carried out on the core conditions of NIST 2008 speaker recognition evaluation data. The experimental results show that the systems based on PMCCs can achieve comparable performance to those based on the conventional MFCCs. Besides, the fusion of the two kinds of systems can make significant performance improvement compared to the MFCCs system alone, reducing equal error rate （EER） by the factor between 7.6% and 30.5% as well as minimum detect cost function （minDCF） by the factor between 3.2% and 21.2% on different test sets. The results indicate that PMCCs can be effectively applied in speaker recognition and they are complementary with MFCCs to some extent.

作者梁春燕张翔杨琳张建平颜永红

机构地区中国科学院声学研究所中国科学院语言声学与内容理解重点实验室

出处《声学学报》 EI CSCD 北大核心 2012年第6期673-678,共6页 Acta Acustica

基金国家自然科学基金资助项目(10925419,90920302,10874203,60875014,61072124,11074275)

关键词 MEL频率倒谱系数最小方差无失真响应说话人识别感知应用高斯混合模型标准技术研究院测试集 Face recognition Feature extraction

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献16

1Davis S B, Mermelstein P. Comparison of parametric rep- resentations for monosyllabic word recognition in contin- uously spoken sentences. IEEE Trans. On Acoustics, Speech, and Signal Processing, 1980; 28:357--366.
2Kinnunen T, Li H. An overview of text-independent speaker recognition: from features to supervectors. Speech Communication, 2010.
3Murthi M N, Rao B D. All-pole modeling of speech based on the minimum variance distortionless response spectrum. IEEE Trans. On Speech and Audio Processing, 2000: 221--239.
4Makhoul J. Linear prediction-A tutorial review. In: Proc. IEEE, 1975; 63:501--580.
5Kay S M, Marple Jr S L. Spectrum analysis-A modern per- spective. In: Proc, IEEE, 1981; 69:1380--1419.
6Capon J. High-resolution frequency-wavenumber spectrum analysis. In: Proc. IEEE, 1969; 57:1408--1418.
7Marple Jr S L. Digital spectral analysis with applications. Prentice-Hall, Englewood Cliffs, N J, 1987.
8Haykin S. Adaptive filter theory. Prentice-Hall, Englewood Cliffs, N J, 1991.
9Yapanel U H, Dharanipragada S. Perceptual MVDR-based cepstral coefficients (PMCCs) for noise robust speech recognition. In: IEEE ICASSP03, 2003:644 647.
10Hermansky H. Perceptural linear prediction (PLP) analysis of speech. J. Acoust. Soc. Am., 1990:1738 1752.

同被引文献38

1王伟,邓辉文.基于MFCC参数和VQ的说话人识别系统[J].仪器仪表学报,2006,27(z3):2253-2255. 被引量：30
2YUYibiao,WANGShuozhong.Speaker identification based on complete feature corpus and evaluation of mutual information[J].Chinese Journal of Acoustics,2005,24(3):280-288. 被引量：1
3俞一彪,王朔中.文本无关说话人识别的全特征矢量集模型及互信息评估方法[J].声学学报,2005,30(6):536-541. 被引量：7
4陈芬菲.基于GMM的说话人识别系统[J].微处理机,2006,27(4):76-77. 被引量：3
5Valtchev V, Odell J J, Woodland P C et al. MMIE training of large vocabulary recognition systems. Speech Commu- nication, 1997; 22(4): 303-314.
6Juang B H, Chou W, Lee C H. Minimum classification error rate methods for speech recognition. IEEE Transactions on Speech and Audio Processing, 1997; 5(3): 257-265.
7Povey D, Woodland P C. Minimum phone error and i- smoothing for improved discriminative training. Proceed- ings of ICASSP, 2002:105-108.
8Matthew Gibson, Thomas H. Hypothesis spaces for mini- mum hayes risk training in large vocabulary speech recog- nition. Proceedings of Interspeech, 2006:653-1656.
9Du J, Liu P, Jiang H et al. A new minimum divergence ap- proach to discriminative training. Proceedings of ICASSP, 2007:677-680.
10Doumpiotis V, Tsakalidis S, Byrne W. Lattice segmenta- tion and minimum bayes risk discriminative training. Pro- ceedings of Eurospeech, 2003:1985-1988.

引证文献4

1陈斌,张连海,屈丹,李弼程.一种广义边距区分性训练准则[J].声学学报,2014,39(1):119-129. 被引量：1
2冉国敬,夏秀渝,张凤仪.信道失配环境下鲁棒说话人识别[J].计算机系统应用,2015,24(3):235-240. 被引量：2
3仲伟峰,方祥,范存航,温正棋,陶建华.深浅层特征及模型融合的说话人识别[J].声学学报,2018,43(2):263-272. 被引量：11
4王亨佳,翁呈祥,胡乔林,刘康.短波信道下基于鲁棒语音特征参数的身份识别方法[J].空军预警学院学报,2019,33(4):281-286.

二级引证文献14

1陈斌,陈琦,张连海,屈丹,李弼程.一种区分性互补系统构造与融合的语音识别方法[J].声学学报,2016,41(1):125-134.
2王满洪,张二华,王明合.基于双门限算法的端点检测改进研究[J].计算机与数字工程,2017,45(11):2223-2228. 被引量：10
3郑璐.基于短时特征双阈值检测的话音信号端点检测算法[J].陇东学院学报,2018,29(5):4-8. 被引量：3
4曹毅,黄子龙,张威,刘晨,李巍.N-DenseNet的城市声音事件分类模型[J].西安电子科技大学学报,2019,46(6):9-16. 被引量：6
5曾春艳,马超峰,王志锋,朱栋梁,赵楠,王娟,刘聪.深度学习框架下说话人识别研究综述[J].计算机工程与应用,2020,56(7):8-16. 被引量：9
6盛永健,黄子龙,刘晨,曹毅,张洪.基于改进卷积神经网络的燃气调压器故障识别研究[J].现代制造工程,2021(4):132-138. 被引量：2
7张兴明,杨凯.深度学习说话人识别中语音特征参数提取研究[J].现代计算机,2021,27(8):3-7. 被引量：2
8罗春梅,张风雷.基于均值特征和改进深度神经网络的说话人识别算法[J].声学技术,2021,40(4):503-507. 被引量：2
9陈志高,赵庆卫,王丽,王文超.融合分布对齐和对抗学习的无监督跨域声纹识别[J].声学学报,2021,46(5):767-774.
10柴庆凤,史霖炎,梅珊,熊海涛,贺惠新.基于人工特征和机器特征融合的科技文献知识元抽取[J].数据分析与知识发现,2021,5(8):132-143. 被引量：11

1田心.美国云的安全问题[J].高科技与产业化,2011,17(7):74-75.
2金士顿DataTraveler BlackBox[J].个人电脑,2008,14(8):106-106.
3谢晴.金士顿黑匣子闪存盘DataTraveler BlackBox[J].新电脑,2008(8):160-160.
4南综.世界首台通用编程量子计算机问世[J].军民两用技术与产品,2009(12):14-14.
5张自嘉,李贺,花晓蕾,张丽萍.基于波束形成算法的声源定位与DSP实现[J].压电与声光,2015,37(1):117-121. 被引量：9
6NST新增网络安全管理职能[J].标准生活,2009(11):94-95.
7戴闻.量子计算机[J].物理,2010(4):259-259.
8张路扬.GDS深圳倡议众商家踊跃参与[J].条码与信息系统,2013(4):29-29.
9杜比数字影院服务器被InfoGard推荐为FIPS 3级[J].现代电影技术,2007(6):22-22.
10超导量子计算机有了首个“光电开关”[J].企业技术开发,2010,29(5):105-105.

声学学报

2012年第6期

浏览历史

内容加载中请稍等...

最小方差无失真响应感知倒谱系数在说话人识别中的应用被引量：4

参考文献16

同被引文献38

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

最小方差无失真响应感知倒谱系数在说话人识别中的应用 被引量：4

参考文献16

同被引文献38

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

最小方差无失真响应感知倒谱系数在说话人识别中的应用被引量：4