基于多核SVM-GMM的短语音说话人识别被引量：11

Speaker recognition with short utterances based on multiple kernel SVM-GMM

下载PDF

导出

摘要运用多个核函数的线性组合构造多核空间,在多核空间上设计了基于支持向量机的说话人分类器,实现短语音说话人识别。多核映射能够解决单核映射核函数及其参数选择的难题,增加说话人的可区分性,提高分类器的性能。算法中结合了高斯混合模型(GMM),并以GMM超向量作为说话人的最终特征参数进行仿真实验。实验表明,在短语音和两种噪声环境中,基于多核SVM-GMM的短语音说话人识别算法较SVM-GMM算法能得到更好的识别性能和鲁棒性。 A linear combination of several kernels is used to construct multiple kernel space. In multiple kernel space, Support Vector Machine （SVM） classifiers are designed to identify speakers with short utterances. Multiple kernel mapping can solve the problem of single kernel mapping, such as the selection of kernel function and parameters. Besides, multiple kernel mapping can increase discriminative power among different speakers and improve the performance of classifiers. In simulation experiment, Gaussian Mixture Model （GMM） was used to get GMM supervector as speakers＇ final feature parameters. Experiment results show that under the condition of short utterances and two noisy environments, the performance and robustness of the multiple SVM-GMM speaker recognition algorithm are better than that of SVM-GMM algorithm.

作者林琳陈虹陈建金焕梅

机构地区吉林大学通信工程学院

出处《吉林大学学报（工学版）》 EI CAS CSCD 北大核心 2013年第2期504-509,共6页 Journal of Jilin University:Engineering and Technology Edition

基金吉林省科技发展计划项目(201101032) 高等学校博士学科点专项科研基金项目(20090061120042)

关键词通信技术说话人识别短语音多核支持向量机高斯混合模型超向量 communication speaker recognition short utterances multiple kernel SVM Gaussian mixture model supervector

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献10

1Yang Yao-yuan, Chen Wei, Lu Yu-dong, et al. Re- search of speaker identification based on little train- ing data[C]//Proceeding of the 3rd International Conference on Machine Learning and Cybernetics, Shanghai, 2004.
2Jayanna H S, Mahadeva Prasanna S R. Multiple frame size and rate analysis for speaker recognition under limited data condition[J], lET Signal Pro- cessing, 2009, 3(3) : 189-204.
3Mak Man-Wai, Rao Wei. Utterance partitioning with acoustic vector resampling for GMM-SVMspeaker verification [J]. Speech Communication, 2011, 53(1) :119-130.
4Zien A, Ong C S. Muhiclass multiple kernel learn- ing[C]//Proceedings of the 24th International Con- ference on Machine Learning. New York, USA: ACM, 2007.
5Tian Xi-lan, Gasso Gilles, Canu St6phane. A multi- ple kernel framework for inductive semi-supervised SVM learning[J]. Neuro-computing, 2012, 90(1): 46-58.
6Chen Zhen-yu, Li Jian-ping, Wei Li-wei, et al. Multiple-kernel SVM based multiple-task oriented data mining system for gene expression data analysis[J]. Expert Systems with Applications, 2011, 38 (10) : 12151-12159.
7WU Zheng-Peng ZHANG Xue-Gong.Elastic Multiple Kernel Learning[J].自动化学报,2011,37(6):693-699. 被引量：6
8University of California Irvine. UCI Machine Learn- ing Repository[EB/OL]~. http://archive, ics. uci. edu/ml.
9吴玺宏.一个面向说话人识别的汉语语音数据库[EB/OL].http://nlprweb.ia.ac.cn/english/irds/chinese/SinobiometricsPDF/Wuxi-hong.pdf,2002.
10Campbell W, Sturim D E, Reynolds D A, Support vector machines using GMM supervectors for speak- er verification[J]. IEEE Signal Processing Letters, 2006, 13(5): 308-311.

二级参考文献20

1Bonnans J F, Gilbert J C, Lemarechal C, Sagastizabal C. Numerical Optimization: Theoretical and Practical Aspects. Springer-Verlag, 2006.
2Lanckriet G R G, Cristianini N, Bartlett P, Ghaoui L E, Jordan M I. Learning the kernel matrix with semidefinite programming. Journal of Machine Learning Research, 2004, 5, 27-72.
3Bach F R, Lanckriet G R G, Jordan M I. Multiple kernel learning, conic duality, and the SMO algorithm. In: Pro- ceedings of the 21st International Conference on Machine Learning. New York, USA: ACM 2004. 1-8.
4Kimeldor G S, Wahba G. Some results on tchebycheffian spline functions. Journal of Mathematical Analysis and Ap- plications, 1971, 33(1): 82-95.
5Scholkopf B, Smola A. Learning with kernels: support vector machines, regularization, optimization, and beyond. Cam- bridge: The MIT Press, 2002.
6Tibshirani R. Regression shrinkage and selection via the Lasso. Journal of the Royal Statistical Society Series B- Statistical Methodology, 1996, 58(1): 267-288.
7Zou H, Hastie T. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society Series B-Statistical Methodology, 2005, 67: 301-320.
8Micchelli C A, Pontil M. Learning the kernel function via regularization. Journal of Machine Learning Research, 2005, 6:1099-1125.
9Rakotomamonjy A, Bach F R, Canu S, Grandvalet Y. Sim- pleMKL. Journal of Machine Learning Research, 2008, 9: 2491-2521.
10Bonnans J F, Shapiro A. Optimization problems with per- turbations: A guided tour. Siam Review, 1998, 40(2): 228-264.

共引文献7

1林琳,王树勋.基于遗传-模糊聚类的说话人识别方法及其仿真研究[J].系统仿真学报,2006,18(8):2338-2341. 被引量：13
2林琳,王树勋,陈建.基于模糊核熵的短语音说话人识别[J].系统仿真学报,2008,20(16):4368-4372. 被引量：1
3涂歆,严洪森.基于扩展的径向基函数核支持向量机的产品销售预测模型[J].计算机集成制造系统,2013,19(6):1343-1350. 被引量：7
4张仁峰,吴小俊,陈素根.通用稀疏多核学习[J].计算机应用研究,2016,33(1):21-27. 被引量：3
5刘建峰,淦燕.基于模糊多核学习的改进支持向量机算法研究[J].计算机测量与控制,2016,24(3):231-233. 被引量：4
6高凯,闫春生,李正文,韩子娇,田博文,李扬,李国庆.基于广域量测和高斯过程分类器的暂态稳定评估[J].现代电力,2017,34(2):56-61. 被引量：4
7周一鸣,吴玉仁,沈项军,朱倩,吴蔚,张江涛.多核集成支持向量机合成孔径雷达目标分类[J].指挥信息系统与技术,2022,13(3):36-43.

同被引文献109

1龙艳花,郭武,戴礼荣.用于SVM说话者确认系统的序列核[J].清华大学学报（自然科学版）,2008,48(S1):688-692. 被引量：1
2郭武,戴礼荣,王仁华.采用UBM更新量作为支持向量机特征的说话人确认[J].清华大学学报（自然科学版）,2008,48(S1):704-707. 被引量：4
3冷自强,王金明,林大会.一种GMM-SVM混合说话人辨认模型[J].军事通信技术,2009,30(1):86-89. 被引量：1
4王丹,张祥合.基于HOG和SVM的人体行为仿生识别方法[J].吉林大学学报（工学版）,2013,43(S1):489-492. 被引量：9
5于明,袁玉倩,董浩,王哲.一种基于MFCC和LPCC的文本相关说话人识别方法[J].计算机应用,2006,26(4):883-885. 被引量：14
6王国胜.核函数的性质及其构造方法[J].计算机科学,2006,33(6):172-174. 被引量：52
7贺志阳,张玲华.基于GMM统计参数和SVM的说话人辨认研究[J].南京邮电大学学报（自然科学版）,2006,26(3):78-82. 被引量：2
8ANGUERA X, WOOTERS C, PESKIN B, et al. Robust speaker segmentation for meetings: The ICSI- SRI spring 2005 diarization system [C]//Machine Learning for Multimodal Interaction, 2006: 402-414.
9HUNG H, HUANG Yan, FRIEDLAND G, et al. Estimating dominance in multi-party meetings using speaker diarization[J]. IEEE Transactions on Audio, Speech and Language Processing, 2011, 19(4): 847- 860.
10KINNUNEN T, KAPROV E, FRANTI P. Realtime speaker identification and verification[J]. IEEE Transactions on Audio, Speech and Language Processing, 2006, 14(1): 277-288.

引证文献11

1赵立辉,毛竹,霍春宝,杨红喆.基于GMM-SVM的说话人识别系统研究[J].工矿自动化,2014,40(5):49-53. 被引量：7
2刘晓峰,张雪英,Zizhong John Wang.Logistic核函数及其在语音识别中的应用[J].华南理工大学学报（自然科学版）,2015,43(5):100-106. 被引量：6
3张兢,杨超,曾建梅,李冠迪.基于遗传算法与支持向量机的EMD改进算法[J].重庆理工大学学报（自然科学）,2015,29(11):101-105. 被引量：3
4谭萍,邢玉娟.基于GMM超向量和Fisher-稀疏表示分类的说话人确认[J].青海大学学报（自然科学版）,2016,34(1):51-57. 被引量：2
5邢玉娟,谭萍.基于稀疏表示分类的说话人识别算法及其在智能考勤系统中的应用[J].工业仪表与自动化装置,2016(2):84-87. 被引量：1
6李燕萍,林乐,陶定元.基于GMM统计特性的电子伪装语音鉴定研究[J].计算机技术与发展,2017,27(1):103-106. 被引量：6
7王煜.说话人识别研究现状[J].数字技术与应用,2017,35(6):59-61. 被引量：2
8盖晁旭,梁隆恺,何勇军.数据不充分情况下的说话人识别[J].哈尔滨理工大学学报,2017,22(3):13-18. 被引量：1
9耿庆田,于繁华,王宇婷,高琦坤.基于特征融合的车型检测新算法[J].吉林大学学报（工学版）,2018,48(3):929-935. 被引量：4
10舒毅,邢玉娟.基于i-向量和PCA字典学习稀疏表示的说话人确认[J].计算机工程与应用,2016,52(18):144-147. 被引量：1

二级引证文献34

1马学明.50%苯·苄可湿性粉剂的研究[J].湖南化工,2000,30(1):22-23.
2古万荣,谢贤芬,何亦琛,张子烨.基于AdaBoost算法的药物—靶向蛋白作用预测算法[J].生物医学工程学杂志,2018,35(6):935-942. 被引量：2
3谭萍,邢玉娟.基于GMM超向量和Fisher-稀疏表示分类的说话人确认[J].青海大学学报（自然科学版）,2016,34(1):51-57. 被引量：2
4邢玉娟,谭萍.基于稀疏表示分类的说话人识别算法及其在智能考勤系统中的应用[J].工业仪表与自动化装置,2016(2):84-87. 被引量：1
5李哲军,周萍,景新幸.基于改进噪声估计的谱减法应用于说话人识别[J].计算机测量与控制,2016,24(4):155-158.
6吴恩英,吕佳.基于二叉树支持向量机多类分类算法的研究[J].重庆师范大学学报（自然科学版）,2016,33(3):102-106. 被引量：13
7李玲俐.家庭保健监测系统中环境声音事件的识别[J].重庆师范大学学报（自然科学版）,2016,33(4):118-122. 被引量：2
8吴文昭.基于GMM聚类的鲁棒性i向量说话人确认[J].工业仪表与自动化装置,2017(4):55-59.
9李云.清浊音分离抗噪的语音识别算法的研究[J].电子技术与软件工程,2017(24):83-84. 被引量：2
10何振鹏,朱志琪,谢海超,王雅文,李宗强,何锐,杜超平,李金兰.基于最小二乘法线性拟合抑制EMD端点效应[J].系统仿真学报,2018,30(9):3377-3385. 被引量：12

1龙艳花,郭武,戴礼荣.采用韵律特征的说话人确认系统[J].数据采集与处理,2010,25(1):76-80. 被引量：1
2崔宣,孙华.基于SVM-GMM混合模型说话人辨认的研究[J].黑龙江工程学院学报,2009,23(4):54-57. 被引量：2
3肖永良,夏利民.基于局部多核支持向量机的视频镜头边界检测[J].信息与控制,2011,40(3):381-386. 被引量：1
4胡若华,张有根.基于GMM超向量核函数的说话人识别[J].微计算机信息,2009,25(7):254-256.
5崔宣,孙华,刘浏.基于SVM-GMM混合模型的说话人辨认研究[J].西华大学学报（自然科学版）,2010,29(1):58-61.
6胡国军,秦进春,龚辉.联合多元信息的激光雷达点云多核分类方法研究[J].测绘科学与工程,2016,36(6):36-40.
7李继国,曹珍富,李建中,张亦辰.代理签名的现状与进展[J].通信学报,2003,24(10):114-124. 被引量：56
8谭萍,邢玉娟.基于GMM超向量和Fisher-稀疏表示分类的说话人确认[J].青海大学学报（自然科学版）,2016,34(1):51-57. 被引量：2
9陈志,范平志.最佳自正交不等保护能力码的组合构造[J].西南交通大学学报,1992,27(1):91-95.
10饶为,王典洪,麦文伟.语音分段在基于GMM-SVM说话人确认中的应用[J].电子技术（上海）,2010(3):18-19. 被引量：1

吉林大学学报（工学版）

2013年第2期

浏览历史

内容加载中请稍等...

基于多核SVM-GMM的短语音说话人识别被引量：11

参考文献10

二级参考文献20

共引文献7

同被引文献109

引证文献11

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于多核SVM-GMM的短语音说话人识别 被引量：11

参考文献10

二级参考文献20

共引文献7

同被引文献109

引证文献11

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于多核SVM-GMM的短语音说话人识别被引量：11