基于核函数的IVEC-SVM说话人识别系统研究被引量：9

Speaker Recognition with Kernel Based IVEC-SVM

下载PDF

导出

摘要在说话人识别研究中,基于身份认证向量(Identity vector,IVEC)的说话人建模方法可以有效地提取说话人信息,是目前处于国际前沿的建模方法.本文对身份认证向量后接支持向量机(Identity vector followed by support vector machine,IVEC-SVM)的说话人识别系统进行了研究,对比了该系统在十种不同核函数下的识别性能,并与文献中身份认证向量后接余弦距离打分(Identity vector followed by cosine distance scoring,IVEC-CDS)系统进行了比较.在美国国家标准技术局(American National Institute of Standards and Technology,NIST)组织的2010年电话信道—电话信道说话人识别核心评测数据库上的实验结果显示,基于核函数的IVEC-SVM系统性能明显优于IVEC-CDS的系统性能.此外,实验结果表明基于Spline核的IVEC-SVM系统可取得最好的识别性能,与IVEC-CDS系统相比,其等错点(Equal error rate,EER)在分数归一化前后分别降低了10%和3%. In the text-independent speaker recognition re- search area, identity vector （IVEC） based modeling has been recently proved to be the most efficient method of extracting speaker information. This paper explores and compares the performances of ten different kernel functions in identity vecw tor followed by support vector machines （IVEC-SVM） system and identity vector followed by cosine distance scoring （IVEC- CDS）. Experiments corpora the speaker recognition evaluation data, telephone-telephone corpus released by American National Institute of Standard and Technology （NIST） in 2010, demon- strate that the kernel function based IVEC-SVM system per- forms better than the IVEC-CDS system. Among all the kernel function based IVEC-SVM systems, the spline kernel function performs the best, and it has relative decreases of 10 % and 3 % in EER compared to the IVEC-CDS system before and after doing score normalization, respectively.

作者栗志意张卫强何亮刘加

机构地区清华大学电子工程系清华信息与科学技术国家实验室

出处《自动化学报》 EI CSCD 北大核心 2014年第4期780-784,共5页 Acta Automatica Sinica

基金国家自然科学基金(61005019 61273268 90920302 61370034)资助~~

关键词身份认证向量后接余弦距离打分身份认证向量后接支持向量机 Spline核说话人识别 Identity vector followed by cosine distance scoring（IVEC-CDS）, identity vector followed by support vector machine（IVEC-SVM）, spline kernel, speaker recognition

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models. Digital Signal Processing, 2000, 10(1-3): 19-41.
2Kinnunen T, Li H Z. An overview of text-independent speaker recognition: from features to supervectors. Speech Communication, 2010, 52(1): 12-40.
3栗志意,何亮,张卫强,刘加.基于鉴别性i-vector局部距离保持映射的说话人识别[J].清华大学学报（自然科学版）,2012,52(5):598-601. 被引量：11
4Campbell W M, Campbell J P, Reynolds D A, Singer E, Torres-Carrasquillo P A. Support vector machines for speaker and language recognition. Computer Speech and Language, 2006, 20(2-3): 210-229.
5Kenny P, Boulianne G, Ouellet P, Dumouchel P. Speaker and session variability in GMM-based speaker verification. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1448-1460.
6Kenny P, Boulianne G, Ouellet P, Dumouchel P. Joint factor analysis versus eigenchannels in speaker recognition. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1435-1447.
7Dehak N, Kenny P J, Dehak R, Dumouchel P, Ouellet P. Front-end factor analysis for speaker verification. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4): 788-798.
8Kenny P, Boulianne G, Dumouchel P. Eigenvoice modeling with sparse training data. IEEE Transactions on Speech and Audio Processing, 2005, 13(3): 345-354.
9Hatch A O, Kajarekar S S, Stolcke A. Within-class covariance normalization for SVM-based speaker recognition. In: Proceedings of the International Conference on Spoken Language. Pittsburgh, PA, 2006. 1471-1474.
10Bishop C M. Pattern Recognition and Machine Learning. Berlin: Springer, 2008.

二级参考文献10

1Kinnunen T,Li H.An overview of text-independent speakerrecognition:From features to supervectors[].Space Communications.2010
2N. Dehak,P. J. Kenny,R. Dehak,P. Dumouchel,P. Ouellet.Front-End Factor Analysis for speaker verification[].IEEE Trans Audio Speech and Languge Processing.2011
3He Xiaofei,Niyogi Partha.Locality preserving projections[].Advances in Neural Information Processing Systems.2004
4Kenny P,Ouellet P,Dehak N,et al.A study ofinter-speaker variability in speaker verification[].IEEE Transactions on AudioSpeech and LanguageProcessing.2008
5Patrick Kenny,Boulianne G,Ouellet P,et al.Speaker andsession variability in GMM-based speaker verification[].IEEE Transactions on AudioSpeech and LanguageProcessing.2007
6.NIST Speaker Recognition Evaluation[]..
7Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models[].Digital Signal Processing.2000
8He X F,Cai D,Yan S C,et al.Neighborhood preserving embedding[].Proceedings of the Tenth IEEE International Conference on Computer Vision.2005
9Ghahramani Z,Hinton GE.The EM algorithm for mixtures of factor analyzers. Technical Report CRG-TR-96-1 . 1996
10何亮,栗志意,蔡猛,刘加.集合分类中的鉴别式局部信息距离保持映射[J].清华大学学报（自然科学版）,2011,51(7):1010-1016. 被引量：2

共引文献10

1酆勇,李宓,李子明.文本无关的说话人识别研究[J].数字通信,2013,40(4):48-52. 被引量：1
2栗志意,张卫强,何亮,刘加.基于总体变化子空间自适应的i-vector说话人识别系统研究[J].自动化学报,2014,40(8):1836-1840. 被引量：17
3邢玉娟,潘颖,曹晓丽.改进i-向量说话人识别算法研究[J].科学技术与工程,2014,22(34):224-228. 被引量：2
4王明合,唐振民,张二华.基于i-vector局部加权线性判别分析的说话人识别[J].仪器仪表学报,2015,36(12):2842-2848. 被引量：6
5琚炜,李锐,李辉.使用置信区间的基频特征对Ⅰ-Vector系统的性能补偿[J].小型微型计算机系统,2016,37(7):1629-1632.
6王伟,韩纪庆,郑铁然,郑贵滨,周星宇,金声.基于i-vector声纹识别上课点名系统的设计与实现[J].智能计算机与应用,2016,6(6):108-110.
7李湾湾,范承志,祁才君.基于改进MFD的I-Vector说话人识别[J].电声技术,2016,40(12):43-48. 被引量：1
8林舒都,邵曦.基于i-vector和深度学习的说话人识别[J].计算机技术与发展,2017,27(6):66-71. 被引量：10
9张志友,周佳燕,邵海见,鲍安平.基于自适应邻域选择的局部线性嵌入算法[J].南京理工大学学报,2017,41(6):748-752. 被引量：1
10孙杰,王斌,王宏,吾守尔·斯拉木.基于小波特征的维吾尔语方言识别[J].实验室研究与探索,2023,42(4):148-152.

同被引文献72

1金永强,苏怀智,李子阳.基于和声搜索的边坡稳定性投影寻踪聚类分析[J].水利学报,2007,38(S1):682-686. 被引量：13
2鲍焕军,郑方.GMM-UBM和SVM说话人辨认系统及融合的分析[J].清华大学学报（自然科学版）,2008,48(S1):693-698. 被引量：9
3宣国荣,郑俊翔,杨程云,柴佩琪,施云庆.巴氏距离和K-L变换结合的特征选择[J].计算机工程与应用,2004,40(36):90-92. 被引量：6
4刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
5奚建荣.基于局域网的指纹考勤系统的设计实现[J].现代电子技术,2006,29(5):98-100. 被引量：10
6谭颖,殷福亮,李细林.改进的SRP-PHAT声源定位方法[J].电子与信息学报,2006,28(7):1223-1227. 被引量：16
7刘毅,王海清.Pensim仿真平台在青霉素发酵过程的应用研究[J].系统仿真学报,2006,18(12):3524-3527. 被引量：44
8贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：222
9马金娜,田大钢.基于支持向量机的中文文本自动分类研究[J].系统工程与电子技术,2007,29(3):475-478. 被引量：14
10袁胜发,褚福磊.支持向量机及其在机械故障诊断中的应用[J].振动与冲击,2007,26(11):29-35. 被引量：88

引证文献9

1赵小蕾,邝晓滨.基于说话人及语音识别协同决策点名系统设计[J].信息安全与技术,2015,6(4):93-96. 被引量：3
2张峰,陈华伟,李妍文.基于多核最小二乘支持向量回归的TDOA-DOA映射方法[J].数据采集与处理,2017,32(3):540-549. 被引量：6
3吕金锐.一种改进的支持向量机参数寻优方法[J].计算机与数字工程,2017,45(7):1318-1322. 被引量：2
4吴文昭.基于GMM聚类的鲁棒性i向量说话人确认[J].工业仪表与自动化装置,2017(4):55-59.
5龚铖,琚炜.基于I-Vector的多核学习SVM的说话人确认系统[J].微型机与应用,2017,36(22):15-18. 被引量：1
6李荟,赵云敏.GMM-UBM和SVM在说话人识别中的应用[J].计算机系统应用,2018,27(1):225-230. 被引量：7
7高学金,姚玉卓,韩华云,齐咏生.基于注意力动态卷积自编码器的发酵过程故障监测[J].化工学报,2023,74(6):2503-2521.
8王秋平,赵木来.基于改进和声搜索算法的支持向量机参数优化[J].化工自动化及仪表,2015,42(11):1237-1241 1249. 被引量：1
9萧展辉,胡长华.基于大数据的输配电线路外部隐患信息分析研究[J].自动化与仪器仪表,2019,0(3):23-26. 被引量：3

二级引证文献22

1董昱宏,宋广佳,安仲立.一种基于层次分析的课堂点名决策方法[J].科学技术创新,2019(3):75-78.
2丁克良,周命端,李学芳,邱冬炜,谢烈虎.多功能课堂教学综合跟踪管理在线系统开发与应用[J].测绘通报,2016(12):131-134. 被引量：2
3杨波.基于KPCA优化IHS-RVM的小时间尺度网络流量预测模型[J].计算机应用与软件,2017,34(10):185-191.
4郭业才,郑梦含,张珊,万逸儒.基于非线性Volterra信道的复数神经多项式盲均衡算法[J].数据采集与处理,2017,32(6):1082-1088. 被引量：1
5贾艳洁,陈曦,于洁琼,王连明.基于特征语谱图和自适应聚类SOM的快速说话人识别[J].科学技术与工程,2019,19(15):211-218. 被引量：5
6茅晨,高翔,徐国政,宋爱国.基于MSVR的六维腕力传感器静态解耦算法[J].数据采集与处理,2019,34(4):736-743. 被引量：3
7赵芸,唐旭清.基于层次结构数据的多元线性回归问题分析[J].数据采集与处理,2019,34(5):883-892. 被引量：3
8李海涛,张伟.基于量子引力搜索算法的SVM火焰识别算法[J].电子测量技术,2019,42(18):81-84. 被引量：2
9张震,关维国,邹颖.基于IMK-WLSSVR的WiFi室内定位算法[J].传感器与微系统,2019,38(12):120-123. 被引量：3
10李剑,贺铭,韩焱,辛伟瑶.基于走时-偏振角度信息的地下震源定位方法[J].探测与控制学报,2020,42(1):29-34. 被引量：2

1美国家标准局开始征集新的Hash算法[J].中国教育网络,2008(2_3):25-25.
2上海银晨智能识别科技有限公司[J].检察风云,2009(9).
3杨望.阻止基于DNS的攻击[J].中国教育网络,2008(5):31-31.
4李雄,张东波.基于GMM-WSUM的多生物特征二级融合识别方法[J].计算机工程与应用,2014,50(2):179-182. 被引量：1
5Rong ZHANG,Wenzhe YU,Chaofeng SHA,Xiaofeng HE,Aoying ZHOU.Product-oriented review summarization and scoring[J].Frontiers of Computer Science,2015,9(2):210-223. 被引量：1
6吴毅坚,赵文耘.特定领域软件框架的提取方法研究[J].电子学报,2003,31(z1):2151-2153. 被引量：3
7邓亚平,付红,谢显中,张玉成,石晶林.基于公钥体制的3GPP认证与密钥协商协议[J].计算机应用,2009,29(11):2936-2938. 被引量：4
8任洪庆,卢建朱,许娇阳.基于Bloom Filter的加密数据库字段认证方案[J].计算机工程与设计,2011,32(3):818-821. 被引量：2
9王刚,郑方.电话信道下应用DMFCC进行说话人识别[J].清华大学学报（自然科学版）,2009(10):1597-1600. 被引量：4
10李雄,张东波.基于 GMM—WSUM 的多生物特征二级融合识别方法[J].山西建筑,2014,40(19):230-231.

自动化学报

2014年第4期

浏览历史

内容加载中请稍等...

基于核函数的IVEC-SVM说话人识别系统研究被引量：9

参考文献14

二级参考文献10

共引文献10

同被引文献72

引证文献9

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于核函数的IVEC-SVM说话人识别系统研究 被引量：9

参考文献14

二级参考文献10

共引文献10

同被引文献72

引证文献9

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于核函数的IVEC-SVM说话人识别系统研究被引量：9