基于通用背景-联合估计(UB-JE)的说话人识别方法被引量：5

Speaker Recognition Based on Universal Background-Joint Estimation(UB-JE)

下载PDF

导出

摘要在说话人识别中,有效的识别方法是核心.近年来,基于总变化因子分析(i-vector)方法成为了说话人识别领域的主流,其中总变化因子空间的估计是整个算法的关键.本文结合常规的因子分析方法提出一种新的总变化因子空间估计算法,即通用背景–联合估计(Universal background-joint estimation algorithm, UB-JE)算法.首先,根据高斯混合–通用背景模型(Gaussian mixture model-universal background model, GMM-UBM)思想提出总变化矩阵通用背景(UB)算法;其次,根据因子分析理论结合相关文献提出了一种总变化矩阵联合估计(JE)算法;最后,将两种算法相结合得到通用背景–联合估计(UB-JE)算法.采用TIMIT和MDSVC语音数据库,结合i-vector方法将所提的算法与传统算法进行对比实验.结果显示,等错误率(Equal error rate, EER)和最小检测代价函数(Minimum detection cost function, MinDCF)分别提升了8.3%与6.9%,所提方法能够提升i-vector方法的性能. In the speaker recognition, the effective identification method is the core. In recent years, i-vector method has become the mainstream in the field of speaker recognition, and estimation of the total variation factor space is the key of whole algorithm. In this paper, we propose a new algorithm for total variation factor space estimation named UB-JE,which is combined with conventional factor analysis method. Firstly, the universal background algorithm of total variation matrix is proposed according to Gaussian mixture model-universal background model（GMM-UBM）. Secondly, the joint estimation algorithm of total variation matrix is proposed according to the factor analysis theory and related works.Finally, the two algorithms are combined to get the universal background-joint estimation algorithm（UB-JE）. TIMIT and MDSVC corpus are adopted in the experiment to compare the proposed algorithm with the traditional algorithm.Experimental results show that the equal error rate（EER） and the minimum detection cost function（MinDCF） are improved by 8.3 % and 6.9 %, respectively. The proposed method can improve the performance of i-vector method.

作者汪海彬郭剑毅毛存礼余正涛 WANG Hai-Bin;GUO Jian-Yi;MAO Cun-Li;YU Zheng-Tao(School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500;Intelligent Information Processing Key Laboratory,Kunming University of Science and Technology,Kunming 650500)

机构地区昆明理工大学信息工程与自动化学院昆明理工大学智能信息处理重点实验室

出处《自动化学报》 EI CSCD 北大核心 2018年第10期1888-1895,共8页 Acta Automatica Sinica

基金国家自然科学基金(61262041 61472168 61562052)资助~~

关键词总变化因子分析总变化因子空间通用背景–联合估计算法说话人识别 I-vector total variation factor space universal background-joint estimation algorithm（UB-JE） speaker recognition

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献2

1何亮,史永哲,刘加.联合因子分析中的本征信道空间拼接方法[J].自动化学报,2011,37(7):849-856. 被引量：8
2郭武,李轶杰,戴礼荣,王仁华.说话人识别中的因子分析以及空间拼接[J].自动化学报,2009,35(9):1193-1198. 被引量：14

二级参考文献22

1Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models. Digital Signal Processing, 2000, 10(1-3): 19-41.
2Campbell W M, Sturim D E, Reynolds D A. Support vector machines using GMM supervectors for speaker verification. IEEE Signal Processing; Letters, 2006, 13(5): 308-311.
3Kenny P, Boulianne G, Ouellet P, Dumouchel P. Speaker and session variability in GMM-based speaker verification. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1448-1460.
4Vogt R, Sridharan S. Experiments in session variability modeling for speaker verification. In: Proceedings of International Conference on Acoustics, Speech, and Signal Processing. Toulouse, France: IEEE, 2006. 897-900.
5Castaldo F, Colibro D, Dalmasso E, Laface P, Vair C. Compensation of nuisance factors for speaker and language recognition. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(7): 1969-1978.
6Kenny P, Ouellet P, Dehak N, Gupta V, Dumouchel P. A study of inter-speaker variability in speaker verification. IEEE Transactions on Audio, Speech, and Language Processing, 2008, 16(5): 980-988.
7Kenny P, Boulianne G, Dumouchel P. Eigenvoice modeling with sparse training data. IEEE Transactions on Audio, Speech, and Lnnguage Processing, 2005, 13(3): 345-354.
8Kenny P, Boulianne G, Ouellet P, Dumouchel P. Joint factor analysis versus eigenchannels in speaker recognition. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1435-1447.
9NIST. The NIST Year 2008 Speaker Recognition Evaluation Plan [Online], available: http://www.nist.gov/speech/tests /sre/2008/index.html, March 20, 2008.
10Bishop C M. Pattern Recognition and Machine Learning. Berlin: Springer, 2008. 583-586.

共引文献17

1何亮,史永哲,刘加.联合因子分析中的本征信道空间拼接方法[J].自动化学报,2011,37(7):849-856. 被引量：8
2姜涛,韩纪庆,郑铁然.基于高斯混合模型移动因子补偿的说话人识别方法[J].声学学报,2011,36(6):658-664. 被引量：2
3顾晓江,赵鹤鸣,吕岗.模型与特征混合补偿法及其在耳语说话人识别中的应用[J].声学学报,2012,37(2):198-203. 被引量：4
4杨海,张翔,梁春燕,索宏彬,颜永红.联合因子分析和稀疏表示在稳健性说话人确认中的应用[J].声学学报,2012,37(5):548-552. 被引量：7
5GU Xiaojiang ZHAO Heming Lu Gang.Whispered speaker identification based on feature and model hybrid compensation[J].Chinese Journal of Acoustics,2012,31(4):499-508. 被引量：1
6李晋,郭武,戴礼荣.联合因子分析算法中基于信号子空间的空间变换方法[J].模式识别与人工智能,2013,26(8):705-710. 被引量：2
7酆勇,李宓,李子明.文本无关的说话人识别研究[J].数字通信,2013,40(4):48-52. 被引量：1
8许云飞,杨海,周若华,颜永红.高斯PLDA在说话人确认中的应用及其联合估计[J].自动化学报,2014,40(6):1068-1074. 被引量：3
9栗志意,张卫强,何亮,刘加.基于总体变化子空间自适应的i-vector说话人识别系统研究[J].自动化学报,2014,40(8):1836-1840. 被引量：17
10梁春燕,杨琳,周若华,颜永红.韵律特征在概率线性判别分析说话人确认中的应用[J].声学学报,2015,40(1):28-33. 被引量：6

同被引文献18

1高荣春,韩纪庆,张磊.说话人识别中基于最大后验概率的通道补偿方法[J].通信学报,2009,30(3):99-103. 被引量：2
2郑方,李蓝天,张慧,艾斯卡尔.肉孜.声纹识别技术及其应用现状[J].信息安全研究,2016,2(1):44-57. 被引量：45
3王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃.生成式对抗网络GAN的研究进展与展望[J].自动化学报,2017,43(3):321-332. 被引量：317
4仲伟峰,方祥,范存航,温正棋,陶建华.深浅层特征及模型融合的说话人识别[J].声学学报,2018,43(2):263-272. 被引量：11
5张一珂,张鹏远,颜永红.基于对抗训练策略的语言模型数据增强技术[J].自动化学报,2018,44(5):891-900. 被引量：19
6杨文斌,杨会成,鲁春,朱文博.基于肤色特征和卷积神经网络的手势识别方法[J].重庆工商大学学报（自然科学版）,2018,35(4):75-81. 被引量：8
7WANG Wenchao,XU Ji,YAN Yonghong.Identity Vector Extraction Using Shared Mixture of PLDA for Short-Time Speaker Recognition[J].Chinese Journal of Electronics,2019,28(2):357-363. 被引量：1
8李聪,葛洪伟.自适应并行模型组合的鲁棒语音身份识别算法[J].信号处理,2018,34(7):867-875. 被引量：6
9王怡斐,韩俊刚,樊良辉.基于WGAN的语音增强算法研究[J].重庆邮电大学学报（自然科学版）,2019,31(1):136-142. 被引量：10
10梁春燕,袁文浩,李艳玲,夏斌,孙文珠.基于判别邻域嵌入算法的说话人识别[J].电子与信息学报,2019,41(7):1774-1778. 被引量：4

引证文献5

1杨明亮,龙华,邵玉斌,杜庆治.基于i-vector全局参数联合的说话人识别[J].重庆邮电大学学报（自然科学版）,2021,33(1):144-151. 被引量：1
2陈晨,肜娅峰,季超群,陈德运,何勇军.基于深层信息散度最大化的说话人确认方法[J].通信学报,2021,42(7):231-237. 被引量：2
3罗春梅.基于改进MFCC与RCNN的说话人识别算法[J].数学的实践与认识,2021,51(17):102-110. 被引量：6
4邓飞,邓力洪,胡文艺,张葛祥,杨强.说话人身份识别深度网络中的聚合模型研究[J].计算机应用研究,2022,39(3):721-725. 被引量：3
5李燕萍,曹盼,左宇涛,张燕,钱博.基于i向量和变分自编码相对生成对抗网络的语音转换[J].自动化学报,2022,48(7):1824-1833. 被引量：1

二级引证文献13

1钟鹏飞,谭平,汤悦,龙帅,邱辉.基于嵌入式系统的婴儿哭啼监测器[J].信息与电脑,2022,34(5):125-127.
2王学松,王世刚,郭毅峰.基于EEMD的融安方言语音合成算法研究[J].传感器世界,2022,28(6):25-29. 被引量：1
3陈晨,季超群,李文文,陈德运,王莉莉,杨海陆.基于互信息自适应估计的说话人确认方法[J].电子科技大学学报,2023,52(1):125-131. 被引量：1
4李徽.一种基于距离参数化CKF的单站无源定位方法[J].兵器装备工程学报,2023,44(1):204-208. 被引量：1
5席青云,孙同日,陶佰睿,杨文博,苗凤娟.PCA-VQ融合降维的SMO-SVM说话人识别研究[J].传感技术学报,2023,36(2):275-279.
6马志举,杜庆治,龙华,邵玉斌.基于改进语谱图的深度学习说话人识别[J].现代电子技术,2023,46(21):32-38.
7陈秉沃,张二华,唐振民.基于模型聚类的说话人识别研究[J].计算机与数字工程,2023,51(8):1745-1749.
8徐杰,韩雪晴,廖庆洲,廖盛斌.基于GMM的听障儿童听觉辨识能力机器检测研究[J].华中师范大学学报(自然科学版),2023,57(6):807-812.
9张玉莲,姚姗姗,王超,畅江.基于不确定性学习的文本无关的说话人确认方法[J].计算机应用,2023,43(12):3727-3732.
10曹嘉玲,陈宁.基于图神经网络与多特征融合的说话人验证模型[J].计算机应用研究,2023,40(12):3678-3682.

1刘镇,范远超,卜禹,陆璐璐.基于并行化的说话人识别方法的研究[J].信息技术,2017,41(10):121-123.
2杨毫鸽,孙成立.基于GMM-UBM的飞机发动机声音识别方法研究[J].计算机科学与应用,2017,7(8):781-787. 被引量：2
3陈爱月,徐波,申子健.基于高斯混合模型及TIMIT语音库的说话人身份识别[J].信息通信,2017,30(7):51-52. 被引量：3
4马意彭,王震,董雨楠,钟雅婷.基于生物特征的声纹识别算法及实现[J].数码世界,2018,0(6):239-239.
5惠琳,俞一彪.短时频谱通用背景模型群联合韵律的年龄语音转换[J].声学学报,2017,42(6):762-768. 被引量：3
6赵剑桥.基于高分辨率遥感影像的张店区土地利用变化研究[J].山东理工大学学报（自然科学版）,2018,32(4):50-55. 被引量：1
7张超,孟梦.基于物联网的变电设备故障诊断研究[J].自动化与仪器仪表,2018,0(5):59-62. 被引量：4
8缑新科,王跃.基于T矩阵归一化PLDA的说话人确认[J].计算机与现代化,2017(10):53-56.
9赵艳,吕亮,赵力.基于修正Fukunaga-Koontz变换的说话人识别方法[J].电子器件,2018,41(4):1050-1054.
10刘冲冲,邹翔,周正仙.基于新阈值函数和自适应阈值的小波包语音增强研究[J].计算机应用研究,2017,34(11):3324-3328. 被引量：4

自动化学报

2018年第10期

浏览历史

内容加载中请稍等...

基于通用背景-联合估计(UB-JE)的说话人识别方法被引量：5

参考文献2

二级参考文献22

共引文献17

同被引文献18

引证文献5

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于通用背景-联合估计(UB-JE)的说话人识别方法 被引量：5

参考文献2

二级参考文献22

共引文献17

同被引文献18

引证文献5

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于通用背景-联合估计(UB-JE)的说话人识别方法被引量：5