基于多特征i-vector的短语音说话人识别算法被引量：6

Short utterance speaker recognition algorithm based on multi-featured i-vector

下载PDF

导出

摘要当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降。针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i-vector的短语音说话人识别算法。该算法首先提取不同的声学特征向量组合成一个高维特征向量,然后利用主成分分析(PCA)去除高维特征向量的相关性,使特征之间正交化,最后采用线性判别分析(LDA)挑选出最具区分性的特征,并且在一定程度上降低空间维度,从而实现更好的说话人识别性能。结合TIMIT语料库进行实验,同一时长的短语音(2 s)条件下,所提算法比基于i-vector的单一的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、感知对数面积比系数(PLAR)特征系统在等错误率(EER)上分别有相对72. 16%、69. 47%和73. 62%的下降。不同时长的短语音条件下,所提算法比基于i-vector的单一特征系统在EER和检测代价函数(DCF)上大致都有50%的降低。基于以上两种实验的结果充分表明了所提算法在短语音说话人识别系统中可以充分提取说话人的个性信息,有利地提高说话人识别性能。 When the length of the test speech is sufficient,the information and discrimination of single feature is sufficient to complete the speaker recognition task.However,when the length of the test speech was very short,the performance of speaker recognition is decreased significantly due to the small data size and insufficient discrimination.Aiming at the problem of insufficient speaker information under the short speech condition,a short utterance speaker recognition algorithm based on multi-featured i-vector was proposed.Firstly,different acoustic feature vectors were extracted and combined into a high-dimensional feature vector.Then Principal Component Analysis(PCA)was used to remove the correlation of the feature vectors,so that the features were orthogonalized.Finally,the most discriminating features were picked out by Linear Discriminant Analysis(LDA),which led to reduce the spatial dimension.Therefore,this multi-featured system can achieve a better speaker recognition performance.With the TIMIT corpus under the same short speech(2 s)condition,the experimental results showed that the Equal Error Rate(EER)of the multi-featured system decreased respectively by 72.16%,69.47%and 73.62%compared with the single-featured systems including Mel-Frequency Cepstrum Coefficient(MFCC),Linear Prediction Cepstrum Coefficient(LPCC)and Perceptual Log Area Ratio(PLAR)based on i-vector.For the different lengths of the short speech,the proposed algorithm provided rough 50%improvement on EER and Detection Cost Function(DCF)compared with the single-featured system based on i-vector.Experimental results fully indicate that the multi-featured system can make full use of the speaker s characteristic information in the short utterance speaker recognition,and improves the speaker recognition performance.

作者孙念张毅林海波黄超 SUN Nian;ZHANG Yi;LIN Haibo;HUANG Chao(School of Advanced Manufacturing Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065,China;School of Automation,University of Posts and Telecommunications,Chongqing 400065,China)

机构地区重庆邮电大学先进制造工程学院重庆邮电大学自动化学院

出处《计算机应用》 CSCD 北大核心 2018年第10期2839-2843,共5页 journal of Computer Applications

基金重庆市基础科学与前沿技术研究专项重点项目(cstc2015jcyjBX0066)~~

关键词说话人识别 i-vector 短语音多特征主成分分析线性判别分析 speaker recognition i-vector short utterance multi-feature Principal Component Analysis(PCA) Linear Discriminant Analysis(LDA)

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1樊春玲,陈秀霆.基于PCA和LDA的人脸识别系统设计[J].控制工程,2012,19(4):712-715. 被引量：8
2甄斌,吴玺宏,刘志敏,迟惠生.语音识别和说话人识别中各倒谱分量的相对重要性[J].北京大学学报（自然科学版）,2001,37(3):371-378. 被引量：74
3尹聪,白静,龚宬,张陈昊,郑方,Waleed H.Abdulla.基于PLAR的说话人确认系统的噪音鲁棒性[J].清华大学学报（自然科学版）,2013,53(6):791-795. 被引量：2

二级参考文献21

1王琳琳,张利鹏,徐明星.基于分数规整的发音方式鲁棒的说话人识别[J].清华大学学报（自然科学版）,2009(S1):1278-1282. 被引量：1
2杨行峻迟惠生.数字语音信号处理[M].北京:电子工业出版社,1995..
3Zhen B，Proceedings ICSLP Ⅱ，2000年，933页
4杨行峻，数字语音信号处理，1995年
5M H Yans, D J Kfiesman, N-Ahuja. I)etectins Faces in Images: A Survey[ J]. IEEE Transaction on Pattern Analysis and Machine In- telligence. 2002,24( 1 ) :34-58.
6Vytautas Perlibakas. Measure.,; for PCA-based Face Recognition [ J ]. Pattern Recognition Letters. 2004,25 (6) :711-724.
7Maina C W, Walsh J M. Joint speech enhancement and speaker identification using approximate Bayesian inference [C]// Proceedings of the 44th Annual Conference on Information Sciences and Systems. Princeton, NJ, USA: IEEE, 2010:1-6.
8Tadj C, Gabrea M. Towards robustness in speaker verification: Enhancement and adaptation [C]// Proceedings of the 45th Midwest Symposium on Circuits and Systems. New York, USA: IEEE, 2002: 320-323.
9Chow D, Abdulla W H. Robust speaker identification based on perceptual log area ratio and Gaussian mixture Models [C]// Proceedings of the 2004-ICSLP. Jeju Island, South Korea: IEEE, 2004: 1761-1764.
10Kinnunen T, Saeidi R, Sedlak F, et al. Low-variance multitaper MFCC features: A case study in robust speaker verification [J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(7): 1990-2001.

共引文献81

1王光艳,赵晓群,王霞.基于MATLAB GUI的语音信号特征提取系统设计[J].河北工业大学学报,2010,39(4):14-18. 被引量：11
2岳倩倩,周萍,景新幸.基于非线性幂函数的听觉特征提取算法研究[J].微电子学与计算机,2015,32(6):163-166. 被引量：5
3闫向宏,张亚萍,乔文孝.基于倒双谱的套管井声学评价系统特性辨识[J].应用声学,2005,24(4):250-254.
4李鹏怀,徐佩霞.基于DSP的嵌入式语音识别系统的实现[J].计算机工程,2005,31(16):160-162. 被引量：10
5崔双喜,朴春俊.噪声环境下的语音识别性能研究[J].计算机测量与控制,2005,13(11):1276-1278. 被引量：11
6马军,杨苹.一种聚焦式模糊分段算法及其在语音识别中的应用[J].科技资讯,2006,4(7):2-4.
7白莹,赵振东,戚银城,王斌,郭建勇.基于小波神经网络的与文本无关说话人识别方法研究[J].电子与信息学报,2006,28(6):1036-1039. 被引量：7
8贺志阳,张玲华.基于GMM统计参数和SVM的说话人辨认研究[J].南京邮电大学学报（自然科学版）,2006,26(3):78-82. 被引量：2
9王书诏,邱天爽.与文本无关的说话人识别系统的设计[J].电声技术,2006,30(12):51-52. 被引量：1
10王书诏,邱天爽.说话人识别研究综述[J].电声技术,2007,31(1):51-55. 被引量：9

同被引文献45

1陈世雄,宫琴,金慧君.用Gammatone滤波器组仿真人耳基底膜的特性[J].清华大学学报（自然科学版）,2008,48(6):1044-1048. 被引量：33
2徐晓娜,穆志纯,潘秀琴,赵悦.基于KCCA的特征融合方法及人耳人脸多模态识别[J].华南理工大学学报（自然科学版）,2008,36(9):117-121. 被引量：3
3王玥,钱志鸿,王雪,程光明.基于伽马通滤波器组的听觉特征提取算法研究[J].电子学报,2010,38(3):525-528. 被引量：28
4林琳,陈虹,陈建,金焕梅.基于多核SVM-GMM的短语音说话人识别[J].吉林大学学报（工学版）,2013,43(2):504-509. 被引量：11
5甄斌,吴玺宏,刘志敏,迟惠生.语音识别和说话人识别中各倒谱分量的相对重要性[J].北京大学学报（自然科学版）,2001,37(3):371-378. 被引量：74
6茅正冲,王正创,王丹.基于Gammatone滤波器组的说话人识别算法研究[J].计算机工程与应用,2015,51(1):200-203. 被引量：9
7酆勇,熊庆宇,石为人,曹俊华.一种基于受限玻尔兹曼机的说话人特征提取算法[J].仪器仪表学报,2016,37(2):256-262. 被引量：19
8黄婷,周萍,景新幸,杨青.改进型Mel混合参数应用于说话人识别[J].微电子学与计算机,2016,33(4):60-63. 被引量：2
9赵彩光,张树群,雷兆宜.基于并行回火改进的GRBM的语音识别[J].计算机工程与应用,2016,52(8):125-129. 被引量：1
10刘丽静.论《普通话培训与测试》教材中朗读作品的句型分析[J].学术论坛,2016,38(4):176-180. 被引量：3

引证文献6

1张晓慧,申蕾,王宏岩,马永波,张才俊.基于语义关联的终端模糊语音高精度识别方法[J].电子设计工程,2020,28(2):8-11. 被引量：4
2董元菲,王康.基于频域卷积和三元组损失的端到端声纹识别[J].电子设计工程,2020,28(13):154-159. 被引量：1
3马艳荣.复杂环境下的计算机辅助普通话测试系统设计[J].电子测量技术,2020,43(20):26-30. 被引量：2
4瞿于荃,龙华,段荧.基于伽马通频率倒谱系数的短语音说话人确认[J].数据通信,2021(2):36-41. 被引量：1
5瞿于荃,龙华,段荧,邵玉斌,杜庆治.联合总变率空间和时延神经网络的说话人识别[J].计算机科学与探索,2021,15(7):1255-1264. 被引量：1
6龙华,瞿于荃,段荧.一种基于核典型关联分析的短语音说话人嵌入向量算法[J].小型微型计算机系统,2021,42(11):2269-2275. 被引量：1

二级引证文献10

1文必龙,郭娇,焦圣杰.企业数据空间中关联推理机制研究[J].自动化与仪器仪表,2021(2):25-28.
2朱龙珠,田诺,张全.基于语义分析的语音情感在线识别方法研究[J].电子设计工程,2021,29(11):151-154. 被引量：1
3王晨霞.普通话计算机智能测试替代人工测试的思考[J].电子技术与软件工程,2021(13):144-145. 被引量：1
4郭霏霏.基于隐马尔可夫模型的物联网终端语音身份动态识别方法[J].上海电机学院学报,2021,24(6):361-365. 被引量：2
5陈和洋,周金平,何春庆,陈欢,王林发.基于物联网技术的变电站蓄电池设备数据采集系统研究[J].山东电力技术,2022,49(1):30-35. 被引量：4
6白曦龙,冯佳.基于ChaffMatrix的光载声音声纹变化识别系统设计[J].激光杂志,2022,43(1):174-178.
7屈晶.基于计算机辅助测试环境下的普通话应试技巧分析[J].科技资讯,2022,20(3):233-235.
8王瑶,龙华,邵玉斌,杜庆治.可变时长的短时广播语音多语种识别[J].云南大学学报（自然科学版）,2022,44(3):490-496. 被引量：1
9张强,武明路,韩文学,包伟伟,张楠,李明轩,翟永杰.高噪声环境下电厂设备声音融合特征生成方法研究与实现[J].热力发电,2022,51(12):39-47. 被引量：3
10张霞,刘乾,郭倩,梁新彦,钱宇华,畅江.强调信息传播和特征分布的说话人验证模型:EIPFD-ResNet[J].小型微型计算机系统,2023,44(3):463-470. 被引量：1

1刘俊坤,李燕萍,凌云志.基于AutoEncoder DBN-VQ的说话人识别系统[J].计算机技术与发展,2018,28(2):45-49. 被引量：2
2刘华阳,冯蒸.《高本汉诗经注释》通假字研究[J].汉字文化,2017(6):8-18.
3冯月芹,郝雯超,陈义,王蕾,李春光.说话人识别算法鲁棒性研究[J].南京工程学院学报（自然科学版）,2017,15(3):60-66. 被引量：2
4姜贵先,罗溪,张露露,刘青,肖良.长链非编码RNA的保守性及其在非模式生物长链非编码RNA筛选中的应用[J].第二军医大学学报,2017,38(10):1304-1310. 被引量：1
5邹黎敏.向量组的秩的教学思考[J].数学学习与研究,2018(14):7-7.
6马意彭,王震,董雨楠,钟雅婷.基于生物特征的声纹识别算法及实现[J].数码世界,2018,0(6):239-239.
7郑海军,吴建国,刘政怡.相似矩阵和聚类一致性的协同显著检测[J].计算机科学与探索,2018,12(9):1454-1464. 被引量：2
8孟凡康,娄春波.人工遗传改造生命体的防逃逸技术研究进展[J].有机化学,2018,38(9):2231-2242. 被引量：1
9陈珊,周倜.传统无锡“锡绣”纹样美感解析及其设计应用[J].丝绸,2018,55(10):60-65. 被引量：5
10孟伟,张鸣鹤,潘荣胜.SUMA2.0在汽车生产物流中的应用探究[J].物流技术,2018,37(9):120-123.

计算机应用

2018年第10期

浏览历史

内容加载中请稍等...

基于多特征i-vector的短语音说话人识别算法被引量：6

参考文献3

二级参考文献21

共引文献81

同被引文献45

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于多特征i-vector的短语音说话人识别算法 被引量：6

参考文献3

二级参考文献21

共引文献81

同被引文献45

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于多特征i-vector的短语音说话人识别算法被引量：6