一种基于核典型关联分析的短语音说话人嵌入向量算法被引量：2

Short Utterance Speaker Embedding Vector Algorithm Based on Kernel Canonical Correlation Analysis

下载PDF

导出

摘要针对短语音条件下,基于全局变异空间提取的身份向量存在估计不足导致性能下说话人识别降的问题,提出了一种基于核典型关联分析的方法融合全局变异空间和时滞神经网络的说话人嵌入向量.首先,分别训练全局变异空间和时滞神经网络模型.然后在注册和测试阶段,同时提取说话人在两者模型中嵌入向量.通过高斯核函数将其映射至高维空间分析其非线性关联关系,从中获得仿射向量,最后将其组合得到最终说话人嵌入向量.实验表明,10秒以下的短语音环境,该方法所提取出的说话人向量相比其余几种说话人嵌入向量在等误差率和最小检测代价上平均下降了16.29%,20.38%,2.78%以及8.03%,7.17%,0.26%.最后,与其他算法进行对比,在等误差率上均有提升.以上实验表明,该文所提出的方法有效提高短语音环境下的说话人识别性能. Aiming at the short utterance condition,the identity vector extracted based on total variability space has the problem of underestimation,which leads to the performance degradation of Speaker Verification recognition.A Kernel Canonical Association Analysis based method combining total variability space and time delay neural network speaker embedding vector is proposed.First,train total variability space and time delay neural network models separately.Then,in the registration and testing phases,the speaker embedding vectors are extracted in both models.Through Gaussian kernel function,it is mapped to high-dimensional space to analyze its nonlinear relationship,obtain affine vectors from it,and finally combine them to obtain the final speaker embedding vector.Experiments show that in short utterance environments of less than 10 seconds,the speaker vectors extracted by this method have an average drop of 16.29%,20.38%,2.78%,and 8.03%,7.17%,0.26%in EER and minDCF compared to the other speaker embedding vectors.Finally,compared with other algorithms,it has improved on EER.The above experiments show that the method proposed in this paper can effectively improve the speaker recognition performance in short utterance environment.

作者龙华瞿于荃段荧 LONG Hua;QU Yu-quan;DUAN Ying(College of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650000,China;National Key Laboratory of Computer Science of Yunnan Province,Kunming University of Science and Technology,Kunming 650000,China)

机构地区昆明理工大学信息工程与自动化学院昆明理工大学云南计算机国家重点实验室

出处《小型微型计算机系统》 CSCD 北大核心 2021年第11期2269-2275,共7页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61761025)资助.

关键词全局变异空间时滞神经网络核典型相关分析嵌入向量短语音 total variability space time delay neural network(TDNN) kernel canonical correlation analysis(KCCA) embedding vector short utterance

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1王铮,傅山.基于改进身份向量提取的短语音说话人确认[J].小型微型计算机系统,2019,40(11):2264-2268. 被引量：3
2孙念,张毅,林海波,黄超.基于多特征i-vector的短语音说话人识别算法[J].计算机应用,2018,38(10):2839-2843. 被引量：6
3周萍,沈昊,郑凯鹏.基于MFCC与GFCC混合特征参数的说话人识别[J].应用科学学报,2019,37(1):24-32. 被引量：44
4王昕,张洪冉.基于DNN处理的鲁棒性I-Vector说话人识别算法[J].计算机工程与应用,2018,54(22):167-172. 被引量：11
5酆勇,熊庆宇,石为人,曹俊华.一种基于受限玻尔兹曼机的说话人特征提取算法[J].仪器仪表学报,2016,37(2):256-262. 被引量：19
6田垚,蔡猛,何亮,刘加.基于深度神经网络和Bottleneck特征的说话人识别系统[J].清华大学学报（自然科学版）,2016,56(11):1143-1148. 被引量：13
7徐晓娜,穆志纯,潘秀琴,赵悦.基于KCCA的特征融合方法及人耳人脸多模态识别[J].华南理工大学学报（自然科学版）,2008,36(9):117-121. 被引量：3

二级参考文献28

1王伟,邓辉文.基于MFCC参数和VQ的说话人识别系统[J].仪器仪表学报,2006,27(z3):2253-2255. 被引量：30
2孙权森,曾生根,杨茂龙,王平安,夏德深.基于典型相关分析的组合特征抽取及脸像鉴别[J].计算机研究与发展,2005,42(4):614-621. 被引量：29
3Arun Ross, Anil Jain. Muhimodal biometrics: an overview [C]//Proc of the 12th European Signal Processing Conference. Vienna : EUSIPCO ,2004 : 1221-1224.
4Burge M, Burger W. Ear biometrics in computer vision [ C]//Proc of the 15th International Conference on Pattern Recognition. Barcelona : IEEE ,2000:822-826.
5Hurley J D, Nixon S M, Carter N J. Force field energy functions for image feature extraction [ J]. Image and Vision Computing, 2002,20 : 311 - 317.
6Yuan Li, Mu Zhi-chun, Zhang Yu, et al. Ear recognition using improved non-negative matrix factorization [ C ] // Proc of the 18th International Conference on Pattern Recognition. Hong Kong: IEEE ,2006.
7Iannarelli A. Ear identification:forensic identification series [ M ]. Fremont: Paramount Publishing Company, 1989.
8Faundez Zanuy. Data fusion in biometrics [J]. Aerospace and Electronic Systems Magazine,2005,20( 1 ) :34-38.
9Liu Chengjun, Wechsler Harry. Face recognition using shape and texture [ C ]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Fort Collins : IEEE, 1999:23-25.
10Yang Jian, Yang Jing-yu, Zhang David, et al. Feature fusion : parallel strategy vs serial strategy [ J ]. Pattern Recognition ,2003,20 : 1961-1971.

共引文献86

1刘冬兰,孔德秋,常英贤,刘新,马雷,王睿.基于受限玻尔兹曼机的电力信息系统多源日志综合特征提取[J].计算机系统应用,2020,29(11):210-217. 被引量：1
2艾佳琪,左毅,刘君霞,贺培超,李铁山,陈俊龙.基于余弦相似度的动态语音特征提取算法[J].计算机应用研究,2020,37(S02):147-149. 被引量：10
3崔琳,王芷悦.基于LFBank与FBank混合特征的声纹识别研究[J].计算机科学,2022,49(S02):621-625. 被引量：4
4黄光磊,李喆,许永鹏,钱勇,盛戈皞,江秀臣.基于改进深度信念网络的直流XLPE电缆局部放电模式识别[J].高电压技术,2020,46(1):327-334. 被引量：11
5杨林,刘乾喜.基于特征融合的KLPCCA及其在人脸识别中的应用[J].科技信息,2009(33).
6范懿文,柳学成,夏时洪.人脸表情动画与语音的典型相关性分析[J].计算机辅助设计与图形学学报,2011,23(5):805-812. 被引量：4
7辜华良.冲击器频率的声波测试法[J].长春科技大学学报,2000,30(2):204-205. 被引量：3
8代杰杰,宋辉,杨祎,陈玉峰,盛戈皞,江秀臣.基于深度信念网络的变压器油中溶解气体浓度预测方法[J].电网技术,2017,41(8):2737-2742. 被引量：45
9吴礼福,申浩.掩蔽法减少谱减法去混响中的音乐噪声[J].电子测量与仪器学报,2017,31(11):1855-1859. 被引量：4
10刘俊坤,李燕萍,凌云志.基于AutoEncoder DBN-VQ的说话人识别系统[J].计算机技术与发展,2018,28(2):45-49. 被引量：2

同被引文献5

1何亮,杨毅,刘加.基于TLS-NAP的文本无关说话人识别算法[J].模式识别与人工智能,2012,25(6):916-921. 被引量：1
2王克琪,钱宇华,梁吉业,刘畅,黄琴,陈路,贾洁茹.局部-全局关系耦合的低照度图像增强[J].中国科学：信息科学,2022,52(3):443-460. 被引量：6
3陈晨,韩纪庆,陈德运,何勇军.文本无关说话人识别中句级特征提取方法研究综述[J].自动化学报,2022,48(3):664-688. 被引量：4
4徐志航,陈博,张辉,俞凯.小数据下的音素级别说话人嵌入的语音合成自适应方法[J].计算机学报,2022,45(5):1003-1017. 被引量：10
5黄俊,蒋兵,李先刚,郭武生,戴礼荣.I-vector聚类字典及注意力机制框架的说话人自适应[J].小型微型计算机系统,2019,40(2):460-464. 被引量：4

引证文献2

1张霞,刘乾,郭倩,梁新彦,钱宇华,畅江.强调信息传播和特征分布的说话人验证模型:EIPFD-ResNet[J].小型微型计算机系统,2023,44(3):463-470. 被引量：1
2蒋世炜,钱宇华,原之安,梁新彦.生成式与对比式耦合的声纹识别自监督预训练方法[J].小型微型计算机系统,2024,45(8):1847-1853. 被引量：1

二级引证文献2

1戴雯菊,金宇,黄宇.基于小波神经网络的调度人员带噪声纹识别方法[J].信息与电脑,2023,35(19):152-154.
2林泽文,郑景元,何允栋,余文敬,徐翀.多级特征融合的掩码自编码声纹识别方法[J].福建电脑,2024,40(10):23-27.

1董元菲,王康.基于频域卷积和三元组损失的端到端声纹识别[J].电子设计工程,2020,28(13):154-159. 被引量：2
2杨明亮,龙华,邵玉斌,杜庆治.基于i-vector全局参数联合的说话人识别[J].重庆邮电大学学报（自然科学版）,2021,33(1):144-151. 被引量：1

小型微型计算机系统

2021年第11期

浏览历史

内容加载中请稍等...

一种基于核典型关联分析的短语音说话人嵌入向量算法被引量：2

参考文献7

二级参考文献28

共引文献86

同被引文献5

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于核典型关联分析的短语音说话人嵌入向量算法 被引量：2

参考文献7

二级参考文献28

共引文献86

同被引文献5

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于核典型关联分析的短语音说话人嵌入向量算法被引量：2