基于模型聚类的说话人识别研究

Research on Speaker Recognition Based on Model Clustering

下载PDF

导出

摘要随着说话人识别技术的广泛应用,说话人规模不断增长,若采用传统的说话人辨别方式逐一比较,则计算量较大,难以实时响应,使说话人识别系统的性能与实用性大大降低。传统的K-L散度距离由于非对称性,并不是一种很好的聚类距离度量,聚类效果不佳。论文提出了一种基于Wasserstein distance聚类方法,相比于传统说话人识别方法,该方法的识别准确率提升了近4.7%,并且识别耗时仅为传统识别方法的25.5%,大大提升了说话人识别系统的性能与实用性。 With the wide application of speaker recognition technology,the scale of back-end speakers is growing.If the traditional speaker recognition methods are compared one by one,the amount of calculation is large and it is difficult to respond in real time,which greatly reduces the performance and practicability of the speaker recognition system.Therefore,this paper proposes a speaker recognition method based on model clustering.And because the traditional K-L divergence distance is not a good clustering distance measure because of its asymmetry,the clustering effect is poor.In this paper,a Wasserstein distance clustering method based on approximate model is proposed.Compared with the traditional speaker recognition method,the recognition accuracy of this method is improved by nearly 4.7%,and the recognition time is only 25.5%of the traditional recognition method,which greatly improves the performance and practicability of the speaker recognition system.

作者陈秉沃张二华唐振民 CHEN Bingwo;ZHANG Erhua;TANG Zhenmin(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094)

机构地区南京理工大学计算机科学与工程学院

出处《计算机与数字工程》 2023年第8期1745-1749,1831,共6页 Computer & Digital Engineering

关键词模型聚类推土机距离 Wasserstein distance 说话人识别高斯混合模型 model clustering bulldozer distance Wasserstein distance speaker recognition Gaussian mixture model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1郑艳,姜源祥.基于特征融合的说话人聚类算法[J].东北大学学报（自然科学版）,2021,42(7):952-959. 被引量：5
2罗春梅.基于改进MFCC与RCNN的说话人识别算法[J].数学的实践与认识,2021,51(17):102-110. 被引量：6
3何建军.基于GMM的说话人识别系统研究及其MATLAB实现[J].软件导刊,2021,20(8):49-57. 被引量：3
4刘文举,孙兵,钟秋海.基于说话人分类技术的分级说话人识别研究[J].电子学报,2005,33(7):1230-1233. 被引量：5
5黄俊,蒋兵,李先刚,郭武生,戴礼荣.I-vector聚类字典及注意力机制框架的说话人自适应[J].小型微型计算机系统,2019,40(2):460-464. 被引量：4
6周萍,沈昊,郑凯鹏.基于MFCC与GFCC混合特征参数的说话人识别[J].应用科学学报,2019,37(1):24-32. 被引量：43

二级参考文献32

1王伟,邓辉文.基于MFCC参数和VQ的说话人识别系统[J].仪器仪表学报,2006,27(z3):2253-2255. 被引量：30
2Douglas A Reynolds. An overview of automatic speaker recognition technology[A]. Proc ICASSP [C]. Orlando, Florida, USA: IEEE,2002.4072 - 4075.
3Yuqing Gao, et al. Speaker adaptation based on pre-clustering training speakers[A] .Proc Eurospeach[C] .Rhodes,Greece:ESCA,1997.2095- 2098.
4Ernest J Pusateri. Rapid speaker adaptation using speaker clustering [A]. Proc ICSLP' 2002 [C]. Denver, Colorado, USA: ISCA, Sept.2002.61-64.
5Bing Sun,et al. Hierarchical speaker identification using speaker clustering[A]. Proc NLP-KE' 2003 [C]. Beijing, China: IEEE, 2003. 299- 304.
6Douglas A Reynolds. Comparison of background normalization methods for text-independent speaker verification [A]. Proc Eurospeach [C].Rhodes, Greece: ESCA, 1997.963 - 966.
7Homayoon S M Beigi,et al.A distance measure between collections of distributions and its application to speaker recognition[A] .Proc ICASSP[C]. Seattle, Washington, USA: 1998.753 - 756.
8Douglas A Reynolds, et al. Robust text-independent speaker identification using Gassian mixture speaker models[J]. IEEE Trans on Speech and Audio Processing, 1995,3(1) :72 - 83.
9Douglas A Reynolds, et al. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing,2000,10(1):19-41.
10王玥,钱志鸿,王雪,程光明.基于伽马通滤波器组的听觉特征提取算法研究[J].电子学报,2010,38(3):525-528. 被引量：28

共引文献57

1艾佳琪,左毅,刘君霞,贺培超,李铁山,陈俊龙.基于余弦相似度的动态语音特征提取算法[J].计算机应用研究,2020,37(S02):147-149. 被引量：9
2崔琳,王芷悦.基于LFBank与FBank混合特征的声纹识别研究[J].计算机科学,2022,49(S02):621-625. 被引量：2
3邱政权,尹俊勋,杨俊.在噪声环境下的分级说话人辨识[J].控制与决策,2007,22(5):581-584. 被引量：2
4李邵梅,刘力雄,陈鸿昶.实时说话人辨识系统中改进的DTW算法[J].计算机工程,2008,34(4):218-219. 被引量：20
5范小春,邱政权.基于HAAR小波的分级说话人辨识[J].计算机工程与应用,2010,46(11):122-124. 被引量：1
6王欢良,韩纪庆,郑贵滨.基于K-L散度模型聚类的快速说话人辨识方法[J].模式识别与人工智能,2010,23(6):856-861. 被引量：5
7王亨佳,翁呈祥,胡乔林,刘康.短波信道下基于鲁棒语音特征参数的身份识别方法[J].空军预警学院学报,2019,33(4):281-286.
8郭卉,姜囡,任杰.基于MFCC和GFCC混合特征的语音情感识别研究[J].光电技术应用,2019,34(6):34-39. 被引量：10
9曾金芳,徐文涛,黄费贞.基于耳蜗倒谱系数的说话人识别[J].电子技术与软件工程,2020(5):85-86. 被引量：1
10曾宇,户文成.贝叶斯优化卷积神经网络公共场所异常声识别[J].应用声学,2020,39(3):409-416. 被引量：3

1仝晓春,周玲.基于卷积神经网络的人脸识别研究[J].电脑知识与技术,2023,19(23):26-27. 被引量：3
2任亚浩,李建锋,刘晓爽,康红俊,刘叶.基于高斯混合模型的非线性可见光通信系统解调研究[J].激光与光电子学进展,2023,60(15):162-168.
3方政,付莹,刘利雄.Transformer特征引导的双阶段地图智能生成[J].中国图象图形学报,2023,28(10):3281-3294.
4赵力,史贤俊,秦玉峰.基于EMD的故障可诊断性评价模型设计[J].电子测量技术,2023,46(13):17-25.
5王垚,满欣,尤红雨,明亮,刘伟松,黄知涛.矩阵变换特征与码序列联合学习的卷积码识别方法[J].国防科技大学学报,2023,45(5):38-47.
6关于特种作业操作证的常见问题,答案在这里[J].湖南安全与防灾,2023(7):68-71.
7毛国君,王一锦.融合内外依赖的人体骨架动作识别模型[J].计算机工程与应用,2023,59(21):132-140.
8张立亚,王寓,郝博南.基于改进度量学习的煤矿井下行人重识别方法研究[J].工矿自动化,2023,49(9):84-89. 被引量：2
9张振青,孙巍.基于特征测度和PhraseLDA模型的领域学科交叉主题识别研究——以纳米技术的农业环境应用领域为例[J].数据分析与知识发现,2023,7(7):32-45. 被引量：2
10郑啸宇,杨莹,汪龙.基于ATT&CK模型的勒索软件组织攻击方法研究[J].信息安全研究,2023,9(11):1054-1060.

计算机与数字工程

2023年第8期

浏览历史

内容加载中请稍等...

基于模型聚类的说话人识别研究

参考文献6

二级参考文献32

共引文献57

相关作者

相关机构

相关主题

浏览历史