基于自适应高斯混合模型与静动态听觉特征融合的说话人识别被引量：18

Speaker recognition based on adapted Gaussian mixture model and static and dynamic auditory feature fusion

下载PDF

导出

摘要对特征参数和高斯混合模型进行改进,提出了一种特征域和模型域混合补偿的方法用于解决说话人识别特征受噪声影响较大以及高斯混合模型随训练样本长度减小而性能下降的问题。通过模拟人耳听觉,给出了基于伽马通滤波器的伽马通滤波倒谱系数;考虑其只反映了语音的静态特征,提取了能够反映语音动态特征的伽马通滑动差分倒谱系数。基于因子分析技术,利用移动因子表示高斯混合模型的自适应过程,通过训练语料较充分的说话人模型中的均值向量补偿受训练语料长度影响较大的分量的均值向量。仿真实验表明:在纯净背景下,本文方法的识别率达到了98.46%;在不同噪声环境下,本文提出的混合补偿方法能有效提高说话人识别系统的性能。 By optimizing the feature vectors and Gaussian Mixture Models（GMMs）, a hybrid compen- sation method in model and feature domains is proposed. With the method, the speaker recognition features effected by the noise and the declined performance of GMM with reducing length of the train- ing data under different unexpected noise environments are improved. By emulating human auditory, Gammatone Filter Cepstral Coefficients（GFCC） is given out based on Gammatone Filter bank models. As the GFCC only reflects the static properties, the Gammatone Filter Shifted Delta Cepstral Coeffi- cients（GFSDCC） is extracted based on Shifted Delta Cepstral. Then, the adaptive process for each GMM model with sufficient training data is transformed to the shift factor based on factor analysis.Furthermore, when the training data are insufficient, the coordinate of the shift factor is learned from the GMM mixtures of insensitive to the training data and then it is adapted to compensate other GMM mixtures. The experiment result shows that the recognition rate of the method proposed is 98.46% . The conclusion is that the performance of speaker recognition system is improved under several kinds of noise environments.

作者吴迪曹洁王进花

机构地区兰州理工大学电气工程与信息工程学院兰州理工大学计算机与通信学院

出处《光学精密工程》 EI CAS CSCD 北大核心 2013年第6期1598-1604,共7页 Optics and Precision Engineering

基金国家自然科学基金资助项目(No.61263031) 甘肃省自然科学基金资助项目(No.1010RJZA046)

关键词高斯混合模型伽马通滤波器滑动差分倒谱因子分析听觉特征 Gaussian mixture model Gammatone filter shifted delta cepstra factor analysis auditory feature

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1KINNUNEN T, LI H Z.An overview of text-independent speaker recognition: from features to supervectors [J].Speech Communication, 2010,52:12-40.
2HAMID R,SEYYED A ,HOSSEIN B,et al..A new representation for speech frame recognition based on redundant wavelet filter banks [J].Speech Communication, 2012, 54:256-271.
3TYLER K P, STEPHANIE N,JOHN D,et al..Human voice recognition depends on language ability [J].Science, 2011,333:595.
4PARVIN Z,SEYYED A.Robust speech recognition by extracting invariant features [J].Procedia - Social and Behavioral Sciences, 2012,32(3):230-237.
5SHAO Y,JIN ZH ZH,WANG D L.An auditory based feature for robust speech recognition [C].ICASSP,2009:4625-4628.
6MAK B K W, LAI T C, TSANG I W, et al..Maximum penalized likelihood kernel regression for fast adaptation [J].IEEE Transactions on Audio, Speech and Language Processing, 2009, 17(7): 1372-1381.
7翟优,曾峦,熊伟.基于不变特征描述符实现星点匹配[J].光学精密工程,2012,20(11):2531-2539. 被引量：19
8DU J,HUO Q.A feature compensation approach using high-order vector taylor series approximation of an explicit distortion model for noisy speech recognition[J].IEEE Transactions on Adio, Speech, and Language Processing,2011,19(8):2285-2293.
9JEONG Y.Speaker adaptation based on the multilinear decomposition of training speaker models [C].Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing.Dallas, USA: IEEE, 2010:4870-4873.
10HE Y J,HAN J.Gaussian specific compensation for channel distortion in speech recognition [J].IEEE SIGNAL PROCESSING LETTERS, 2011, 18(10): 599-602.

二级参考文献33

1刘朝山,马瑞萍,肖称贵,刘光斌.星图匹配制导中的关键技术[J].宇航学报,2006,27(1):31-35. 被引量：14
2JAVIER R, PATRICIO L, PABLO Z. Applying SIFT Descriptors to Stellar Image Matching [C]. CIARP 2008, LNCS 5197, 2008: 618-625.
3LIU R, ZHANG H. Stereo cameras self-calibra- tion based on SIFT [C]. Proc of International Conference on Measuring Technology and Mecha- tronics Automation. 2009 : 352-355.
4LOWED G. Distinctive image features from scale- invariant keypoints[J]. International Journal of Computer Vision, 2004 : 91-110.
5HERBERT B, ANDREAS Speeded up robust features and Image Understanding, E, TINNE T, et al: [J]. Computer Vision 2008,110(3) :346-359.
6LUO J, OUBONG G. A comparison of SIFT, PCA-SIFT, and SURF [J].International Jour- nal of Image Processing (IJIP),2009, 3(4): 143-152.
7ZHAI Y, ZENG L. A SIFT matching algorithm based on adaptive contrast threshold [C]. Pro- ceedings of 2011 International Conference on Consumer Electronics, Communications and Net works, 2011: 1934-1937.
8曾峦,翟优.基于透视投影模型的SIFT匹配方法[C]. Proceedings of The 3rd International Con- ference on Computational Intelligence and Indus- trial Application, 2010 : 272-276.
9http: / / www. astronomyphotos, corn/index, htm[OL].
10MICHEL D, OIKONOMIDIS I, ARGYROS A. Scale invariant and deformation tolerant partial shape matching [J]. Image and Vision Computing, 2011, 29(7): 459-469.

共引文献27

1孙美卫.一种基于学习模型与BoW-SURF的目标识别算法[J].中原工学院学报,2021(1):79-83.
2翟优,曾峦,熊伟.不同局部邻域划分加速鲁棒特征描述符的性能分析[J].光学精密工程,2013,21(9):2395-2404. 被引量：10
3王灿进,孙涛,陈娟.局部不变特征匹配的并行加速技术研究[J].液晶与显示,2014,29(2):266-274. 被引量：15
4冯博,陈凤东,张建隆,孙和义,彭志涛,刘国栋.基于图像拼接的惯性约束聚变终端光学元件在线检测[J].光学精密工程,2014,22(3):555-561. 被引量：4
5王灿进,孙涛,陈娟.一种新的快速局部不变特征算法[J].红外与激光工程,2014,43(6):2013-2020. 被引量：3
6沈同圣,张健,娄树理.面向目标检测的空间观测图像精确配准[J].光学精密工程,2014,22(8):2205-2213. 被引量：17
7陈茜,邱跃洪,易红伟.基于GPU的星图配准算法并行程序设计[J].红外与激光工程,2014,43(11):3756-3761. 被引量：4
8刘吟啸,韦巍.基于极少信息的任意照片目标点定位算法[J].计算机应用研究,2015,32(1):272-275. 被引量：3
9王灿进,孙涛,王锐,王挺峰,陈娟.基于彩色二进制局部不变特征的图像配准[J].中国激光,2015,42(1):260-268. 被引量：11
10王灿进,孙涛,陈娟.基于FREAK特征的快速景象匹配[J].电子测量与仪器学报,2015,29(2):204-212. 被引量：27

同被引文献142

1王伟,邓辉文.基于MFCC参数和VQ的说话人识别系统[J].仪器仪表学报,2006,27(z3):2253-2255. 被引量：30
2童英华,陈学煌,冯忠岭.心音和脉搏信号采集系统的设计[J].微型电脑应用,2011(2):63-64. 被引量：1
3杜志然,周萍,景新幸,李杰.基于谱熵的耳语音增强研究[J].传感器与微系统,2012,31(6):69-72. 被引量：3
4侯珏,刘轶,郑方,蒋丹宁,秦勇,黄石磊,刘勇.基于VP树结构的多层匹配算法在哼唱识别中的应用[J].清华大学学报（自然科学版）,2009(S1):1419-1424. 被引量：4
5岳倩倩,周萍,景新幸.基于非线性幂函数的听觉特征提取算法研究[J].微电子学与计算机,2015,32(6):163-166. 被引量：5
6李晔,张仁智,崔慧娟,唐昆.低信噪比下基于谱熵的语音端点检测算法[J].清华大学学报（自然科学版）,2005,45(10):1397-1400. 被引量：37
7王平立,宋斌,王玲.混沌时间序列的Kolmogorov熵的应用研究[J].计算机工程与应用,2006,42(21):162-164. 被引量：18
8陈明义,余伶俐,朱晗,周昆湘.基于特征参数融合的语音情感识别方法[J].微电子学与计算机,2006,23(12):168-171. 被引量：10
9张雪英.数字语音处理及MATLAB仿真[M].北京:电子工业出版社,2011.
10党耀国,米传民,钱吴永.应用多元统计分析[M].北京:清华大学出版社,2012.

引证文献18

1周海涛,王志刚,刘昌明.基于主成分分析和高斯混合模型的耐火材料损伤信号分类[J].武汉科技大学学报,2014,37(4):269-272. 被引量：3
2徐正平,许永森.S3C2440A在步进电机控制器人机交互中的应用[J].液晶与显示,2015,30(1):70-76. 被引量：5
3方林.联合小波变换和EMD非线性特征提取在暂态电能识别的应用[J].科技风,2015(20):88-90.
4王茂蓉,周萍,景新幸.MFCC和短时TEO能量的混合参数应用于说话人识别[J].微电子学与计算机,2016,33(1):144-148. 被引量：5
5唐宗渤,王茂蓉,周萍.基于相关距离Fisher比的混合参数用于说话人识别[J].大众科技,2016,18(1):13-16.
6李哲军,周萍,景新幸.基于改进噪声估计的谱减法应用于说话人识别[J].计算机测量与控制,2016,24(4):155-158.
7申铉京,翟玉杰,卢禹彤,王玉,陈海鹏.基于信道补偿的说话人识别算法[J].吉林大学学报（工学版）,2016,46(3):870-875. 被引量：3
8唐宗渤,周萍,王茂蓉,刘继锦.反蓄意模仿说话人识别系统中特征参数提取的研究[J].微型机与应用,2016,35(12):18-20. 被引量：1
9张小恒,谢文宾,李勇明.多类型语音特征进化选择算法[J].计算机工程与应用,2016,52(14):150-155.
10田秀丽,黄永平.关于语音个人身份优化识别建模仿真研究[J].计算机仿真,2016,33(10):403-407. 被引量：3

二级引证文献85

1李涛,袁毅,黄万胜.倾斜摄影和激光雷达技术在新型基础测绘建设中的应用——以上海张江试验区地形图升级项目为例[J].现代测绘,2021(1):9-12. 被引量：6
2王昱翔,殷希梅,陈凯,胡子阳.车辆发动机异响信号的故障特征参数提取方法[J].兵器装备工程学报,2020,0(2):44-48. 被引量：7
3李志鹏,金雯,王斯健,李春霖.超大城市高精度导航地图的构建与更新方法研究[J].现代测绘,2021(S02):81-83.
4徐琴芳,郭淑煜,蔡俐,房悦.随班就读听障儿童的言语康复与语言发展情况调查[J].现代特殊教育,2018(12):8-12. 被引量：2
5吴迪,李丙玉,王晓东.基于ARM+FPGA的影像交互与显示系统设计[J].液晶与显示,2015,30(6):979-986. 被引量：1
6陶佰睿,李青龙,苗凤娟,郭琴,邵慧.码本聚类矢量量化算法在说话人识别中的应用[J].河南科技大学学报（自然科学版）,2016,37(1):35-39. 被引量：4
7王茂蓉,周萍,景新幸.MFCC和短时TEO能量的混合参数应用于说话人识别[J].微电子学与计算机,2016,33(1):144-148. 被引量：5
8王茂蓉,周萍,景新幸,杨青.基于Mel-TEO的带噪语音端点检测算法[J].微电子学与计算机,2016,33(4):46-49. 被引量：5
9唐宗渤,王茂蓉,周萍.基于相关距离Fisher比的混合参数用于说话人识别[J].大众科技,2016,18(1):13-16.
10唐宗渤,周萍,王茂蓉,刘继锦.反蓄意模仿说话人识别系统中特征参数提取的研究[J].微型机与应用,2016,35(12):18-20. 被引量：1

1赵红.一种支持向量回归机的音频水印算法[J].漳州师范学院学报（自然科学版）,2012,25(2):34-39. 被引量：1
2卢建朱,陈火炎.具有消息恢复的数字签名方案及其安全性[J].小型微型计算机系统,2003,24(4):695-697. 被引量：16
3首杀木马[J].电脑爱好者,2008,0(10):54-54.
4首杀木马[J].电脑爱好者,2009(1):48-48.
5姜涛,韩纪庆,郑铁然.基于高斯混合模型移动因子补偿的说话人识别方法[J].声学学报,2011,36(6):658-664. 被引量：2
6李焕洲,陈婧婧,钟明全,唐彰国.基于行为特征库的木马检测模型设计[J].四川师范大学学报（自然科学版）,2011,34(1):123-127. 被引量：11
7王科飞,王慧.一种改进的Mean Shift指纹图像分割算法[J].吉林大学学报（理学版）,2012,50(5):1011-1014. 被引量：1
8吴锋,杨宜民.一种基于栅格模型的机器人路径规划算法[J].现代计算机,2012,18(3):7-9. 被引量：2
9王晓涛,吴纪桃.加移动因子的C-V模型[J].中国图象图形学报,2010,15(11):1603-1607. 被引量：3
10谭萍,邢玉娟,高翔.说话人模型聚类算法研究与分析[J].中国建材科技,2015,24(5):87-88.

光学精密工程

2013年第6期

浏览历史

内容加载中请稍等...

基于自适应高斯混合模型与静动态听觉特征融合的说话人识别被引量：18

参考文献15

二级参考文献33

共引文献27

同被引文献142

引证文献18

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于自适应高斯混合模型与静动态听觉特征融合的说话人识别 被引量：18

参考文献15

二级参考文献33

共引文献27

同被引文献142

引证文献18

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于自适应高斯混合模型与静动态听觉特征融合的说话人识别被引量：18