自适应并行模型组合的鲁棒语音身份识别算法被引量：6

Robust Speaker Identification Algorithm Based on Adaptive Parallel Model Combination

下载PDF

导出

摘要由于环境噪声的影响,实际应用中说话人识别系统性能会出现急剧下降。提出了一种基于高斯混合模型-通用背景模型和自适应并行模型组合的鲁棒性语音身份识别方法。自适应并行模型组合是一种噪声鲁棒性的特征补偿算法,能够有效减少训练环境与测试环境之间的不匹配现象,从而提高系统识别准确率和抗噪性能。首先,算法从测试语音中估计出噪声特征,然后用一个单高斯模型对噪声特征进行拟合得到噪声均值和协方差。最后,根据得出的噪声均值和协方差,调整训练好的高斯混合模型均值向量和协方差矩阵,使其尽可能地匹配测试环境。实验结果表明,该方法可以准确地重构干净语音的高斯混合模型参数,并且能够显著提高说话人识别的准确率,特别是在低信噪比情况下。 The performance of speaker recognition systems degrade rapidly in real applications due to environmental noise.This paper proposes a robust speaker recognition method based on Gaussian Mixture Model-Universal Background Model(GMM-UBM)and adaptive parallel model combination(APMC).APMC feature compensation algorithm,which is robust to noise,can effectively reduce the mismatch between training environment and testing environment so as to improve the recognition accuracy and anti-noise performance.Firstly,automatically estimating noise feature from test speech.Secondly,using a single Gaussian model to fit the feature,then getting the mean and covariance of noise feature.Finally,according to the mean and covariance of noise from the second step,the mean vectors and covariance matrices of the training GMM are transformed to the testing condition by this method as far as possible.The experimental results indicate that the proposed method can reconstruct the clean speech GMM parameters more accurately.Also,this method can significantly improve the speaker identification accuracy,especially in low SNR.

作者李聪葛洪伟 LI Cong;GE Hong-wei(Ministry of Education Key Laboratory of Advanced Process Control for Light Industry,Jiangnan University,Wuxi, Jiangsu 214122,China;School of Internet of Things,Jiangnan University,Wuxi,Jiangsu 214122,China)

机构地区江南大学轻工过程先进控制教育部重点实验室江南大学物联网工程学院

出处《信号处理》 CSCD 北大核心 2018年第7期867-875,共9页 Journal of Signal Processing

基金江苏省普通高校研究生科研创新计划项目(KYLX16_0781 KYLX16_0782) 江苏高校优势学科建设工程资助项目(PAPD)

关键词说话人识别特征补偿并行模型组合高斯混合模型-通用背景模型噪声 speaker recognition feature compensation parallel model combination(PMC) Gaussian mixture model-universal background model(GMM-UBM) noise

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1吕勇,吴镇扬.基于隐马尔可夫模型与并行模型组合的特征补偿算法[J].东南大学学报（自然科学版）,2009,39(5):889-893. 被引量：4
2魏艳,张雪英.噪声条件下的语音特征PLP参数的提取[J].太原理工大学学报,2009,40(3):222-224. 被引量：6
3赵红,李双田.Gammatone滤波器修正的多级线性预测去混响[J].信号处理,2014,30(9):1019-1024. 被引量：2

二级参考文献39

1孙暐,吴镇扬.基于独立感知理论的鲁棒语音识别算法[J].东南大学学报（自然科学版）,2005,35(4):506-509. 被引量：2
2赵蕤,王作英.语音识别中信道和噪音的联合补偿[J].声学学报,2006,31(5):466-470. 被引量：11
3Serajul Haque, Roberto Togneri, Anthony Zaknich. Perceptual features for automatic speech recognition in noisy environments[J]. Speech Communication,2008,51(1) :15-25.
4H ynek Hemansky, Nelson Morgan. RASTA Processing of Speech[J]. IEEE Trans on Speech and Audio Processing, 1994,2 (4) :578-589.
5Doc-Sum Kim, Soo-Young Lec, Rhee M Kil. Auditory Processing of Speech Signal for Robust Speech Recogniton in Real World Noisy Environmens[J]. IEEE Transactio on Speech and Audio Processing, 1999,1 (7): 55-68.
6Nasersharif B, Akbari A. SNR-dependent compression of enhanced Mel sub-band energies for compensation of noise effects on MFCC features [J ]. Pattern Recognition Letters, 2007,28( 11 ) : 1320 - 1326.
7Cui X, Alwan A. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR [ J ]. IEEE Transactions on Speech and Audio Processing, 2005, 13(6) : 1161 -1172.
8Barreaud V, Illina I, Fohr D. On-line stochastic matching compensation for non-stationary noise [ J ]. Computer Speech and Language, 2008, 22 ( 3 ) : 207 - 229.
9Moreno P J. Speech recognition in noisy environments [ D]. Pittsburgh, Pennsylvania, USA: Carnegie Mellon University, 1996: 79 - 126.
10Kim W, Kwon O, Ko H. PCMM-based feature compensation schemes using model interpolation and mixture sharing [ C ]//IEEE International Conference on Acoustics, Speech, and Signal Processing. Montreal, Canada, 2004:989-992.

共引文献9

1吕勇,吴镇扬.基于矢量泰勒级数的鲁棒语音识别[J].天津大学学报,2011,44(3):261-265. 被引量：4
2牛铜,李弼程,张连杰.基于缺失数据补偿的鲁棒语音识别[J].信息工程大学学报,2012,13(4):411-415.
3鲜晓东,樊宇星.基于Fisher比的梅尔倒谱系数混合特征提取方法[J].计算机应用,2014,34(2):558-561. 被引量：16
4赵云雪,张珑,郑世杰.短时谱特征的汉语重音检测方法研究[J].计算机科学与探索,2014,8(9):1120-1128. 被引量：2
5张宁,朱礼军.中文问答系统问句分析研究综述[J].情报工程,2016,2(1):32-42. 被引量：13
6林海波,王可佳.一种新的听觉特征提取算法研究[J].南京邮电大学学报（自然科学版）,2017,37(2):27-32. 被引量：11
7付方玲,何飞,付佳,尹恒,黄华,何凌.结合听觉模型的腭裂语音高鼻音等级自动识别[J].计算机工程与应用,2019,55(10):127-134.
8褚钰,李田港,叶硕,叶光明.语音情感识别中的特征选择方法[J].应用声学,2020,39(2):216-222. 被引量：5
9周大春,邵玉斌,张昊阁,杜庆治.面向语种识别的声学特征提取改进研究[J].四川大学学报（自然科学版）,2024,61(3):195-205.

同被引文献24

1俞一彪,王朔中.文本无关说话人识别的全特征矢量集模型及互信息评估方法[J].声学学报,2005,30(6):536-541. 被引量：7
2吴海洋,杨飞然,周琳,吴镇扬.矢量泰勒级数特征补偿的说话人识别[J].声学学报,2013,38(1):105-112. 被引量：6
3赵云雪,张珑,郑世杰.短时谱特征的汉语重音检测方法研究[J].计算机科学与探索,2014,8(9):1120-1128. 被引量：2
4张晓丹,黄丽霞,张雪英.关于在噪声环境下语音识别优化研究[J].计算机仿真,2016,33(8):172-176. 被引量：17
5仲伟峰,方祥,范存航,温正棋,陶建华.深浅层特征及模型融合的说话人识别[J].声学学报,2018,43(2):263-272. 被引量：13
6白继峰,张蕾华.公安文本情报的智能化处理方法与实践[J].山西警察学院学报,2018,26(3):90-94. 被引量：9
7汪海彬,郭剑毅,毛存礼,余正涛.基于通用背景-联合估计(UB-JE)的说话人识别方法[J].自动化学报,2018,44(10):1888-1895. 被引量：5
8许良凤,刘泳海,胡敏,王晓华,任福继.语谱图改进完全局部二值模式的语音情感识别[J].电子测量与仪器学报,2018,32(5):25-32. 被引量：10
9曾润华,张树群.改进卷积神经网络的语音情感识别方法[J].应用科学学报,2018,36(5):837-844. 被引量：12
10陈逸灵,程艳芬,陈先桥,王红霞,李超.PAD三维情感空间中的语音情感识别[J].哈尔滨工业大学学报,2018,50(11):160-166. 被引量：6

引证文献6

1尹全海.江泽民新安全观初探[J].信阳师范学院学报（哲学社会科学版）,2000,20(1):7-12.
2李聪,葛洪伟.非线性幂变换Gammachirp滤波器的鲁棒语音特征提取[J].计算机科学与探索,2019,13(8):1351-1359. 被引量：2
3张靖,俞一彪.具有环境自学习机制的鲁棒说话人识别算法[J].通信技术,2020,53(3):618-624. 被引量：2
4樊舒.基于公安知识图谱的目标人身份识别框架研究[J].警察技术,2021(2):79-82. 被引量：1
5罗春梅.基于改进MFCC与RCNN的说话人识别算法[J].数学的实践与认识,2021,51(17):102-110. 被引量：6
6刘尚旺,王培哲,张翰林,涂婉宇.人机交互系统多维语音信息识别方法[J].计算机仿真,2021,38(12):367-370. 被引量：4

二级引证文献15

1牛晓可,黄伊鑫,徐华兴,蒋震阳.基于听皮层神经元感受野的强噪声环境下说话人识别[J].计算机应用,2020,40(10):3034-3040. 被引量：3
2冯晓静,白静,薛珮芸,戎如意.基于双模态融合特征的模糊语音识别研究[J].电子设计工程,2022,30(2):43-48. 被引量：3
3钟鹏飞,谭平,汤悦,龙帅,邱辉.基于嵌入式系统的婴儿哭啼监测器[J].信息与电脑,2022,34(5):125-127.
4倪美玉,曹为刚.基于特征加权与改进DCNN的说话人识别算法[J].微型电脑应用,2022,38(6):145-148.
5王学松,王世刚,郭毅峰.基于EEMD的融安方言语音合成算法研究[J].传感器世界,2022,28(6):25-29. 被引量：1
6梁亚敏,李亚峰.基于语音识别的智能英语翻译机器人人机交互系统[J].自动化与仪器仪表,2022(9):196-200. 被引量：6
7肖林,肖倩宏,魏莉莉,周艳云,汪适.基于大数据和深度学习的电网调度语音识别声学模型研究[J].电力大数据,2022,25(9):30-36. 被引量：2
8屈瑾.基于语音识别的智能交互系统设计[J].自动化与仪器仪表,2023(1):221-225. 被引量：10
9席青云,孙同日,陶佰睿,杨文博,苗凤娟.PCA-VQ融合降维的SMO-SVM说话人识别研究[J].传感技术学报,2023,36(2):275-279.
10马志举,杜庆治,龙华,邵玉斌.基于改进语谱图的深度学习说话人识别[J].现代电子技术,2023,46(21):32-38. 被引量：1

1周丽平.网球运动视频目标丢失点特征补偿方法研究[J].现代电子技术,2017,40(23):69-72. 被引量：2
2李洪刚,王亚琦,李雪晴,亢俊健.基于模拟退火遗传算法求解整周模糊度[J].吉首大学学报（自然科学版）,2018,39(4):9-14. 被引量：2
3茅正冲,王俊俊.基于耳蜗倒谱系数和Teager能量算子相位融合的说话人识别系统[J].南京理工大学学报,2018,42(1):82-88. 被引量：4
4邹月娴,刘诗涵,王迪松.多重约束非负矩阵分解的非平稳噪声语音增强（英文）[J].控制理论与应用,2017,34(6):761-768. 被引量：1
5李键,丁学明.视频前景提取算法研究[J].软件导刊,2018,17(2):53-55. 被引量：3
6韩朝娟.法庭科学DNA检测技术展望[J].职工法律天地（下）,2018,0(7):108-108.
7周健,窦云峰,刘荣敏,王华彬,陶亮.采用低维特征映射的耳语音向正常音转换[J].声学学报,2018,43(5):855-863. 被引量：2
8侯奇,谷源涛.一种基于背景模型的果蝇轮廓提取算法[J].计算机仿真,2018,35(6):296-299. 被引量：1
9门顶顶,曹华敏,王颀,霍宗亮.一种用于NAND闪存的奇偶位线块编程补偿算法[J].微电子学,2018,48(4):500-503.
10吴田,何玲玲,林泽榕,徐常青.多线性混合张量模型及其参数估计[J].苏州科技大学学报（自然科学版）,2018,35(2):15-20. 被引量：3

信号处理

2018年第7期

浏览历史

内容加载中请稍等...

自适应并行模型组合的鲁棒语音身份识别算法被引量：6

参考文献3

二级参考文献39

共引文献9

同被引文献24

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

自适应并行模型组合的鲁棒语音身份识别算法 被引量：6

参考文献3

二级参考文献39

共引文献9

同被引文献24

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

自适应并行模型组合的鲁棒语音身份识别算法被引量：6