基于浊音语音谐波谱子带加权重建的抗噪声说话人识别被引量：5

Robust speaker recognition based on harmonic spectrum reconstruction of voiced speech

下载PDF

导出

摘要提出了一个基于浊音语音谐波谱重建的说话人识别算法.该算法根据浊音语音短时频谱的结构特征和基音信息,对浊音语音谐波结构频谱进行子带加权重建,以补偿由噪声引起的训练与测试条件的失配.算法基于重建浊音频谱提取感知线性预测倒谱系数,与基音相组合作为说话人的语音特征参数矢量,采用高斯混合模型对说话人进行建模.仿真实验的结果表明:所提出的浊音谱重建方法对多种类型含噪语音的噪声补偿均具良好效果,可以明显提高在噪声环境下的与文本无关的说话人识别的识别率,特别是显著提高低信噪比环境下的识别率,而不会明显降低纯净语音和高信噪比环境下的识别率. A speaker recognition algorithm based on harmonic spectrum reconstruction of voiced speech is proposed.In the proposed approach,according to the spectral character and pitch information of original speech,the harmonic spectrum of voiced segment is reconstructed with the sub-band weighting method to compensate the acoustic mismatches caused by noises between training and testing conditions.The perceptual linear predictive cepstrum coefficient is extracted from the reconstructed spectrum and is combined with pitch to form a speech feature vector of a giving speaker.Speaker is modeled by Gaussian mixture model.Simulation results indicate that the approach of the voiced speech spectrum reconstruction proposed in this paper is very effective for the noise compensation in many noisy speech conditions.For the text independent speaker recognition,the recognition accuracy is significantly improved by this method in the noisy environments,especially in low SNR environments,and there is no remarkable degradation in clean speech and high SNR environments.

作者曾毓敏吴镇扬

机构地区东南大学信息科学与工程学院南京师范大学物理科学与技术学院

出处《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2008年第6期935-941,共7页 Journal of Southeast University：Natural Science Edition

基金国家重点基础研究发展计划(973计划)资助项目(2002CB312102) 江苏省普通高校自然科学研究计划资助项目(07KJD510110).

关键词说话人识别频谱重建感知线性预测倒谱系数噪声补偿谱平坦度测度 speaker recognition spectrum reconstruction perceptual linear predictive cepstrum coefficient noise compensation spectral flatness measure

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献13

1Solomonoff A, Campbell W, Boardman I. Advances in channel compensation for SVM speaker recognition [ C ]//Proceeding of IEEE ICASSP-2005. Philadelphia, USA, 2005 : 629 - 632.
2Hermansky H, Morgan N. RASTA processing of speech [ J ]. IEEE Transactions on Speech and Audio Processing, 1994,2(4): 578-589.
3Poruba J. Speech enhancement based on nonlinear spectral subtraction [ C ]//Proceedings of 1EEE ICCDCS'02. Piscataway, USA, 21X12: 1 - 4.
4Rose R, Hofstetter E. Integrated models of signal and background with application to speaker identification in noise [ J ]. IEEE Transactions on Speech and Audio Processing, 1994, 2(2) : 245 -257.
5Deng L, Droppo J, Acero A. Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion [ J ]. IEEE Transactions on Speech and Audio Processing, 2005,13(3): 412-421.
6Ming J. Noise compensation for speech recognition with arbitrary additive noise [ J ]. IEEE Transactions on Audio, Speech and Language Processing, 2006, 14 ( 3 ) : 833 - 844.
7赵蕤,王作英.语音识别中信道和噪音的联合补偿[J].声学学报,2006,31(5):466-470. 被引量：11
8Gong Y. A method of joint compensation of additive and convolutive distortions for speaker-independent speech recognition [ J ]. IEEE Transactions on Speech and Audio Processing, 2005, 13 (5) : 975 - 983.
9Hermansky H. Perceptual linear predictive (PLP) analysis of speech [ J ]. The Journal of the Acoustic Society of America, 1994, 87(4) : 1738 - 1752.
10Ding H, Qian B, Li Y, et al. A method combining LPC-based cepstrum and harmonic product spectrum for pitch detection [ C ]//Proceedings of ICIIH- MSP'06. Pasadena, USA, 2006. 537- 540.

二级参考文献12

1Acero A, Stern R M. Environmental robustness in automatic speech recognition. In: Proc. IEEE Int. Conf.Acoustics, Speech and signal Processing, Albuquerque,NM, 1990; 1:849-852
2Alejandro Acero. Acoustical and environmental robustness in automatic speech recognition. PH.D. Thesis. Department of Electrical and Computer Engineering CMU, AAT 9117502, 1990
3Moreno P J. Speech recognition in noisy environments.PH.D. Thesis. Department of Electrical and Computer Engineering CMU, AAT 9625546, 1996
4Kim D Y, Un C K, Kim N S. Speech recognition in noisy environments using first-order vector Taylor series. Speech Communication, 1998; 24(1): 39-49
5Fujimoto, Masakiyo, Ariki, Yasuo. Robust speech recognition in additive and channel noise environments using GMM and EM algorithm. In: IEEE International Conference on Acoustics, Speech, and Signal Processing. Montreal, 2004; 1:I941-I944
6Segura J C, Torre A de la, Benitez M C, Peinado A M.Model-based compensation of the additive noise for continuous speech recognition - experiments using AURORA Ⅱ database and tasks. EuroSpeech, 2001; 1:221-224
7ZHAO Yunxin. Maximum likelihood joint estimation of channel and noise for robust speech recognition. In: IEEE International Conference on Acoustics, Speech and Signal Processing, Proceedings, Istanbulv, 2000; 2:1109-1112
8WANG Zuoying. An inhomogeneous HMM speech recognition algorithm. Chinese Journal of Electronics, 1998; 7(1):73-74
9赵庆卫,肖熙,王作英.段长信息在连续语音识别中的应用研究[J].声学学报,2000,25(2):175-181. 被引量：5
10韩纪庆,高文.基于环境特征判别学习的顽健语音识别方法[J].电子学报,2001,29(2):196-198. 被引量：4

共引文献10

1王欢良,钱瑶,F.K.Soong,韩纪庆.基于声调建模的带噪汉语数字串语音识别[J].声学学报,2007,32(5):454-460. 被引量：2
2马会丽,唐红,赵国锋.电话外呼系统的研究与实现[J].计算机应用,2007,27(9):2343-2345. 被引量：5
3张军,韦岗,余华.基于特征分量输出概率加权的多数据流鲁棒语音识别方法[J].声学学报,2008,33(2):102-108. 被引量：2
4王智国,吴及,戴礼荣,王仁华.一种对加性噪声和信道函数联合补偿的模型估计方法[J].声学学报,2008,33(3):238-243. 被引量：5
5张岩,李风华,李整林,张仁和.爆炸信号中气泡脉动去除方法及其应用[J].声学学报,2009,34(2):124-130. 被引量：5
6ZHANG Jun WEI Gang YU Hua NING Genxin.Robust multi-stream speech recognition based on weighting the output probabilities of feature components[J].Chinese Journal of Acoustics,2009,28(3):269-279. 被引量：4
7吕勇,吴镇扬.基于隐马尔可夫模型与并行模型组合的特征补偿算法[J].东南大学学报（自然科学版）,2009,39(5):889-893. 被引量：4
8吕勇,吴镇扬.基于最大似然多项式回归的鲁棒语音识别[J].声学学报,2010,35(1):88-96. 被引量：3
9LU Yong WU Zhenyang.Maximum likelihood polynomial regression for robust speech recognition[J].Chinese Journal of Acoustics,2011,30(3):358-370.
10吴海洋,杨飞然,周琳,吴镇扬.矢量泰勒级数特征补偿的说话人识别[J].声学学报,2013,38(1):105-112. 被引量：6

同被引文献48

1岳振军,王浩,张雄伟.基于正弦谐波模型和BP神经网络的语音变换算法及实现[J].信号处理,2005,21(z1):208-211. 被引量：7
2刘红星,戴蓓蒨,陆伟.基于共振峰谐波能量的语音端点检测[J].清华大学学报（自然科学版）,2008,48(S1):754-759. 被引量：11
3陈振标,徐波.基于子带能量特征的最优化语音端点检测算法研究[J].声学学报,2005,30(2):171-176. 被引量：22
4李晔,张仁智,崔慧娟,唐昆.低信噪比下基于谱熵的语音端点检测算法[J].清华大学学报（自然科学版）,2005,45(10):1397-1400. 被引量：37
5应娜,赵晓晖.语音清浊音分类及浊音谐波提取算法——三阶累积量基于正弦语音模型的应用[J].计算机工程与应用,2006,42(1):64-67. 被引量：3
6李朝晖,迟惠生.听觉外周计算模型研究进展[J].声学学报,2006,31(5):449-465. 被引量：22
7国雁萌,付强,颜永红.复杂噪声环境中的语音端点检测[J].声学学报,2006,31(6):549-554. 被引量：16
8Goodwin M,Vetterli M.Time-frequency signal models for music analysis,transformation,and synthesis[C] //Time-Frequency and Time-Scale Analysis,1996:133-136.
9Rix A W,Beerends R G.Perceptual Evaluation of Speech Quality (PESQ)-a new method for speech quality assessment of telephone network and code[C] //Acoustics,Speech and Signal Processing,2001:749-752.
10荣薇,陶智,顾济华,赵鹤鸣.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用,2007,43(30):213-216. 被引量：17

引证文献5

1孙艳,于凤芹.小波多分辨率的谐波正弦语音建模[J].计算机工程与应用,2011,47(17):151-153. 被引量：1
2王杰,耿丽红.基于谐波自相关的基音检测[J].系统工程与电子技术,2013,35(1):218-222. 被引量：2
3苏盈盈,刘兴华,葛继科,李太福,文峰.基于Relief+SVM的语音信号特征提取及其识别[J].重庆科技学院学报（自然科学版）,2013,15(5):122-125.
4胡政权,曾毓敏,宗原,李梦超.说话人识别中MFCC参数提取的改进[J].计算机工程与应用,2014,50(7):217-220. 被引量：28
5王静宇,张纯,许枫.复杂环境下基于听觉子带能量特征的鸟鸣声端点检测[J].计算机应用,2022,42(S01):310-315. 被引量：2

二级引证文献33

1侯玉宝,王景芳.拉普拉斯混合分布语音模型研究[J].计算机工程与应用,2014,50(18):202-205. 被引量：2
2宋黎明,李明,颜永红.谐波显著度的基频提取方法[J].声学学报,2015,40(2):294-299. 被引量：5
3佘堃,潘松松,田文洪.基于虚拟化的声纹识别系统性能研究[J].成都信息工程学院学报,2015,30(2):107-112. 被引量：1
4朱健晨,刘增力,袁洪,程桐.孤立词识别系统的算法改进及优化[J].计算机仿真,2015,32(9):249-253. 被引量：2
5黄婷,周萍,景新幸,杨青.改进型Mel混合参数应用于说话人识别[J].微电子学与计算机,2016,33(4):60-63. 被引量：2
6王民,曹清菁,贠卫国,周军妮.改进MFCC算法在朱鹮鸣声个体识别中的应用[J].计算机工程与科学,2016,38(5):1052-1056. 被引量：4
7陶佰睿,郭琴,苗凤娟,李青龙.基于自适应Mel滤波器组的MFCC特征提取的SOC设计[J].郑州大学学报（工学版）,2016,37(3):11-15. 被引量：3
8曾霞霞,徐戈,吴征远.基于MFCC特征组合参数的说话人识别研究[J].集美大学学报（自然科学版）,2016,21(4):317-320. 被引量：2
9王晓华,屈雷,张超,蒋细伟.基于Fisher比的Bark小波包变换的语音特征提取算法[J].西安工程大学学报,2016,30(4):452-457. 被引量：6
10刘冰逸楠,毛谦敏.回转体积的膜式燃气表示值误差检定技术研究[J].中国计量学院学报,2016,27(3):264-269. 被引量：6

1林青,廖逢钗.二值子带加权时延估计及其应用[J].赤峰学院学报（自然科学版）,2013,29(13):116-118.
2胡政权,曾毓敏,宗原,李梦超.说话人识别中MFCC参数提取的改进[J].计算机工程与应用,2014,50(7):217-220. 被引量：28
3史学晶,赵淑清.一种浊音语音原型波形内插算法[J].电声技术,2003,27(12):4-6.
4王金明,张雄伟.基于子带加权和GMM的鲁棒性话者确认的研究[J].信号处理,2003,19(z1):117-120.
5杜晓青,于凤芹.基于发声机理与人耳感知特性的说话人识别[J].计算机工程,2013,39(11):197-199. 被引量：3
6由红,陈健.改进的频域基音检测算法[J].上海交通大学学报,2001,35(6):855-858. 被引量：1
7钟炎平,向家彬.浊音短时复倒谱的新模型及用于语音同态解卷积的研究[J].通信学报,1998,19(8):50-56.
8陈云凤,伍康文.波形变换域浊音语音的一种分帧自适应编码算法[J].中山大学学报（自然科学版）,1993,32(4):51-55.
9李蕴华.将倒谱参数与基音信息有效结合进行说话人辨认[J].信号处理,2000,16(1):85-89. 被引量：7
10李永宁.基于自相关的语音基音周期检测方法研究[J].福建电脑,2008,24(11):92-93. 被引量：3

东南大学学报（自然科学版）

2008年第6期

浏览历史

内容加载中请稍等...

基于浊音语音谐波谱子带加权重建的抗噪声说话人识别被引量：5

参考文献13

二级参考文献12

共引文献10

同被引文献48

引证文献5

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于浊音语音谐波谱子带加权重建的抗噪声说话人识别 被引量：5

参考文献13

二级参考文献12

共引文献10

同被引文献48

引证文献5

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于浊音语音谐波谱子带加权重建的抗噪声说话人识别被引量：5