一种基于非均匀谱系数和GMM的语音质量评估方法被引量：2

Output-based speech quality evaluation based on Non-uniform Linear Prediction Cepstrum and Gaussian Mixture Models

下载PDF

导出

摘要本文提出了一种新的基于GMM和非均匀线性预测倒谱系数(NLPC)的客观语音质量评估方法。首先,通过Bark双线性变换(BBT)对线性频谱进行频谱弯折,弯折后的频谱符合人耳听觉感知的非均匀特性。然后通过对非均匀谱的线性预测计算出NLPC。提取参考语音的NLPC用来对高斯混合模型进行训练。通过训练对参考语音建立参考模型。由参考模型和失真语音的NLPC向量可以得到它们之间的一致性测度。最后,通过多元自适应回归样条函数建立主观MOS分和一致性测度之间的映射关系,可以得到对MOS分的客观预测模型。通过这一模型进行语音质量的客观评价。实验表明,提出算法的性能要好于ITU-T P.563标准中的算法。 A novel approach for output-based speech quality evaluation is proposed based on Non-uniform Linear Prediction Cepstrum（NLPC） and Gaussian Mixture Models（GMMs）.Bark Bilinear Transform（BBT） is employed for spectrum warping that incorporates the non-uniform resolution properties of the human ear.Then,the algorithm computes NLPC coefficients from warped spectrum.GMMs are used to form a reference model of normative behavior by training on features extracted from clean speech signals.A measure of consistency between the degraded speech coefficient vector and reference model serves as indicators of speech quality evaluation.Finally,using a Multivariate Adaptive Regression Splines（MARS） function,an objective forecast model is constructed to accomplish the mapping from the subjective Mean Opinion Score（MOS） to the consistency measure.The experimental results indicate that the performance of proposed approach is better than that of ITU-T P.563 standard.

作者尹伟易本顺吴丹青

机构地区武汉大学电子信息学院

出处《电路与系统学报》 CSCD 北大核心 2010年第4期104-109,90,共7页 Journal of Circuits and Systems

关键词语音质量客观评价非均匀线性预测倒谱系数高斯混合模型多元自适应回归样条 speech quality objective speech quality evaluation non-uniform linear prediction cepstrum coefficient Gaussian mixture model multivariate adaptive regression splines

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献10

1C Jin, R Kubichek. Vector quantization techniques for output-based objective speech quality [A]. in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing [C]. 1996. 491-494.
2鄢田云,云霞,靳蕃,朱庆军.RBF神经网络及其在基于输出的客观音质评价中的应用[J].电子学报,2004,32(8):1282-1285. 被引量：7
3D S Kim. ANIQUE: An auditory model for single-ended speech quality estimation [J]. IEEE Trans. Speech Audio Process., 2005, 13(5): 821-831.
4ITU-T Rec. G.729-Annex B, A Silence Compression Scheme for G.729 Optimized for Terminals Conforming to Recommendation V.70 [S]. Int. Telecommun. Union, Geneva, Switzerland, 1996-11.
5ITU-T P.563, Single Ended Method for Objective Speech Quality Assessment in Narrow-Band Telephony Applications [S]. Int. Telecommun. Union, Geneva, Switzerland, 2004-05.
6J.O.Smith, J.S.Abel. Bark and ERB Bilinear Transform [J]. IEEE Transactions on Speech and Audio Processing, 1999, 7(6): 697-708.
7A Dempster, N Lair, D Rubin. Maximum likelihood from incomplete data via the EM algorithm [A]. ,I. R. Stat. Soc. [C]. 1977, 39: 1-38.
8J H Friedman. Multivariate adaptive regression splines [J]. Ann. Statist., 1991, 19(1): 1-141.
9ITU-T Rec. P. Supplement 23, ITU-T Coded-Speech Database [S]. Int. Telecommun. Union, Geneva, Switzerland, 1998-02.
10黄惠明,王瑛,赵思伟,张知易.语音系统客观音质评价研究[J].电子学报,2000,28(4):112-114. 被引量：27

二级参考文献13

1刘颖.货币发展形态的法律分析──兼论电子货币对法律制度的影响[J].中国法学,2002(1):81-92. 被引量：38
2Jin C,Kubichek R.Vector quantization techniques for output-based objective speech quality[A].Proc of IEEE ICASSP[C].Geogia,USA:IEEE,1996.1.491-494.
3Davis S B,Mermelstein P.Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J].IEEE Trans on ASSP,1980,28(4):357-366.
4Steve Y.A review of large-vocabulary continuous-speech recognition[J].IEEE Signal Processing Magazine,1996,13(5):45-57.
5Stevens S S,Volkman J.The relation of pitch of frequency:a revised scale[J].Am J Psychol,1940,53:329-353.
6Zwicker E,Flottorp G,Stevens S S.Critical bandwidth in loudness summation[J].J Acost Soc Am,1947,19:90-119.
7Quackenbush S Q,Barnwell Ⅲ T P,Clements M A.Objective Measures of Speech Quality[M].Englewood Cliffs,NJ:Prentice Hall,1988.
8付强,易克初,田斌,田红心.一种采用余弦镶边临界带滤波器组的弯折谱失真测度[J].西安电子科技大学学报,1999,26(6):823-827. 被引量：6
9黄惠明,王瑛,赵思伟,张知易.语音系统客观音质评价研究[J].电子学报,2000,28(4):112-114. 被引量：27
10陈国,胡修林,张蕴玉,朱耀庭.语音质量客观评价方法研究进展[J].电子学报,2001,29(4):548-552. 被引量：51

共引文献31

1杨波,傅汝林,张知易.利用前向掩蔽效应改进巴克谱失真测度[J].通信技术,2003,36(5):5-6.
2鄢田云,云霞,靳蕃,朱庆军.RBF神经网络及其在基于输出的客观音质评价中的应用[J].电子学报,2004,32(8):1282-1285. 被引量：7
3韦岗,田立斌,彭波.一种高效的Internet上语音包丢失恢复技术[J].通信学报,2004,25(8):102-108. 被引量：2
4陈南祥,曹连海,黄强.Application of neural network model coupling with the partial least-squares method for forecasting watre yield of mine[J].Journal of Coal Science & Engineering(China),2005,11(1):40-43. 被引量：2
5廖日坤,张立民,金镇,沙立伟.AC-Link数字音频VHDL编/解码的FPGA设计[J].南开大学学报（自然科学版）,2005,38(6):66-69. 被引量：1
6杨波.用于客观音质评价的扩展巴克谱失真测度[J].电子科技大学学报,2006,35(3):343-345. 被引量：3
7孙新建,邹霞,曹铁勇,张雄伟,赵汉武.基于加权巴克谱失真的语音质量客观评价算法[J].数据采集与处理,2006,21(3):302-306. 被引量：6
8陈华伟,靳蕃.基于感知模型的美尔谱失真测度[J].西南交通大学学报,2006,41(6):723-728. 被引量：4
9孟静,许刚.语音增强算法评估的研究[J].计算机工程,2006,32(24):223-225. 被引量：6
10戚建宇,赵鹤鸣,何松.基于HMM的普通话单字发音准确度评价方法研究[J].计算机工程与应用,2007,43(7):224-226. 被引量：3

同被引文献13

1MOLLER S,CHAN W Y,CTE N, et al. Speech quality esti- mation: Models and trends[J]. IEEE Transactions on signal processing magazine, , 2011, 28(6): 18-28.
2MOLLER S, HEUSDENS R. Objective estimation of speech quality {or communication systems[J]. Proceedings of the {EEE, 2013, 101(9): 1955-1967.
3XU H,LIN L,SUN X, et al. A new algorithm for auditory feature extraction [ C]. IEEE International Conference on Commmunieation Systems and Network Technologies, 2012 :229-232.
4ITUT Rec. P. Sup23. ITU-T Coded-Speech Database[S]. International Telecommunication Union, Geneva, Switzer- land, 1998.
5ITU-T R P. 862. Perceptual evaluation of speech quality (PESQ): an objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs[S]. International Telecommunication Union, 2001.
6陈明义,孙冬梅,何孝月.基于改进MFCC语音特征参数的语音质量评估的研究[J].电路与系统学报,2009,14(3):111-116. 被引量：5
7王玥,钱志鸿,王雪,程光明.基于伽马通滤波器组的听觉特征提取算法研究[J].电子学报,2010,38(3):525-528. 被引量：28
8胡峰松,曹孝玉.基于Gammatone滤波器组的听觉特征提取[J].计算机工程,2012,38(21):168-170. 被引量：30
9翟慧强,张金萍,王丹,赵艳春.听觉模型综述[J].机械工程师,2014(3):19-22. 被引量：5
10王晶,谢湘,李婧欣,高麟鹏.音频质量评价标准研究[J].信息技术与标准化,2014(3):39-42. 被引量：6

引证文献2

1李庆先,卞昕,刘良江,朱宪宇,周鑫.基于Gammatone滤波器组的客观语音质量评估[J].计算技术与自动化,2016,35(3):76-80. 被引量：5
2张来洪,邱波,刘红玉.一种基于感知特征动态失真度量的语音质量评估算法[J].自动化技术与应用,2017,36(4):1-4. 被引量：3

二级引证文献8

1陆诗依,高勇.在小波域中实现的动态嵌入音频隐藏算法[J].传感器与微系统,2018,37(12):131-135. 被引量：1
2罗刚,李允公,张启林,徐劲芳.基于优化听觉模型的机床工况识别方法研究[J].上海理工大学学报,2017,39(4):340-345. 被引量：1
3宣章健,蔡晓霞.DBN网络在语音质量评估中的应用[J].电声技术,2018,42(7):43-47.
4刘景天,姜囡.基于混合特征的说话人语音分割聚类研究[J].光电技术应用,2019,34(5):37-41. 被引量：3
5朱宪宇,熊婕,李庆先,刘良江,向德,王晋威.无线通信通话语音质量测量试验装置设计[J].计量技术,2020(6):36-40.
6毛文青,管业鹏.基于LPBMFCC的文本无关说话人识别[J].电子测量技术,2020,43(19):169-176.
7陈晓梅,王晓玮,钟波,杨佳燕,商莹莹.基于伽玛通滤波器的双谱特征语音可懂度算法[J].计算机工程与设计,2023,44(5):1288-1296.
8傅强,李贵民,吴岳洲.基于BP神经网络的管制语音质量评价方法[J].航空计算技术,2023,53(3):1-5. 被引量：1

1刘锦强.数字电视价格谱系[J].粤港澳价格,2005(4):7-10.
2沈刘平,杨吉斌,曹铁勇,张雄伟,孙新建.基于MARS的语音清晰度客观评价[J].数据采集与处理,2008,23(1):100-103. 被引量：3
3沈刘平,杨吉斌,曹铁勇,张雄伟.数据挖掘在语音清晰度客观评价中的应用[J].军事通信技术,2007,28(2):8-11.
4王俊（译）.JBL经典专业监听音箱谱系[J].现代音响技术,2008(7):24-28.
5李树花,李斌.P-SiTFTs带间隧穿电流的建模研究[J].电子产品可靠性与环境试验,2008,26(3):6-8.
6铭心.高盛全球“圈钱”的四重谱系[J].创新科技,2010(7):49-51.
7宋阳,凌震华,戴礼荣.基于合成质量预测的单元挑选语音合成优化方法[J].清华大学学报（自然科学版）,2013,53(6):762-766. 被引量：2
8姚珏（译）.JBL扬声器单元/号筒谱系[J].现代音响技术,2008(7):19-23.
9李浩.一种易于实现的线性预测方案[J].彭城职业大学学报,2003,18(2):11-12.
10张翔.无线信道传输预测计算[J].北京电信科技,1997(4):10-11.

电路与系统学报

2010年第4期

浏览历史

内容加载中请稍等...

一种基于非均匀谱系数和GMM的语音质量评估方法被引量：2

参考文献10

二级参考文献13

共引文献31

同被引文献13

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种基于非均匀谱系数和GMM的语音质量评估方法 被引量：2

参考文献10

二级参考文献13

共引文献31

同被引文献13

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种基于非均匀谱系数和GMM的语音质量评估方法被引量：2