听觉频域掩蔽效应的自适应β阶贝叶斯感知估计语音增强算法被引量：5

Adaptiveβ-order perceptually motivated speech enhancement algorithm based on frequency-domain auditory masking

下载PDF

导出

摘要为了在噪声抑制和语音失真中之间寻找最佳平衡,提出了一种听觉频域掩蔽效应的自适应β阶贝叶斯感知估计语音增强算法,以期提高语音增强的综合性能。算法利用了人耳的听觉掩蔽效应,根据计算得到的频域掩蔽阈自适应调整β阶贝叶斯感知估计语音增强算法中的β值,从而仅将噪声抑制在掩蔽阈之下,保留较多的语音信息,降低语音失真。并分别用客观和主观评价方式,对所提出的算法的性能进行了评估,并与原来基于信噪比的自适应β阶贝叶斯感知估计语音增强算法进行了比较。结果表明,频域掩蔽的β阶贝叶斯感知估计方法的综合客观评价结果在信噪比为-10 dB至5 dB之间时均高于基于信噪比的自适应β阶贝叶斯感知估计语音增强算法。主观评价结果也表明频域掩蔽的β阶贝叶斯感知估计方法能在尽量保留语音信息的同时,较好的抑制背景噪声。 Aimed to reach a compromise between noise suppression and speech distortion,an adaptiveβ-order perceptually motivated speech enhancement algorithm based on frequency-domain auditory masking to improve speech enhancement performance is proposed.The algorithm applies auditory masking effect.Theβvalue in the algorithm is adjusted adaptively according to the calculated frequency-domain masking threshold so that the noise is suppressed just under the threshold.In this way,the algorithm could maintain more speech information and reduce speech distortion. The performance of the algorithm was evaluated by subjective and objective measurements respectively,and was compared to that of adaptiveβ-order perceptually motivated speech enhancement algorithm based on signal to noise ratio. Results showed that when the SNR is between—10 dB and 5 dB the objective measurement results of the adaptiveβ-order perceptually motivated speech enhancement algorithm based on frequency-domain auditory masking is higher than that of the comparing algorithm.Subjective measurement results also showed that the adaptiveβ-order perceptually motivated speech enhancement algorithm based on frequency-domain auditory masking can suppress background noise well while saving speech information as much as possible.

作者王玥李平崔杰

机构地区中国科学院声学研究所

出处《声学学报》 EI CSCD 北大核心 2013年第4期501-508,共8页 Acta Acustica

基金国家自然科学基金资助项目(60970136)

关键词语音增强算法听觉掩蔽效应自适应调整估计方法贝叶斯感知频域噪声抑制 Algorithms Frequency domain analysis Signal to noise ratio

分类号 TN912.35 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1ZENG Qingning,OUYANG Shan.Speech enhancement by array crosstalk resistant ANC and spectrum subtraction[J].Chinese Journal of Acoustics,2008,27(1):85-96. 被引量：4
2WU Hongwei,WU Zhenyang,ZHAO Li.Speech enhancement based on multitaper spectrum and psychoacoustical weighting rule[J].Chinese Journal of Acoustics,2007,26(3):278-288. 被引量：1
3吴红卫,吴镇扬,赵力.基于多窗谱的心理声学语音增强[J].声学学报,2007,32(3):275-281. 被引量：12

二级参考文献29

1卜凡亮,王为民,戴启军,陈砚圃.基于噪声被掩蔽概率的优化语音增强方法[J].电子与信息学报,2005,27(5):753-756. 被引量：16
2陶智,赵鹤鸣,龚呈卉.基于听觉掩蔽效应和Bark子波变换的语音增强[J].声学学报,2005,30(4):367-372. 被引量：39
3Wu Hongwei,Wu Zhenyang.SPEECH ENHANCEMENT USING CONSTRAINED SPECTRAL AMPLITUDE SUBTRACTION BASED ON NONCAUSAL A PRIORI SNR[J].Journal of Electronics(China),2006,23(6):937-942. 被引量：3
4Thomson D J. Spectrum estimation and harmonic analysis. Proc. IEEE, 1982; 70(9): 1055--1096
5Hu Y, Loizou P C. Incorporating a psychoacoustical model in frequency domain speech enhancement. IEEE Signal Processing letters, 2004; 11(2): 270--273
6Cappe O. Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor. IEEE Trans. on Speech and Audio Processing, 1994; 2(2): 345-- 349
7Virag N. Single channel speech enhancement based on masking properties of the human auditory system. IEEE Trans. Speech and Audio Processing, 1999; 7(2): 126--137
8Gustafsson S, Jax P, Vary P. A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics. In: Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing, 1998:397--400
9Johnston J D. Transform coding of audio signal using perceptual noise criteria. IEEE J. Select. Areas Commun., 1988; 6(2): 314--323
10Manolakis D G, Lngle V K, Kogon S M. Statistical and adaptive signal processing. 北京:清华大学出版社, 2003: 246-255

共引文献14

1吴红卫,俞一彪,吴镇扬.基于Laplace-Gauss模型和简化相位判别的离散余弦变换域语音增强[J].声学学报,2008,33(3):244-251. 被引量：4
2武鹏鹏,赵刚,邹明.基于多窗谱估计的改进谱减法[J].现代电子技术,2008,31(12):150-152. 被引量：20
3陈克安,马苗,张燕妮,王娜,闫靓.汉语语境下的车辆噪声听觉属性评价与分析[J].声学学报,2008,33(4):348-353. 被引量：14
4李晓伟,曾毓敏,汤小飞.基于多正弦窗谱估计的改进谱减法语音增强[J].信息化研究,2009,35(12):18-21. 被引量：1
5王云专,王珊,董相杰,于承业.多窗谱分析在Q值估算中的应用[J].地球物理学进展,2009,24(6):2156-2162. 被引量：6
6曾庆宁.MCRASC-MGSC微型阵列语音增强方法[J].桂林电子科技大学学报,2010,30(5):404-408.
7曾庆宁,欧阳缮.子带MCRASC-MGSC微型麦克风阵语音增强算法[J].西安电子科技大学学报,2010,37(6):1011-1016. 被引量：2
8彭军,王忠,刘兴涛,胡建超.基于多窗谱相关加权语音增强[J].计算机仿真,2011,28(3):142-145. 被引量：7
9吴边,王忠,刘兴涛.强背景噪声下语音端点检测的算法研究[J].计算机工程与应用,2011,47(33):137-139. 被引量：6
10孙科伟,李建海,杨海东,宋博.基于锥形麦克风阵列的语音增强技术研究[J].压电与声光,2014,36(2):306-310.

同被引文献24

1赵鹤鸣,葛良,陈雪勤,俞一彪.基于声音定位和听觉掩蔽效应的语音分离研究[J].电子学报,2005,33(1):158-160. 被引量：16
2赵彩华,刘琚,孙建德,闫华.基于小波变换和独立分量分析的含噪混叠语音盲分离[J].电子与信息学报,2006,28(9):1565-1568. 被引量：14
3孙颖,张雪英.基于高斯小波滤波器的语音识别特征提取方法[J].太原理工大学学报,2007,38(2):146-149. 被引量：2
4徐舜,陈绍荣,刘郁林.基于非线性时频掩蔽的语音盲分离方法[J].声学学报,2007,32(4):375-381. 被引量：9
5Naqvi S M,Wang W.Multimodal(audio-visual)source separation exploiting multi-speaker tracking,robust beamforming and time-frequency masking[J].IET Signal Processing,2012,6(5):466-477.
6郭海燕.基于稀疏分解的单通道混合语音分离算法研究[D].南京邮电大学通信与信息工程学院,2010.
7Zhao Xiaojia,Shao Yang,Wang DeLiang.CASAbased robust speaker Identification[J].IEEE Transactions on Audio Speech and Language Processing,2012,20(5):1608-1616.
8Wang Yu,Lin Jiajun,Chen Ning,et al.Improved monaural speech segregation based on computational auditory scene analysis[EB/OL].[2014-04-02].http:∥asmp.eurasipjournals.com/content/2013/1/2,2013-02.
9催玮玮.基于麦克风阵列的声源定位与语音增强方法研究[D].北京:清华大学电子工程系,2008.
10Araki S,Makino S,Mukai R,et al.Equivalence between frequency domain blind source separation and frequency domain adaptive null beam formers[C]∥Proc Eurospeech,Aalborg,Denmark.[s.n.],2001:2595-2598.

引证文献5

1王玥,李平,崔杰.针对听力受损者的低复杂度感知估计降噪算法[J].声学技术,2013,32(S1):239-240.
2钱思冲,向阳,李胜杨,李恒.基于独立分量分析与二值掩膜的语音分离[J].华中科技大学学报（自然科学版）,2015,43(7):87-92. 被引量：2
3詹海峰,田红心,牛博,李从林.基于多分辨率高斯滤波器组的时频分析方法[J].中国电子科学研究院学报,2017,12(6):654-661. 被引量：5
4黄张翼,周翊,刘金刚,刘宏清.基于广义加权贝叶斯估计的语音增强算法研究[J].计算机仿真,2018,35(11):170-174. 被引量：3
5唐闺臣,梁瑞宇,孔凡留,谢跃,鞠梦洁.融合辅助目标学习和卷积循环网络的非侵入式语音质量评价算法[J].声学学报,2022,47(5):692-702.

二级引证文献10

1张袁元,辛江慧,刘国兵,周祥.结合累积量切片的联合对角化盲分离及应用[J].华中科技大学学报（自然科学版）,2016,44(7):86-90.
2倪纪伟,彭妙颜.基于Fisher比的Bark倒谱系数混合特征参数提取方法[J].电声技术,2019,43(1):30-33. 被引量：3
3付方玲,何飞,付佳,尹恒,黄华,何凌.结合听觉模型的腭裂语音高鼻音等级自动识别[J].计算机工程与应用,2019,55(10):127-134.
4陈国良,黄晓琴,卢可凡.改进的快速独立分量分析在语音分离系统中的应用[J].计算机应用,2019,39(A01):206-209. 被引量：3
5赵晶晶,张晓娜.基于改进傅里叶变换的电子音乐信号降噪算法[J].现代电子技术,2020,43(7):43-47. 被引量：3
6陈旭,蒋晔.基于高斯滤波器组混合特征的录音回放攻击检测研究[J].计算机工程,2021,47(3):291-297. 被引量：2
7李亚利,刘佳.基于非平稳信号时频分析的DDoS攻击检测仿真[J].计算机仿真,2021,38(5):353-356. 被引量：1
8高振凤.基于自动编码的机器人英语语音自动识别方法[J].自动化技术与应用,2021,40(7):96-100. 被引量：5
9汤伟,张龙,王锦韫,方嘉楠.基于快速傅里叶变换和改进分水岭算法的纸病实时检测复合算法[J].中国造纸,2023,42(7):153-160. 被引量：5
10徐浩森,姜囡,齐志坤.基于自注意力机制的卷积循环网络语音降噪[J].计算机仿真,2024,41(4):500-506.

1大唐移动利用ADI高速四通道DAC实现高性能、小尺寸无线基站[J].电子与电脑,2011(6):101-101.
2陈江华,赵辉,卞林溪.ASIC可测性设计中扫描路径的应用与分析[J].山东大学学报（工学版）,2003,33(5):538-541. 被引量：1
3汪石农.MPEG心理声学模型研究及其Matlab实现[J].安徽工程科技学院学报（自然科学版）,2009,24(4):32-34. 被引量：1
4潘渊.声音转换及相关技术的研究[J].今日科苑,2010(22):113-113. 被引量：1
5井绪源.下一代接入网组网的关键技术[J].中国新通信,2016,0(10):24-24. 被引量：1
6三星电子和赛灵思共同宣布赛灵思45nm Spartan-6 FPGA系列实现全面量产供货[J].电子与电脑,2010(4):101-101.
7意法半导体内置DSP的可重新配置系统芯片[J].电子产品世界,2005,12(08B):33-33.
8三星电子和赛灵思共同宣布——赛灵思45nm Spartan-6FPGA系列实现全面量产供货[J].家电大视野,2010(4):125-125.
9三星电子和赛灵思宣布45nm Spartan－6 FPGA全面量产[J].中国集成电路,2010,19(4):7-7.
10赛灵思45nm Spartan-6 FPGA系列实现全面量产供货[J].电子设计工程,2010,18(4):54-54.

声学学报

2013年第4期

浏览历史

内容加载中请稍等...

听觉频域掩蔽效应的自适应β阶贝叶斯感知估计语音增强算法被引量：5

参考文献3

二级参考文献29

共引文献14

同被引文献24

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

听觉频域掩蔽效应的自适应β阶贝叶斯感知估计语音增强算法 被引量：5

参考文献3

二级参考文献29

共引文献14

同被引文献24

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

听觉频域掩蔽效应的自适应β阶贝叶斯感知估计语音增强算法被引量：5