基于听觉融合特征的多声音事件检测

Multiple sound event detection based on auditory fusion features

下载PDF

导出

摘要为提高多声音事件检测任务的性能,本文深入研究速动压缩非对称谐振器级联CARFAC数字耳蜗模型,并提出了基于听觉融合特征的多声音事件检测方法 .该方法首先利用CARFAC提取混叠声音的神经活动模式图NAP,然后将NAP与GFCC拼接后生成融合听觉特征,并将其送入CRNN神经网络进行全监督学习,以实现对城市声音事件的检测.实验表明,在低信噪比且重叠事件较多的情况下,融合听觉特征较单独的NAP、MFCC以及GFCC等特征具有更好的鲁棒性和多声音事件检测性能. In order to improve the performance of multi-sound event detection task,this paper conducts an in-depth study of the Cascade of Asymmetric Resonators with Fast-Acting Compression(CARFAC)digital cochlear model,and proposes a multi-sound event detection method based on auditory fusion features.Initially,the CARFAC is employed to extract the Neural Activity Pattern(NAP)of mixed sound.Subsequently,the NAP is concatenated with Gammatone Frequency Cepstral Coefficients(GFCC)to generate fused auditory features,which are then fed into a Convolutional Recurrent Neural Network(CRNN)for fully supervised learning to detect urban sound events.Experimental results demonstrate that,in the scenario of low signal-to-noise ratio and a higher number of overlapping events,the fused auditory features exhibit superior robustness and multi-sound event detection performance compared to individual features such as NAP,MFCC,and GFCC.

作者罗吉夏秀渝 LUO Ji;XIA Xiu-Yu(College of Electronics and Information Engineering,Sichuan University,Chengdu 610064,China)

机构地区四川大学电子信息学院

出处《四川大学学报（自然科学版）》 CAS CSCD 北大核心 2024年第4期225-231,共7页 Journal of Sichuan University(Natural Science Edition)

基金国家自然科学基金联合基金项目(U1733109)。

关键词数字耳蜗模型神经活动模式融合听觉特征声音事件检测四折交叉验证 Digital cochlear model Neural activity pattern Fused auditory parameters Sound event detection Four-fold cross validation

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1翟慧强,张金萍,王丹,赵艳春.听觉模型综述[J].机械工程师,2014(3):19-22. 被引量：5
2邵建勋,倪俊杰.带你了解语音识别技术[J].中国信息技术教育,2021(21):75-79. 被引量：2
3卢绪刚,陈道文.听觉计算模型在鲁棒性语音识别中的应用[J].声学学报,2000,25(6):492-498. 被引量：9
4汪学清,刘爽,李秋燕,马凯彬.基于K折交叉验证的SVM隧道围岩分级判别[J].矿冶工程,2021,41(6):126-128. 被引量：22

二级参考文献25

1高雨青,黄泰翼,陈韶岩.听觉模型用于语音识别以及与一般方法的比较[J].电子学报,1993,21(10):1-6. 被引量：2
2刘惠华,赵南明,方棣棠.听觉模型研究的意义与现状[J].生命科学,1993,5(2):13-15. 被引量：1
3焦志平,张雪英,赵姝彦.一种基于听觉模型的抗噪语音识别特征提取方法[J].太原理工大学学报,2005,36(1):13-15. 被引量：8
4TAO Ran,DENG Bing,WANG Yue.Research progress of the fractional Fourier transform in signal processing[J].Science in China(Series F),2006,49(1):1-25. 被引量：100
5孙玉温，听觉比较生理学，1994年
6Bing Hwang Juang，Speech Signal Processing ASSP，1987年，35卷，7期，947页
7宫凤强,李夕兵,张伟.隧道围岩分级的距离判别分析模型及应用[J].铁道学报,2008,30(3):119-123. 被引量：29
8唐红宁.RMR围岩分级方法在隧道施工现场的应用[J].隧道建设,2008,28(6):665-667. 被引量：14
9张卫强,刘加.基于听感知特征的语种识别[J].清华大学学报（自然科学版）,2009(1):78-81. 被引量：21
10李允公,张金萍,戴丽,张占一,刘杰.基于听觉模型ZCPA的故障诊断特征提取方法研究[J].中国机械工程,2009(24):2988-2992. 被引量：9

共引文献34

1赵鹤鸣,王永琦,陈雪勤.听觉模型反演方法及其应用[J].声学学报,2005,30(6):530-535. 被引量：4
2冯涛,韩纪庆.基于听觉特性的音频水印能量估计及自适应嵌入算法研究[J].声学学报,2006,31(1):48-54. 被引量：13
3ZHAO Heming WANG Yongqi CHEN Xueqin.Auditory model inversion and its application[J].Chinese Journal of Acoustics,2005,24(4):323-330.
4陈伟兵,周凌宏,肖中举.耳蜗基底膜振动模型的建立与应用[J].中国医学物理学杂志,2007,24(3):221-223. 被引量：10
5卢小春,尹俊勋,王修信.基于听觉模型特征的与文本无关说话人识别系统[J].广西师范大学学报（自然科学版）,2010,28(2):22-26. 被引量：2
6张学良,刘文举,李鹏,徐波.改进谐波组织规则的单通道浊语音分离系统[J].声学学报,2011,36(1):88-96. 被引量：7
7刘超,焦义民,康春玉.舰船辐射噪声声纹图纹理特征提取研究[J].科技创新与应用,2016,6(14):36-37.
8李庆先,卞昕,刘良江,朱宪宇,周鑫.基于Gammatone滤波器组的客观语音质量评估[J].计算技术与自动化,2016,35(3):76-80. 被引量：5
9雷雨,吴超,王秉.人对声信号的安全认知模型构建及其应用[J].中国安全生产科学技术,2018,14(6):27-32.
10朱宪宇,熊婕,李庆先,刘良江,向德,王晋威.无线通信通话语音质量测量试验装置设计[J].计量技术,2020(6):36-40.

1石庆升,陈家良,董哲.基于听觉显著性特征的发电机组主轴承性能评估[J].科学技术与工程,2024,24(1):205-214.
2王文华,夏秀渝.听觉模型鲁棒性特征研究及应用[J].成都信息工程大学学报,2024,39(3):275-282. 被引量：1

四川大学学报（自然科学版）

2024年第4期

浏览历史

内容加载中请稍等...

基于听觉融合特征的多声音事件检测

参考文献4

二级参考文献25

共引文献34

相关作者

相关机构

相关主题

浏览历史