基于SincNet增强的时延估计声源定位算法研究被引量：1

Research on Time Delay Estimation Based Sound Source Localization Algorithm Enhanced by SincNet

导出

摘要针对相位变换加权的广义互相关时延估计(GCC-PHAT)声源定位方法在低信噪比与高混响条件下定位精度较低的问题,提出一种基于SincNet神经网络和GCC-PHAT协同工作的室内声源定位算法。以LibriSpeech语音数据集作为声源输入,采用Sinc函数作为滤波器构建SincNet主干网络结构,能够有效提取声源语音特征;将特征输入到GCC-PHAT模块进行相关性分析与特征降维;再通过多层感知网络(MLP)进一步提取高级特征,输出时延误差分类结果。实验结果表明,相对于SCOT/PHAT联合加权、卷积神经网络(CNN)、深层全连接后向传播神经网络(D-BPNN)等先进的声源定位算法,该算法具备更强的抗混响性能,且在不同信噪比和混响强度下,该算法的定位精度显著高于GCC-PHAT,SincNet提取的特征能有效增强时延估计的鲁棒性。 A indoor sound source localization algorithm based on the cooperation of SincNet neural network and GCC-PHAT is proposed to address the problem of low positioning accuracy of the phase transformation weighted generalized cross correlation time delay estimation(GCC-PHAT)sound source localization method under low signal-to-noise ratio and high reverberation conditions.Using the LibriSpeech speech dataset as the sound source input and using the Sinc function as a filter to construct the SincNet backbone network structure can effectively extract the speech features of the sound source;Input features into the GCC-PHAT module for correlation analysis and feature dimensionality reduction;Then,advanced features are further extracted through a multi-layer perception network(MLP),and the classification results of delay errors are output.The experimental results show that compared to advanced sound source localization algorithms such as SCOT/PHAT joint weighting,convolutional neural network(CNN),deep fully connected backpropagation neural network(D-BPNN),this algorithm has stronger anti reverberation performance,and its localization accuracy is significantly higher than GCC-PHAT under different signal-to-noise ratios and reverberation intensities.The features extracted by SincNet can effectively enhance the robustness of time delay estimation.

作者卢炽华薛齐凡刘志恩朱亚伟彭文杰李放 LU Chi-hua;UE Qi-fan;LIU Zhi-en;ZHU Ya-wei;PENG Wen-jie;LI Fang(School of Automotive Engineering,Wuhan University of Technology,Wuhan 430070,China;Hubei Provincial Key Laboratory of Modern Auto Parts Technology,Wuhan University of Technology,Wuhan 430070,China)

机构地区武汉理工学大学汽车工程学院武汉理工大学现代汽车零部件技术湖北省重点实验室

出处《武汉理工大学学报》 CAS 2023年第10期127-134,共8页 Journal of Wuhan University of Technology

基金国家自然科学基金(52175111) 湖北省重点研发计划(2021BAA177)。

关键词声源定位 SincNet神经网络 GCC-PHAT 时延估计多层感知网络 sound source localization SincNet neural network GCC-PHAT time delay estimation MLP

分类号 O429 [理学—声学]

引文网络
相关文献

参考文献6

1李保伟,张兴敢.基于广义互相关改进的麦克风阵列声源定位方法[J].南京大学学报（自然科学版）,2020,56(6):917-922. 被引量：21
2焦琛,张涛,孙建红.基于卷积神经网络的室内麦克风阵列声源定位算法[J].激光与光电子学进展,2020,57(8):187-192. 被引量：11
3宋昊,刘雪洁,俞胜锋,钟小丽.基于深度学习的双耳声源定位算法研究[J].声学技术,2022,41(4):602-607. 被引量：2
4黄明浩,周欣,何小海,王正勇,熊淑华.基于SincNet的短语音说话人识别算法[J].现代计算机,2023,29(4):25-31. 被引量：1
5余萍,杨乘,王紫薇,胡健.基于联合加权的广义二次相关时延估计算法[J].计算机仿真,2023,40(3):400-404. 被引量：5
6王翰卓,李风华.随机多项式展开多特征向量约束-匹配场声源定位算法[J].应用声学,2022,41(4):512-519. 被引量：4

二级参考文献30

1杨坤德,马远良.基于扇区特征向量约束的稳健自适应匹配场处理器[J].声学学报,2006,31(5):399-409. 被引量：17
2唐娟,行鸿彦.基于二次相关的时延估计方法[J].计算机工程,2007,33(21):265-267. 被引量：49
3沈远海,马远良,屠庆平,姜小权.浅水声速剖面用经验正交函数(EOF)表示的可行性研究[J].应用声学,1999,18(2):21-25. 被引量：46
4赵航芳,宫先仪.嵌入环境不确实性的宽容波束形成贝叶斯方法[J].哈尔滨工程大学学报,2010,31(7):951-957. 被引量：3
5程广利,张明敏.浅海不确定声场的随机多项式展开法研究[J].声学学报,2013,38(3):294-299. 被引量：10
6过武宏,笪良龙,赵建昕.动态水声环境不确定性的估计与分析[J].应用声学,2013,32(6):464-472. 被引量：13
7程广利,张明敏,胡金华.一种更具普适性的浅海不确定声场快速算法[J].物理学报,2014,63(8):196-203. 被引量：3
8笪良龙,过武宏,赵建昕,范培勤.海洋-声学耦合模式捕捉水声环境不确定性[J].声学学报,2015,40(3):477-486. 被引量：12
9窦慧晶,王千龙,张雪.基于二次相关的广义互相关时差估计算法[J].北京工业大学学报,2016,42(2):197-202. 被引量：22
10刘敏,曾毓敏,张铭,李晨.基于二次相关的语音信号时延估计改进算法[J].应用声学,2016,35(3):255-264. 被引量：16

共引文献36

1佘霖琳,孙红,赵祎彤,李嘉雪,宋雲龙.基于BP神经网络的声源定位研究[J].软件导刊,2021,20(4):36-42. 被引量：3
2夏振杰,刘强,李昂,刘悦莹,荆振国,彭伟.基于膜片式EFPI光纤麦克风的声源定位系统[J].中国激光,2021,48(9):207-216. 被引量：8
3钟晨,张启元,余紫扬,袁鹏哲,张烈山.基于数字延迟和重采样的非线性调频连续波声纳测距方法研究[J].电子测量技术,2021,44(14):91-97. 被引量：1
4陈雪.基于卷积神经网络的室内虚拟控制系统设计[J].现代电子技术,2021,44(22):135-138. 被引量：1
5唐俊,汪照,白宇田.基于稀疏过零点信息的抗幅值失真时延估计方法[J].天津大学学报（自然科学与工程技术版）,2022,55(2):211-220. 被引量：2
6屈顺彪,俞华,芦竹茂,申冲,韩钰,王晨光.面向声源定位的改进广义互相关时延估计方法[J].导航定位与授时,2021,8(6):118-124. 被引量：8
7弓艳荣,刘鹏.基于加权平方误差损失函数的鲁棒TOA源定位算法[J].弹箭与制导学报,2021,41(5):32-36. 被引量：1
8邢毓华,郑琦.广义互相关在混沌扩频时延估计中的研究与应用[J].激光与光电子学进展,2021,58(23):35-41. 被引量：6
9刘望生,潘海鹏,王明环.噪声混响下说话人跟踪的多特征自适应UPF算法[J].仪器仪表学报,2022,43(4):224-233.
10徐菁,倪淑燕,廖育荣.基于RLS的二次加权相关时延估计算法[J].电讯技术,2022,62(12):1835-1840. 被引量：4

同被引文献6

1蔡卫平,吴镇扬.一种基于粒子滤波的鲁棒声源跟踪算法[J].电子测量与仪器学报,2010,24(5):407-413. 被引量：8
2王帅帅,贾学东,陈国军,陈琦.一种基于扩频声波的室内定位方法及实现[J].测绘科学技术学报,2020,37(2):216-220. 被引量：2
3唐俊,汪照,白宇田.基于稀疏过零点信息的抗幅值失真时延估计方法[J].天津大学学报（自然科学与工程技术版）,2022,55(2):211-220. 被引量：2
4刘望生,潘海鹏,王明环.混响噪声下声源定位与跟踪的多特征自适应IMM粒子滤波算法[J].控制理论与应用,2023,40(3):477-484. 被引量：3
5余萍,杨乘,王紫薇,胡健.基于联合加权的广义二次相关时延估计算法[J].计算机仿真,2023,40(3):400-404. 被引量：5
6曾庆宁,苏盼,王红丽,龙超.基于互相关序列和BP网络的声源定位算法[J].科学技术与工程,2023,23(16):6945-6951. 被引量：3

引证文献1

1刘望生,刘艳梅.多特征优化下室内声源鲁棒跟踪算法[J].仪器仪表学报,2024,45(8):316-325.

1吴爽,冯涛,王晶.基于迁移学习的室内小样本声源定位方法研究[J].家电科技,2023(1):74-78.
2何儒汉,陈一帆,余永升,姜艾森.基于GRU与自注意力网络的声源到达方向估计[J].计算机科学,2023,50(S02):986-992. 被引量：1
3张大桂,周志峰,张怡,王立端.基于粒子群优化的TDOA声源定位方法[J].电子科技,2023,36(9):21-28. 被引量：1
4王志业,刘涛,张寰,张全国,张海涛,何玉红.基于多光谱影像特征的小麦锈病反演模型构建[J].河南农业大学学报,2023,57(5):826-834. 被引量：3
5高宝明,孙国繁,冯俊杰,段雨松,刘霄,杨爱民.面向变电站智能运检的声音谱特征语音识别方法[J].高压电器,2023,59(11):40-47. 被引量：3
6李菲,鲁程绯,刘佳玮,张志慧.CircBIRC6调节miR-138-5p/RRM2轴对乳腺癌细胞恶性生物学行为的影响[J].中国优生与遗传杂志,2023,31(10):2014-2020.
7刘繁茂,张原愿,廖灿灿,莫寒.基于偏折法的碟式聚光器抛物镜面法向误差快速检测方法[J].太阳能学报,2023,44(8):367-378.
8骆润卿,张双彪,陈晨,佘怡欣,游凯卉.宠物声源定位算法设计[J].物联网技术,2023,13(9):10-15.
9闫飞.谈巧用“三点”解三角函数图像与性质题型的“秒杀”法[J].中学数学研究（华南师范大学）（下半月）,2023(9):39-40.
10张蓝方,韦峻峰,廖灿杰,倪童铮.基于改进野狗优化算法的二维MUSIC声源定位研究[J].现代计算机,2023,29(13):45-49. 被引量：1

武汉理工大学学报

2023年第10期

浏览历史

内容加载中请稍等...

基于SincNet增强的时延估计声源定位算法研究被引量：1

参考文献6

二级参考文献30

共引文献36

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于SincNet增强的时延估计声源定位算法研究 被引量：1

参考文献6

二级参考文献30

共引文献36

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于SincNet增强的时延估计声源定位算法研究被引量：1