基于深度学习的双耳声源定位算法研究被引量：2

Binaural localization algorithm based on deep learning

下载PDF

导出

摘要针对多种定位因素存在复杂关联且不易准确提取的问题,提出了以完整双耳声信号作为输入的、基于深度学习的双耳声源定位算法。首先,分别采用深层全连接后向传播神经网络(Deep Back Propagation Neural Network,D-BPNN)和卷积神经网络(Convolutional Neural Network,CNN)实现深度学习框架;然后,分别以水平面15°、30°和45°空间角度间隔的双耳声信号进行模型训练;最后,采用前后混乱率、定位准确率与训练时长等指标进行算法有效性分析。模型预测结果表明,CNN模型的前后混乱率远低于D-BPNN;D-BPNN模型的定位准确率能够达到87%以上,而CNN模型的定位准确率能够达到98%左右;在相同实验条件下,CNN模型的训练时长大于D-BPNN,且随着水平面角度间隔的减小,两者训练时长之间的差异愈发显著。 Due to existence of complicated relationships between multiple localization cues,which causes them hard to be extracted accurately,a deep learning-based binaural sound source localization algorithm with complete binaural sound signals as input is proposed.Firstly,the deep fully connected back propagation neural network(D-BPNN)and the convolutional neural network(CNN)are used to implement the deep learning framework respectively.And then,binaural sound source signals with uniform azimuthal spacing of 15°,30°and 45°in horizontal plane are applied to model training respectively.Finally,indicators such as front-back confusion rate,localization accuracy and training duration are used to investigate effectiveness of the models.The model prediction results show that the front-back confusion rate of the CNN model is much lower than that of D-BPNN model.The localization accuracy of the DBPNN model can reach more than 87%,while the localization accuracy of the CNN model is about 98%.Under the same experimental conditions,the training time of CNN model is longer than that of D-BPNN model;Moreover,this difference in training time becomes more and more obviously as the azimuthal spacing in the horizontal plane decreases.

作者宋昊刘雪洁俞胜锋钟小丽 SONG Hao;LIU Xuejie;YU Shengfeng;ZHONG Xiaoli(School of Management,Guangdong University of Technology,Guangzhou 510000,Guangdong,China;School of Physics and Telecommunication Engineering,South China Normal University,Guangzhou 510006,Guangdong,China;School of Physics and Optoelectronics,South China University of Technology,Guangzhou 510640,Guangdong,China)

机构地区广东工业大学管理学院华南师范大学物理与电信工程学院华南理工大学物理与光电学院

出处《声学技术》 CSCD 北大核心 2022年第4期602-607,共6页 Technical Acoustics

基金广东省自然科学基金项目(2021A1515011871,2021A1515012630)。

关键词双耳声源定位深度学习卷积神经网络 binaural localization algorithm deep learning convolutional neural network(CNN)

分类号 O429 [理学—声学]

引文网络
相关文献

参考文献2

1倪俊帅,赵梅,胡长青.基于深度学习的舰船辐射噪声多特征融合分类[J].声学技术,2020,39(3):366-371. 被引量：7
2丁建策,厉剑,彭任华,郑成诗,李晓东.室内两步法监督式学习双耳声源距离估计[J].声学学报,2019,44(4):405-416. 被引量：2

二级参考文献14

1龚玫,肖峥,曲天书,吴玺宏,李晓东.近场头相关传输函数的测量与分析[J].应用声学,2007,26(6):326-334. 被引量：12
2戴卫国,程玉胜,王易川.支持向量机对舰船噪声DEMON谱的分类识别[J].应用声学,2010,29(3):206-211. 被引量：10
3吴国清,李靖,李训诰,陈耀明,袁毅.舰船噪声识别(Ⅲ)──双重谱和平均功率谱的特征提取和模板图[J].声学学报,1999,24(2):191-196. 被引量：32
4SHI Bei,XIE Bosun.The cross-correlation of signals and spatial impression in surround sound reproduction[J].Chinese Journal of Acoustics,2010,29(3):308-320. 被引量：4
5余光正,谢菠荪,饶丹.人工头近场头相关传输函数及其特性[J].声学学报,2012,37(4):378-385. 被引量：12
6李娟,李军锋,颜永红.波场合成中声像感知距离重建[J].声学学报,2013,38(6):743-748. 被引量：4
7梁瑞宇,周健,王青云,奚吉,赵力.仿人耳听觉的助听器双耳声源定位算法[J].声学学报,2015,40(3):446-454. 被引量：12
8张毅,颜博,王可佳.混响环境下基于倒谱BRIR的双耳互相关声源定位算法[J].自动化学报,2016,42(10):1562-1569. 被引量：2
9朱成名,翟江涛,王彪,戴跃伟.一种基于船舶辐射噪声信号改进Mel倒谱系数的目标识别方法[J].船舶工程,2017,39(1):91-95. 被引量：4
10白敬贤,高天德,夏润鹏.基于DEMON谱信息提取算法的目标识别方法研究[J].声学技术,2017,36(1):88-92. 被引量：16

共引文献7

1闻思梦,穆瑞林,衣继钊,宋华建,周子奇.混响室内壁入射声能测量传声器阵列的设计方法[J].天津科技大学学报,2021,36(2):68-75.
2李新.功率谱估计在舰船噪声特征提取中的应用仿真[J].舰船科学技术,2022,44(4):43-46. 被引量：2
3周雪芳,高长全,刘阳.面向大数据网络的舰船辐射干扰信号检测方法[J].舰船科学技术,2022,44(3):147-150.
4吴承希,王彪,徐千驰,朱雨男.基于小波包分解和PCA-Attention-LSTM的舰船辐射噪声识别技术[J].声学技术,2022,41(2):264-273. 被引量：4
5赵扬青,彭智才,蒋雨涵,陈佳瑜,陈子怡,赵舒悦.音频的梅尔频率倒谱系数特征抽取过程[J].信息技术与信息化,2023(1):104-111. 被引量：6
6郭磊,林啸宇,王勇,陈正武,常伟.基于深度学习的直升机旋翼声信号检测与识别一体化算法[J].电子科技大学学报,2023,52(6):925-931. 被引量：2
7张奇,笪良龙,王超,张延厚,禚江浩.基于深度学习的水声被动目标识别研究综述[J].电子与信息学报,2023,45(11):4190-4202. 被引量：5

同被引文献10

1焦琛,张涛,孙建红.基于卷积神经网络的室内麦克风阵列声源定位算法[J].激光与光电子学进展,2020,57(8):187-192. 被引量：11
2李保伟,张兴敢.基于广义互相关改进的麦克风阵列声源定位方法[J].南京大学学报（自然科学版）,2020,56(6):917-922. 被引量：21
3余亮,潘铮,陈正武,蒋伟康.传声器阵列特征值滤波去噪方法[J].声学学报,2021,46(3):335-343. 被引量：5
4黄静,胡馨月.基于麦克风阵列的室内三维声源定位优化算法[J].计算机系统应用,2021,30(9):212-218. 被引量：7
5张雪莹,张浩林,韩莹莹,翁强,袁峥嵘,姚远.基于深度学习的野生动物监测与识别研究进展[J].野生动物学报,2022,43(1):251-258. 被引量：16
6杨利平,郝峻永,辜小花,侯振威.音频标记一致性约束CRNN声音事件检测[J].电子与信息学报,2022,44(3):1102-1110. 被引量：4
7王翰卓,李风华.随机多项式展开多特征向量约束-匹配场声源定位算法[J].应用声学,2022,41(4):512-519. 被引量：4
8黎昕婷,钟舜聪,钟剑锋.基于改进MUSIC算法的宽带信号DOA估计[J].计算机工程,2022,48(11):201-206. 被引量：6
9黄明浩,周欣,何小海,王正勇,熊淑华.基于SincNet的短语音说话人识别算法[J].现代计算机,2023,29(4):25-31. 被引量：1
10余萍,杨乘,王紫薇,胡健.基于联合加权的广义二次相关时延估计算法[J].计算机仿真,2023,40(3):400-404. 被引量：5

引证文献2

1梅鹏程,杨吉斌,张强,黄翔.一种基于三维卷积的声学事件联合估计方法[J].计算机科学,2023,50(3):191-198.
2卢炽华,薛齐凡,刘志恩,朱亚伟,彭文杰,李放.基于SincNet增强的时延估计声源定位算法研究[J].武汉理工大学学报,2023,45(10):127-134. 被引量：1

二级引证文献1

1刘望生,刘艳梅.多特征优化下室内声源鲁棒跟踪算法[J].仪器仪表学报,2024,45(8):316-325.

1李晓记,高天,阎威龙,杜卫海.DCO-OFDM系统中BPNN信道估计方法[J].实验室研究与探索,2022,41(3):54-58.
2杨国,黄文静,朱洪前,丁键,任会,李丹,肖恒玉,胡涛.自然环境下黄绿柑橘检测通用模型的构建[J].林业工程学报,2022,7(5):134-141. 被引量：2
3肖荣鸽,刘博,王勤学,林海威.基于GRA-ABC-BPNN模型的城市燃气日负荷预测[J].油气储运,2022,41(8):987-994. 被引量：5
4黎泉,关蔚蔚,李珍宝.基于AI技术的危化气体泄露扩散时空演化[J].科学与信息化,2022(16):38-40.
5马海宁,何鑫,陈竞竞,汪卉.卷积神经网络在滚动轴承故障诊断中的应用[J].计算机应用文摘,2022,38(17):40-42.
6王彩雪,张乐芳.基于Web-BIM的装配式建筑结构选型智能决策支持方法[J].工业加热,2022,51(5):72-76. 被引量：1
7邓慧,崔亚飞.基于Faster R-CNN的铝型材表面缺陷识别研究[J].济源职业技术学院学报,2022,21(3):59-62.
8孔钰如,王李娟,张竞成,杨贵军,岳云,杨小冬.多源数据小麦条锈病预测研究[J].遥感技术与应用,2022,37(3):571-579.
9朱志坚,伊长春,蒲友.配电网单相接地故障定位技术的运用[J].电子测试,2022,36(17):116-118. 被引量：2
10曾德政,吕继亮,屈盛官,尹鹏,李小强.基于SVMBP的下肢外骨骼步态检测及识别研究[J].机械工程学报,2022,58(12):29-38. 被引量：6

声学技术

2022年第4期

浏览历史

内容加载中请稍等...

基于深度学习的双耳声源定位算法研究被引量：2

参考文献2

二级参考文献14

共引文献7

同被引文献10

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度学习的双耳声源定位算法研究 被引量：2

参考文献2

二级参考文献14

共引文献7

同被引文献10

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度学习的双耳声源定位算法研究被引量：2