期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
基于听觉融合特征的多声音事件检测
1
作者 罗吉 夏秀渝 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期225-231,共7页
为提高多声音事件检测任务的性能,本文深入研究速动压缩非对称谐振器级联CARFAC数字耳蜗模型,并提出了基于听觉融合特征的多声音事件检测方法 .该方法首先利用CARFAC提取混叠声音的神经活动模式图NAP,然后将NAP与GFCC拼接后生成融合听... 为提高多声音事件检测任务的性能,本文深入研究速动压缩非对称谐振器级联CARFAC数字耳蜗模型,并提出了基于听觉融合特征的多声音事件检测方法 .该方法首先利用CARFAC提取混叠声音的神经活动模式图NAP,然后将NAP与GFCC拼接后生成融合听觉特征,并将其送入CRNN神经网络进行全监督学习,以实现对城市声音事件的检测.实验表明,在低信噪比且重叠事件较多的情况下,融合听觉特征较单独的NAP、MFCC以及GFCC等特征具有更好的鲁棒性和多声音事件检测性能. 展开更多
关键词 数字耳蜗模型 神经活动模式 融合听觉特征 声音事件检测 四折交叉验证
下载PDF
基于改进注意力机制的声音事件定位与检测算法
2
作者 杨雄 雷帮军 徐文发 《信息系统工程》 2024年第6期41-44,共4页
在三维声音事件检测任务中,不同的声音事件相互影响,难以从复杂声音信号中提取出全局特征。基于注意力机制的声音事件定位与检测算法,能够将特征提取加强模块进行降采样操作和卷积操作,捕获声音特征,利用卷积注意力模块对序列数据中所... 在三维声音事件检测任务中,不同的声音事件相互影响,难以从复杂声音信号中提取出全局特征。基于注意力机制的声音事件定位与检测算法,能够将特征提取加强模块进行降采样操作和卷积操作,捕获声音特征,利用卷积注意力模块对序列数据中所有特征建模,利用全连接层输出声音事件的位置信息。方法结果预测值为0.616,相较L3DAS22 Challenge Task2中第二名预测值提升1.6%。 展开更多
关键词 深度学习 声音事件检测 注意力机制
下载PDF
采用多视角注意力的声音事件定位与检测
3
作者 杨吉斌 黄翔 +2 位作者 张雄伟 张强 梅鹏程 《信号处理》 CSCD 北大核心 2024年第2期385-395,共11页
近年来,基于深度学习的方法有效改进了声音事件定位与检测的性能,但当场景中存在多声源重叠时,准确的声源时空信息估计依然较为困难,声音事件定位与检测的性能存在较大提升空间。为充分挖掘多通道深层表示所包含的关键信息,本文提出了... 近年来,基于深度学习的方法有效改进了声音事件定位与检测的性能,但当场景中存在多声源重叠时,准确的声源时空信息估计依然较为困难,声音事件定位与检测的性能存在较大提升空间。为充分挖掘多通道深层表示所包含的关键信息,本文提出了一种多视角注意力网络模型MVANet(Multi-View Attention Network)。首先,引入软参数共享网络架构实现不同任务之间的交互学习,计算多通道深层表示,在对比不同通道注意力结构的基础上,选择了一种轻量级的高效通道注意力模块ECA(Efficient Channel Attention)与多头自注意力模块MHSA(Multi-Head Self-Attention)结合,从通道、时间、频率三个视角关注深层表示中的关键特征,丰富高维特征信息。其次,对比了ECA模块和软参数共享架构在MVANet不同位置上的性能,确定了ECA模块和软参数共享在模型上的最佳实现位置,最大程度上提高模型对特征的挖掘能力。仿真结果表明,对于包含同类别重叠声事件的TAU-NIGENS Spatial Sound Events 2020数据集,本文提出的MVANet模型相比较于基线方法,检测和定位性能均得到了改善。在多声源场景下,检测错误率下降了0.03,定位误差下降了1.5°。 展开更多
关键词 声音事件定位与检测 深度学习 多视角注意力 通道注意力 多头自注意力
下载PDF
基于双重注意力的声音事件定位与检测
4
作者 许春冬 刘昊 +1 位作者 闵源 甄雅迪 《计算机工程与应用》 CSCD 北大核心 2023年第19期99-105,共7页
近年来,声音事件定位与检测被广泛应用于各个领域。基于深度学习的声音事件定位与检测的网络模型难以准确捕捉输入特征图的空间和通道信息,从而导致声音事件定位和检测难度较大。提出了一种基于注意力的CECANet(coordinate and efficien... 近年来,声音事件定位与检测被广泛应用于各个领域。基于深度学习的声音事件定位与检测的网络模型难以准确捕捉输入特征图的空间和通道信息,从而导致声音事件定位和检测难度较大。提出了一种基于注意力的CECANet(coordinate and efficient channel attention network)网络模型。在残差模块中引入坐标注意力模块,使网络模型更集中关注特征图的空间坐标信息,然后在平均池化层后加入高效通道注意力模块,使网络模型更加关注特征之间的通道信息。实验结果表明,提出的网络模型在TAU-NIGENS Spatial Sound Events 2021数据集中,相较于基线模型性能有整体的提升,F1和LR提升到了0.720和0.728,ER和LE降低到0.393和11.71°。 展开更多
关键词 声音事件定位与检测 注意力机制 卷积神经网络 深度学习
下载PDF
多任务实时声音事件检测卷积模型与复合数据扩增
5
作者 刘臣 倪仁倢 周立欣 《计算机应用研究》 CSCD 北大核心 2023年第4期1080-1087,共8页
现有的声音事件检测研究多为对离线音频进行分析,且模型参数量较多、计算效率低,不适用于实时检测。提出一种面向多任务实时声音事件检测的轻量化卷积神经网络模型,它将唤醒与检测任务整合成多任务学习框架,此外模型的卷积结构联合了稠... 现有的声音事件检测研究多为对离线音频进行分析,且模型参数量较多、计算效率低,不适用于实时检测。提出一种面向多任务实时声音事件检测的轻量化卷积神经网络模型,它将唤醒与检测任务整合成多任务学习框架,此外模型的卷积结构联合了稠密连接、Ghost模组与SE注意力机制;另外还提出了一种复合数据扩增方法,将音频变换、随机裁剪与频谱掩蔽相结合。实验结果显示,该模型在ESC-10和Urbansound8K数据集上的平均预测准确率高于当前新型的基线模型2%以上,同时模型的参数和内存更少。研究表明,多任务学习的方式节省了计算量,又因为卷积结构复用了中间层特征,模型可以快速地反馈检测结果。另外,复合数据方法相比传统方法使模型获得了更好的性能和鲁棒性。 展开更多
关键词 实时声音事件检测 轻量化卷积神经网络 多任务学习 数据扩增
下载PDF
弱标签声音事件检测的空间-通道特征表征与自注意池化
6
作者 杨利平 侯振威 +1 位作者 辜小花 郝峻永 《电子学报》 EI CAS CSCD 北大核心 2023年第2期297-306,共10页
深度神经网络声音事件检测方法需要大量标记声音事件类别和起止时间的强标签音频样本,然而强标签标注非常困难和耗时.弱标签声音事件检测是解决这一困难的有效途径.本文将弱标签声音事件检测作为多实例学习问题,并基于卷积循环神经网络... 深度神经网络声音事件检测方法需要大量标记声音事件类别和起止时间的强标签音频样本,然而强标签标注非常困难和耗时.弱标签声音事件检测是解决这一困难的有效途径.本文将弱标签声音事件检测作为多实例学习问题,并基于卷积循环神经网络提出弱标签声音事件检测的空间-通道特征表征与自注意池化方法.该方法研究多实例弱标签声音事件检测的特征表征和帧级预测结果池化两个方面的内容.在特征表征方面,为了增强卷积神经网络的特征表征能力,结合上下文门控和通道注意机制构建门控注意力结构并嵌入到卷积循环神经网络中,实现了音频样本特征的空间和通道特征选择;在预测结果池化方面,引入自注意思想设计音频帧预测结果的自注意池化方法,增强了音频样本中事件帧之间的相关度,使事件帧获得更大的权重.本文方法通过对卷积循环神经网络特征表征和预测结果池化的革新,有效提升了模型的检测性能.本文提出的方法在DCASE 2017任务4和DCASE 2018任务4数据集的评估集中分别取得了52.47%和31.00%的F1得分,性能优于当前绝大部分的弱标签声音事件检测方法.实验结果表明:本文提出的空间-通道特征表征与自注意池化方法能显著改善弱标签声音事件检测的综合性能. 展开更多
关键词 特征表征 自注意池化 卷积循环神经网络 弱标签学习 声音事件检测
下载PDF
融合注意力机制的SimNet声音事件定位与检测算法
7
作者 许春冬 汪雄 闵源 《国外电子测量技术》 北大核心 2023年第8期33-39,共7页
基于深度学习的声音事件定位与检测网络存在输入特征的关键信息丢失的问题,导致声音事件定位与检测更加困难,提出了一种基于注意力机制的简单无参数网络模型(simple and parameter-free network,SimNet)。首先在残差块后引入简单无参注... 基于深度学习的声音事件定位与检测网络存在输入特征的关键信息丢失的问题,导致声音事件定位与检测更加困难,提出了一种基于注意力机制的简单无参数网络模型(simple and parameter-free network,SimNet)。首先在残差块后引入简单无参注意力模块(simple and parameter-free attention module,SimAM),通过能量函数帮助网络聚焦特征图中各神经元的深度特征,以此增强模型对更丰富的特征信息的辨别能力。此外为促进模型朝更精准的方向训练,还采用了一种均方根绝对误差(root mean square absolute error,RMSAE)损失函数,有助于模型准确搜索更全面的空间信息。实验结果表明,在TAU-NIGENS Spatial Sound Events 2021数据集中,提出的网络算法相比原基线网络性能有较大程度的提升,错误率(error rate,ER)和定位误差(localization error,LE)降低到0.394和12.03°,F1分数(F1-score)和定位召回(localization recall,LR)提升到72.6%和73.8%。 展开更多
关键词 声音事件定位与检测 注意力机制 RMSAE 卷积神经网络
下载PDF
基于改进VGG-16网络的交通声音事件分类方法研究
8
作者 徐科 姚凌云 +1 位作者 姚静怡 姚敦辉 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第12期145-156,共12页
交通声音事件分类是提升城市智慧交通系统环境感知能力的关键技术之一.针对传统交通系统的环境声音感知能力弱、效率低、鲁棒性低、可分类数量少等问题,研究了一种基于VGG卷积神经网络的交通声音事件分类方法,该方法使用语谱图(spectrog... 交通声音事件分类是提升城市智慧交通系统环境感知能力的关键技术之一.针对传统交通系统的环境声音感知能力弱、效率低、鲁棒性低、可分类数量少等问题,研究了一种基于VGG卷积神经网络的交通声音事件分类方法,该方法使用语谱图(spectrogram image features,SIF)作为交通声学特征,建立并优化了卷积神经网络(convolutional neural networks,CNN),从而实现交通声音的智能分类.首先,使用实验室采集的10种交通声音,构建了交通声音数据集.其次,利用语谱图方法对交通声音进行声学特征提取,搭建VGG-16分类算法主模型,通过双卷积层融合算法和块间直连通道对网络进行改进,得到了VGG-TSEC网络.该优化网络的交通声音事件分类准确率可达97.18%,与优化前相比准确率提升4.68%,其权重参数降低72.76%,占用空间降低384MB.同时,将该优化模型与K邻近(KNN)、支持向量机(SVM)等机器学习方法进行对比,其准确率分别提高了19.68%和4.41%.结果表明,VGG-TSEC交通声音分类方法可以实现警笛音、事故碰撞、行人尖叫、卡车等交通声音的高效分类,为交通声音事件分类提供参考. 展开更多
关键词 交通声音事件分类 卷积神经网络 交通声音 语谱图特征 深度学习
下载PDF
基于特征融合与Transformer模型的声音事件定位与检测算法研究
9
作者 濮子俊 张寿明 《计算机工程与科学》 CSCD 北大核心 2023年第6期1097-1105,共9页
针对多通道环境声音检测问题,提出了一种引入Transformer结构的特征融合网络模型TBCF-MTNN。该网络模型以对数梅尔谱和广义互相关谱作为输入,首先通过CNN和GRU获取谱的局部特征以及时间上下文关系特征,之后将2种特征图通过Cross-stitch... 针对多通道环境声音检测问题,提出了一种引入Transformer结构的特征融合网络模型TBCF-MTNN。该网络模型以对数梅尔谱和广义互相关谱作为输入,首先通过CNN和GRU获取谱的局部特征以及时间上下文关系特征,之后将2种特征图通过Cross-stitch模块进行融合,有效解决了传统网络中多特征信息无法共享的问题;然后,将融合后的特征图送入Transformer进行特征的再次采集;最终,通过全链接层输出分类和定位结果。在TAU-NIGENS 2020数据集上的实验结果表明,所提出的TBCF-MTNN网络在声音检测任务中的分类错误率能够减小至0.26;在声源定位任务中与Baseline相比较其定位误差减小至4.7°;通过和Baseline、FPN、EIN等模型相比较,结果表明所提网络具有更优的识别检测效果。 展开更多
关键词 声音事件定位与检测 深度学习 Transformer模型 CROSS-STITCH 特征融合
下载PDF
基于改进卷积神经网络的声音事件分类模型 被引量:1
10
作者 王泽雨 王国靖 《信息技术与信息化》 2023年第5期181-184,共4页
声音事件通常发生在非结构化环境中,在这些环境中,它们的频率内容和时间结构都有很大的变化。卷积神经网络(convolutional neural network,CNN)能够提取对局部光谱和时间变化不变的更高层次特征但缺乏时间和频率不变性和时间上下文信息... 声音事件通常发生在非结构化环境中,在这些环境中,它们的频率内容和时间结构都有很大的变化。卷积神经网络(convolutional neural network,CNN)能够提取对局部光谱和时间变化不变的更高层次特征但缺乏时间和频率不变性和时间上下文信息。递归神经网络(recurrent neural networks,RNN)在学习音频信号中的长期时间上下文方面功能强大。基于此,提出了一种将两种方法相结合的卷积递归神经网络模型(convolutional recurrent neural network,CRNN),并将其应用于声音事件检测任务。首先针对已知音频序列提取梅尔倒谱系数(Mel-frequency cepstral coeffi cients,MFCCs),然后将提取到的特征输入到CRNN神经网络进行识别;最后阈值化做出事件活动预测。通过在公开数据集ESC-50和TUT-sound-events-2016-devlopment进行的实验表明,本文提出的模型可以明显提高声音识别分类准确率。 展开更多
关键词 声音事件检测 声音分类 深度神经网络 卷积神经网络 递归神经网络
下载PDF
声音事件检测综述
11
作者 杨烁祯 张珑 +1 位作者 王建华 张恒远 《广西师范大学学报(自然科学版)》 CAS 北大核心 2023年第2期1-18,共18页
声音事件检测技术能够识别出一个音频段中存在的事件类别并标注出各事件的起止时间,在智能城市、医疗监控、野生动物保护等应用场景有巨大潜力,是机器听觉领域的一个重要研究课题。本文从监督学习和半监督学习2个方面对声音事件检测方... 声音事件检测技术能够识别出一个音频段中存在的事件类别并标注出各事件的起止时间,在智能城市、医疗监控、野生动物保护等应用场景有巨大潜力,是机器听觉领域的一个重要研究课题。本文从监督学习和半监督学习2个方面对声音事件检测方法进行综述,汇总和分析现有研究中使用的特征、检测模型及其性能。对于监督学习,重点介绍机器学习方法和深度学习方法。对于半监督学习,总结基于均值教师、协同训练、多尺度卷积和注意力机制等4种有效方法。最后,介绍常用数据集和评价指标,并讨论未来可能的研究方向,包括声音分离预处理、合成数据和真实数据域适应、自注意力模型优化、特征选择和融合、流式系统建模等问题。 展开更多
关键词 声音事件检测 机器学习 深度学习 神经网络 监督学习 半监督学习
下载PDF
基于特征分析的环境声音事件识别算法 被引量:14
12
作者 刘波霞 陈建峰 《计算机工程》 CAS CSCD 北大核心 2011年第22期261-263,267,共4页
对于环境声音事件,传统语音识别算法的识别效率低、稳定性差。为此,提出一种基于特征分析的环境声音事件识别算法。定义环境声音事件,分析常用的声音特征,不使用分类模型,仅利用特征对4种典型的环境声音事件进行分类。实验证明,该算法... 对于环境声音事件,传统语音识别算法的识别效率低、稳定性差。为此,提出一种基于特征分析的环境声音事件识别算法。定义环境声音事件,分析常用的声音特征,不使用分类模型,仅利用特征对4种典型的环境声音事件进行分类。实验证明,该算法在识别率和稳定性上都优于传统识别算法,能够完成分类任务。 展开更多
关键词 环境声音事件 特征分析 识别算法 MATLAB仿真
下载PDF
基于优化的正交匹配追踪声音事件识别 被引量:8
13
作者 李应 陈秋菊 《电子与信息学报》 EI CSCD 北大核心 2017年第1期183-190,共8页
针对各种环境声对声音事件识别的影响,该文提出一种基于优化的正交匹配追踪(Orthogonal Matching Pursuit,OMP)声音事件识别方法。首先,利用OMP稀疏分解并重构声音信号,保留声音信号的主体部分,减小噪声的影响。其中,使用粒子群(Particl... 针对各种环境声对声音事件识别的影响,该文提出一种基于优化的正交匹配追踪(Orthogonal Matching Pursuit,OMP)声音事件识别方法。首先,利用OMP稀疏分解并重构声音信号,保留声音信号的主体部分,减小噪声的影响。其中,使用粒子群(Particle Swarm Optimization,PSO)算法优化搜索最优原子,实现OMP的快速稀疏分解。接着,对重构声音信号提取Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs),与OMP时-频特征和基频(PITCH)特征,组成优化OMP的复合特征。最后,通过优化OMP复合特征,使用随机森林(Random Forests,RF)对40种声音事件在不同环境不同信噪比下进行识别。实验结果表明,优化OMP复合特征结合RF的方法能有效地识别各种环境下的声音事件。 展开更多
关键词 声音事件识别 正交匹配追踪 稀疏分解 粒子群优化 随机森林
下载PDF
基于多随机森林的低信噪比声音事件检测 被引量:5
14
作者 李应 印佳丽 《电子学报》 EI CAS CSCD 北大核心 2018年第11期2705-2713,共9页
论文针对各种背景声音中低信噪比声音事件的检测问题,提出把背景声音与声音事件混合,形成带噪声样本来训练分类器.在预处理阶段,使用基于经验模态分解与2-6级固有模态函数的投票方法,对背景声音与声音事件端点进行预测并估算信噪比.接... 论文针对各种背景声音中低信噪比声音事件的检测问题,提出把背景声音与声音事件混合,形成带噪声样本来训练分类器.在预处理阶段,使用基于经验模态分解与2-6级固有模态函数的投票方法,对背景声音与声音事件端点进行预测并估算信噪比.接着使用子带能量分布方法,提取声音数据的特征.最后,论文将背景声音与声音事件样本库中所有声音样本按照估算的信噪比相混合,生成混合声音特征训练多随机森林,用于低信噪比声音事件的检测.实验证实,所提出的方法可以用于各种声场景下低信噪比声音事件的检测,并能在信噪比为-5dB的情况下保持67. 1%的平均检测率. 展开更多
关键词 声音事件检测 信噪比 经验模态分解 子带能量分布 随机森林
下载PDF
音频标记一致性约束CRNN声音事件检测 被引量:4
15
作者 杨利平 郝峻永 +1 位作者 辜小花 侯振威 《电子与信息学报》 EI CSCD 北大核心 2022年第3期1102-1110,共9页
级联卷积神经网络(CNN)结构和循环神经网络(RNN)结构的卷积循环神经网络(CRNN)及其改进是当前主流的声音事件检测模型。然而,以端到端方式训练的CRNN声音事件检测模型无法从功能上约束CNN和RNN结构的作用。针对这一问题,该文提出了音频... 级联卷积神经网络(CNN)结构和循环神经网络(RNN)结构的卷积循环神经网络(CRNN)及其改进是当前主流的声音事件检测模型。然而,以端到端方式训练的CRNN声音事件检测模型无法从功能上约束CNN和RNN结构的作用。针对这一问题,该文提出了音频标记一致性约束CRNN声音事件检测方法(ATCC-CRNN)。该方法在CRNN模型的声音事件分类网络中添加了CRNN音频标记分支,同时增加了CNN音频标记网络对CRNN网络CNN结构输出的特征图进行音频标记。然后,通过在模型训练阶段限定CNN和CRNN的音频标记预测结果一致使CRNN模型的CNN结构更关注音频标记任务,RNN结构更关注建立音频样本的帧间关系。从而使CRNN模型的CNN和RNN结构具备了不同的特征描述功能。该文在IEEE DCASE 2019国际竞赛家庭环境声音事件检测任务(任务4)的数据集上进行了实验。实验结果显示:提出的ATCC-CRNN方法显著提高了CRNN模型的声音事件检测性能,在验证集和评估集上的F1得分提高了3.7%以上。这表明提出的ATCC-CRNN方法促进了CRNN模型的功能划分,有效改善了CRNN声音事件检测模型的泛化能力。 展开更多
关键词 声音事件检测 音频标记 深度学习 卷积循环神经网络
下载PDF
用多频带能量分布检测低信噪比声音事件 被引量:3
16
作者 李应 吴灵菲 《电子与信息学报》 EI CSCD 北大核心 2018年第12期2905-2912,共8页
该文针对低信噪比噪声环境下的声音事件检测问题,提出基于多频带能量分布图离散余弦变换的声音事件检测的方法。首先,将声音数据转化为gammatone频谱,并计算其多频带能量分布;接着,对多频带能量分布图进行8×8分块与离散余弦变换;然... 该文针对低信噪比噪声环境下的声音事件检测问题,提出基于多频带能量分布图离散余弦变换的声音事件检测的方法。首先,将声音数据转化为gammatone频谱,并计算其多频带能量分布;接着,对多频带能量分布图进行8×8分块与离散余弦变换;然后,对8×8的离散余弦变换系数进行Zigzag扫描,抽取离散余弦变换系数的主要系数作为声音事件的特征;最后,利用随机森林分类器对特征建模与检测。实验结果表明,在低信噪比及各种噪声环境下,该文提出的方法具有良好的检测效果。 展开更多
关键词 声音事件检测 多频带能量分布 随机森林 离散余弦变换
下载PDF
基于平均教师模型的弱标记半监督声音事件检测
17
作者 王金甲 杨倩 +1 位作者 崔琳 纪绍男 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2020年第5期540-550,共11页
为了利用大量不平衡和未标记数据,采用一致性正则化思想的平均教师模型用于弱标记半监督声音事件检测,可有效减少半监督学习中的过拟合问题.在教师模型的权重更新过程中,首次提出将随机加权平均算法(SWA)用于声音事件检测,可以加快预测... 为了利用大量不平衡和未标记数据,采用一致性正则化思想的平均教师模型用于弱标记半监督声音事件检测,可有效减少半监督学习中的过拟合问题.在教师模型的权重更新过程中,首次提出将随机加权平均算法(SWA)用于声音事件检测,可以加快预测速度并且节约成本.针对模型的架构问题,采用改进的门控卷积长短时记忆网络(GCLSTM)作为学生模型和教师模型,其中全局加权秩池化层可以克服平均池化和最大池化对声音事件的低估和高估的限制,有效地提高系统的性能.在对数据进行特征提取过程中,采用SpecAugment策略对语谱图进行增强,从而有效地解决过拟合问题.为了评估实验方法,在声学场景和事件的检测及分类(DCASE)2018挑战任务4数据集上进行测试,结果表明:评估集的平均F1分数可达24.9%,明显优于基线系统和其他方法的F1分数. 展开更多
关键词 声音事件检测 弱标记半监督 平均教师模型 随机加权平均 数据增强
下载PDF
基于改进池化层的弱标记声音事件检测 被引量:4
18
作者 刘淼 王晶 +1 位作者 董桂官 易伟明 《信号处理》 CSCD 北大核心 2021年第10期1907-1913,共7页
针对DCASE2017挑战赛任务4提供的大规模弱标记声音事件检测数据集,我们搭建了基于梅尔滤波器特征(Fbank)、卷积神经网络(CNN)以及循环神经网络(RNN)的多类别声音事件检测系统,分析了attention和linear softmax两种已有的常用池化层在神... 针对DCASE2017挑战赛任务4提供的大规模弱标记声音事件检测数据集,我们搭建了基于梅尔滤波器特征(Fbank)、卷积神经网络(CNN)以及循环神经网络(RNN)的多类别声音事件检测系统,分析了attention和linear softmax两种已有的常用池化层在神经网络反向传播中的部分推演过程,并在linear softmax池化层的基础上进行改进,提出了一种"指数可学习的幂函数softmax"池化层。实验结果表明,相比于DCASE竞赛中获得第一名的模型,应用"指数可学习的幂函数softmax"池化层的检测系统,将段级别的声音事件预测的F1值从0.556提高到0.652,帧级别预测的F1值从0.518提高到0.583,帧级别预测的error rate(ER)从0.730降低到0.667。 展开更多
关键词 弱标记 声音事件检测 池化层 指数可学习的幂函数softmax
下载PDF
环境辅助的多任务混合声音事件检测方法 被引量:1
19
作者 高利剑 毛启容 《计算机科学》 CSCD 北大核心 2020年第1期159-164,共6页
在混合声音事件检测任务中,不同事件的声音信号相互混杂,从混合语音信号中提取的全局特征无法很好地表达每种单独的事件,导致当声音事件数量增加或者环境变化时,声音事件检测性能急剧下降。目前已存在的方法尚未考虑环境变化对检测性能... 在混合声音事件检测任务中,不同事件的声音信号相互混杂,从混合语音信号中提取的全局特征无法很好地表达每种单独的事件,导致当声音事件数量增加或者环境变化时,声音事件检测性能急剧下降。目前已存在的方法尚未考虑环境变化对检测性能的影响。鉴于此,文中提出了一种基于多任务学习的环境辅助的声音事件检测模型(Environment-Assisted Multi-Task,EAMT),该模型主要包含场景分类器和事件检测器两大核心部分,其中场景分类器用于学习环境上下文特征,该特征作为事件检测的额外信息与声音事件特征融合,并通过多任务学习方式来辅助声音事件检测,以此提高模型对环境变化的鲁棒性及多目标事件检测的性能。基于声音事件检测领域的主流公开数据集Freesound以及通用性能评估指标F1分数,将所提模型与基准模型(Deep Neural Network,DNN)及主流模型(Convolutional Recurrent Neural Network,CRNN)进行对比,共设置了3组对比实验。实验结果表明:1)相比单一任务的模型,基于多任务学习的EAMT模型的场景分类效果和事件检测性能均有所提升,且环境上下文特征的引入进一步提升了声音事件检测的性能;2)EAMT模型对环境变化具有更强的鲁棒性,在环境发生变化时,EAMT模型事件检测的F1分数高出其他模型2%~5%;3)在目标声音事件数量增加时,相比其他模型,EAMT模型的表现依旧突出,在F1指标上取得了2%~10%的提升。 展开更多
关键词 声音事件检测 环境辅助 多任务学习 特征融合 环境鲁棒性
下载PDF
N-DenseNet的城市声音事件分类模型 被引量:6
20
作者 曹毅 黄子龙 +2 位作者 张威 刘晨 李巍 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2019年第6期9-16,94,共9页
针对城市声音事件分类领域中现有模型分类准确率不高、泛化能力不强的问题,提出了一种N阶密集卷积神经网络的城市声音事件分类模型。首先,介绍了密集卷积神经网络的结构;其次,基于N阶马尔可夫模型将密集连接改进为N阶有关连接;然后,结... 针对城市声音事件分类领域中现有模型分类准确率不高、泛化能力不强的问题,提出了一种N阶密集卷积神经网络的城市声音事件分类模型。首先,介绍了密集卷积神经网络的结构;其次,基于N阶马尔可夫模型将密集连接改进为N阶有关连接;然后,结合两者提出了一种更适合音频分类的模型--N阶密集卷积神经网络。该模型在避免梯度消失的前提下,有针对性、规律性减少了特征图层之间的连接,更高效地融合了前N特征图层的信息,使得模型的收敛速度更快;最后,为了验证该模型,采用N阶密集卷积神经网络的一阶、二阶子模型,基于UrbanSound8K和Dcase2016数据集开展了城市声音事件分类研究。研究结果表明,其模型准确率分别为83.63%、81.03%,验证了该模型具有良好的分类准确率和泛化能力。 展开更多
关键词 声音事件分类 密集卷积神经网络 N阶马尔可夫模型 N阶密集卷积神经网络
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部