期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
基于Mel声谱图与改进SEResNet的鱼类行为识别 被引量:2
1
作者 杨雨欣 于红 +3 位作者 杨宗轶 涂万 张鑫 林远山 《渔业现代化》 CSCD 北大核心 2024年第1期56-63,共8页
养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造... 养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的Mel声谱图以捕捉鱼类声音的频谱特征。其次针对鱼类声音特征关键信息易丢失的难题,提出在SEResNet模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高识别准确率。为验证所提模型的有效性,分别设计了消融试验和模型性能对比试验,试验结果显示:TAP-SEResNet相比SEResNet在不降低检测速度的条件下准确率提升了3.23%;相比PANNS-CNN14、ECAPA-TDNN及MFCC+ResNet等先进声音识别模型,TAP-SEResNet在准确率上分别提升了5.32%、2.80%和1.64%。所提模型有助于养殖过程中对鱼类行为实现精准监测,对精准养殖具有重要的推动作用。 展开更多
关键词 鱼类行为识别 被动水声信号 mel声谱图 SEResNet
下载PDF
基于Mel-GADF与ConvNeXt-T的变压器铁心松动故障诊断方法
2
作者 万可力 马宏忠 +1 位作者 崔佳嘉 王健 《电力自动化设备》 EI CSCD 北大核心 2024年第3期217-224,共8页
为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经... 为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经过格拉姆角场(GAF)变换得到格拉姆角和场(GASF)与GADF这2种时频谱图;生成Mel-GASF与Mel-GADF这2种特征融合的时频谱图来弥补Mel时频谱图的低频缺失问题;将3种时频谱图放入ConvNeXt-T网络进行训练对比,选出效果最佳的诊断模型。以型号为S13-M-200/10的变压器为对象进行空载试验,对不同铁心松动程度下的声纹信号进行分析,分析结果表明,将Mel-GADF作为特征时频谱图结合ConvNeXt-T网络,可将测试集准确率从传统Mel时频谱图的98.273%提升至99.500%,提升了1.227个百分点。 展开更多
关键词 变压器 铁心松动 mel时频谱图 格拉姆角场 卷积神经网络 迁移学习
下载PDF
基于Mel频谱图和CNN的电网涉鸟故障鸟声识别 被引量:7
3
作者 邱志斌 卢祖文 +1 位作者 王海祥 况燕军 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第2期129-136,共8页
为了提高电网渉鸟故障防治的针对性,提出了一种基于Mel频谱图和卷积神经网络(CNN)的鸟声识别方法。建立常见渉鸟故障对应的40类代表性鸟种的鸣声样本集,对鸟鸣信号进行分帧、加窗与降噪等预处理,计算每帧信号在各个Mel滤波器中的能量,... 为了提高电网渉鸟故障防治的针对性,提出了一种基于Mel频谱图和卷积神经网络(CNN)的鸟声识别方法。建立常见渉鸟故障对应的40类代表性鸟种的鸣声样本集,对鸟鸣信号进行分帧、加窗与降噪等预处理,计算每帧信号在各个Mel滤波器中的能量,根据能量大小与颜色深浅的映射关系提取鸟鸣信号的Mel频谱图。以电网涉鸟故障相关鸟种的Mel频谱图作为输入,通过CNN反复执行卷积-池化过程提取Mel频谱图特征,并进行多次迭代训练调整网络内部参数,得到最优模型用于鸟种识别。算例结果表明,40类鸟种的识别准确率达96.1%,识别效果优于其他迁移学习模型。文中研究结果可为输电线路运维人员正确识别相关鸟种、开展渉鸟故障差异化防治提供参考。 展开更多
关键词 输电线路 涉鸟故障 鸟种识别 mel频谱图 降噪 卷积神经网络
下载PDF
基于变压器声纹Mel语谱图-ResNet的铁心松动故障诊断 被引量:6
4
作者 何萍 李勇 +3 位作者 陈寿龙 许洪华 朱雷 王凌燕 《电机与控制应用》 2022年第9期75-80,共6页
为实现变压器铁心松动故障的识别,提出基于变压器声纹的ResNet卷积神经网络(CNN)用作铁心松动故障的识别,分别比较了相同卷积神经网络ResNet在交叉熵损失函数(SE-ResNet-Dense)和特征表达的角度空间中最大化分类界限的加性角度裕度损失... 为实现变压器铁心松动故障的识别,提出基于变压器声纹的ResNet卷积神经网络(CNN)用作铁心松动故障的识别,分别比较了相同卷积神经网络ResNet在交叉熵损失函数(SE-ResNet-Dense)和特征表达的角度空间中最大化分类界限的加性角度裕度损失函数(SE-ResNet-ArcLoss)不同表现效果。通过变压器空载试验采集变压器铁心在额定预紧力、松动20%、松动40%时的噪声信号,通过离散傅里叶变换将采集的声纹信号生成时频矩阵,并使用Mel滤波器对时频矩阵降维生成尺寸大大缩小的Mel-语谱图。将采集的噪声信号制作成数据集后输入到两种模型中训练,最终测试集在模型SE-ResNet-Dense上的预测结果为90.753%,在模型SE-ResNet-ArcLoss上的预测结果为97.541%。结果验证SE-ResNet-ArcLoss最适用于变压器铁心松动故障识别。 展开更多
关键词 变压器声纹 铁心松动故障 mel语谱图 卷积神经网络 故障识别
下载PDF
基于LPDMR-NET的鸟鸣声识别
5
作者 王娅茹 唐璐 +2 位作者 陈爱斌 彭伟雄 沈平 《计算机工程》 CAS CSCD 北大核心 2024年第10期174-184,共11页
为了高效且快速地识别自然环境中的鸟鸣声,提出一种基于轻量级逐点深度的多感受野注意力残差网络(LPDMR-NET)模型。首先,通过Mel滤波器生成Mel频谱图。接着,采用basicblock和downblock连接生成两层残差网络DBNet,堆叠DBNet作为鸟鸣声识... 为了高效且快速地识别自然环境中的鸟鸣声,提出一种基于轻量级逐点深度的多感受野注意力残差网络(LPDMR-NET)模型。首先,通过Mel滤波器生成Mel频谱图。接着,采用basicblock和downblock连接生成两层残差网络DBNet,堆叠DBNet作为鸟鸣声识别的主干网络,以提高训练速度。然后,利用逐点深度卷积网络(PDNet)提取频谱图特征信息,替代主干网络下采样模块,将两个残差模块的basicblock中的3×3卷积替换为分离分支块(DBB),引入不同的感受野,在复杂多分支结构下显著提高网络的识别性能。最后,在两个残差模块间嵌入轻量级高效置换注意力(SA)模块用于传递两层残差模块间的有效信息,增强频谱图波纹特征,进一步提高网络识别性能。在自建的30类鸟鸣声数据集Birdselfdata上的实验结果表明,该模型的识别准确率为96.82%、F1值为96.73%,在识别效率和准确性方面超越了对比模型。 展开更多
关键词 卷积神经网络 鸟鸣声分类 深度学习 mel频谱图 残差网络 深度可分离卷积
下载PDF
基于Vision Transformer和迁移学习的家庭领域哭声识别
6
作者 王汝旭 王荣燕 +2 位作者 曾科 杨传德 刘超 《智能计算机与应用》 2024年第6期119-126,共8页
针对SVM等传统机器学习算法准确率低和当前使用CNN处理家庭领域哭声识别在不同婴儿间出现泛化能力差的问题,提出了一种基于Vision Transformer和迁移学习的婴儿哭声音频分类算法。首先,为实现数据集样本的扩增,采用了包括梅尔频谱转换... 针对SVM等传统机器学习算法准确率低和当前使用CNN处理家庭领域哭声识别在不同婴儿间出现泛化能力差的问题,提出了一种基于Vision Transformer和迁移学习的婴儿哭声音频分类算法。首先,为实现数据集样本的扩增,采用了包括梅尔频谱转换和数据增强的数据预处理技术,进而达到了增强模型鲁棒性的目的。而后,在微调后的Vision Transformer模型上进行迁移学习训练,同时,训练过程中利用了LookAhead优化器来不断调整模型参数以避免过拟合,最终实验实现了对婴儿哭声音频的自动分类。实验结果表明,本实验模型相比其他深度学习模型具有更高的精确率和更快的收敛速度,同时还能有效地学习到婴儿哭声中更具区分性的特征。可以在新生儿监护、听力筛查和异常检测等领域中发挥重要作用。 展开更多
关键词 Vision Transformer模型 婴儿哭声 迁移学习 梅尔频谱图 LOOKAHEAD
下载PDF
基于轻量级卷积神经网络的车辆声学识别
7
作者 封慧杰 赵红东 +1 位作者 于快快 刘赫 《传感器与微系统》 CSCD 北大核心 2024年第7期136-140,共5页
车型识别技术对交通监测具有重要意义。针对行驶中车辆的视觉信息易受环境干扰等问题,提出了一种基于ShuffleNet V2的车辆声学特征识别模型S-ShuffleNet,包含对ShuffleNet V2网络深度的缩减以及深度可分离卷积(DSC)中卷积(Conv)核大小... 车型识别技术对交通监测具有重要意义。针对行驶中车辆的视觉信息易受环境干扰等问题,提出了一种基于ShuffleNet V2的车辆声学特征识别模型S-ShuffleNet,包含对ShuffleNet V2网络深度的缩减以及深度可分离卷积(DSC)中卷积(Conv)核大小的改进,通过提取车辆声信号的对数—梅尔谱图(LMS)特征作为该模型的输入,进行车型识别。同时,将风、雨、雷暴噪声叠加在车辆音频上,以验证不同环境噪声的影响。实验结果表明:该模型参数量少、训练速度快,在VS10数据集上识别精度比基础网络ShuffleNet V2提高2.4%,识别准确率可达97.5%,与不同分类网络相比,S-ShuffleNet也具有良好性能。 展开更多
关键词 车型识别 声学特征 对数梅尔谱图 轻量级 卷积神经网络 环境噪声
下载PDF
基于子音节表征的苗语语音合成方法
8
作者 蔡姗 王林 +3 位作者 谭棉 郭胜 吴磊 王飞 《科学技术与工程》 北大核心 2024年第19期8176-8185,共10页
少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发... 少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发音信息,以区分学习不同音节间的相似发音。根据文本序列和梅尔谱图之间对齐的单调性,引入单调对齐损失来指导注意力模块进行更准确的对齐学习,以减少因注意力机制的自回归性带来的跳词、重复等合成现象。为验证所提方法的有效性,以自建苗语语音合成语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的语音合成方法进行对比实验。实验结果表明,所提方法能够降低不同声调的相同词发音相似时导致的合成错误率,词错误率仅为0.96%,较基线方法改善了6.25%。 展开更多
关键词 苗语语音合成 子音节 单调对齐 语料库 梅尔谱图
下载PDF
基于幅值滤波与分层特征融合策略的语音情感识别
9
作者 喻永振 刘大明 《国外电子测量技术》 2024年第3期35-42,共8页
针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图... 针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图内的高频强增益、低频弱增益;同时,通过概率相乘缩小梅尔谱图内相远幅值之间的差异,以显示谱图内中频的细节部分。在此基础上,使用矩形卷积提取音频信号的时间动态特征,生成梅尔谱图动态特征图,并将其作为分层特征融合策略的输入。分层特征融合策略通过压缩特征图来提取不同尺度的时间动态特征,并提取不同深度中的时间动态特征。在多语言联合数据集CER上取得了84.44%的分类准确率。 展开更多
关键词 语音情感识别 幅值滤波 分层特征融合策略 梅尔谱图动态特征图
下载PDF
应用无监督最大互信息算法分类鸟类叫声
10
作者 潘婕 《福建电脑》 2024年第2期67-69,共3页
在建立鸟类叫声的分类模型时,由于自然界中具有准确标签的鸟类叫声数据较少,因此需要解决小样本下的模型训练问题。本文研究应用最大互信息的无监督网络来对鸟类叫声进行分类。通过同时提取梅尔图谱的高层语义特征和浅层特征并计算互信... 在建立鸟类叫声的分类模型时,由于自然界中具有准确标签的鸟类叫声数据较少,因此需要解决小样本下的模型训练问题。本文研究应用最大互信息的无监督网络来对鸟类叫声进行分类。通过同时提取梅尔图谱的高层语义特征和浅层特征并计算互信息,减少噪声特征的提取。训练时使用对抗样本,利用先验约束网络拉大不同类别之间的距离,降低模型对数据的依赖。实验证明,与现有无监督方法相比,利用最大互信息方法的无监督学习能够在鸟类叫声分类任务上取得最好的效果。 展开更多
关键词 最大互信息 无监督学习 梅尔图谱 鸟类叫声分类
下载PDF
采用混合域注意力机制的无人机识别方法 被引量:7
11
作者 薛珊 卫立炜 +1 位作者 顾宸瑜 吕琼莹 《西安交通大学学报》 EI CAS CSCD 北大核心 2022年第10期141-150,共10页
针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(... 针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(ECSANet)的无人机识别方法。首先,建立民用的9大类无人机声音数据集,提取数据集的对数梅尔谱图及其动态特征;其次,为了网络参数量少,避免过拟合,设计了基于分组卷积、通道混洗和残差结构的通道混洗多尺度分组卷积网络(MSSGNet);然后,为了能更多、更有效地提取无人机声音特征,设计了通道空间混合域注意力机制模块(ECSA);最后,将ECSA模块插入MSSGNet网络构成改进的通道空间混合域注意力机制的多尺度分组卷积网络(ECSANet),形成新型声音识别无人机的方法。运用设计的ECSANet网络对自建的民用无人机声音数据集和Urbansound8K环境声音数据集进行了声音识别,识别结果表明:与ResNet18、ResNet34、ResNeXt18和MobileNetV2等基准网络相比,MSSGNet网络参数更少,识别准确率更高,达到了95.1%;ECSA模块可以插入多种网络,在不增加很多参数的情况下令网络模型的识别准确率获得提升,在无人机等声音分类任务上具有很好的效果;与MSSGNet网络相比,改进的ECSANet网络识别准确率能达到95.9%,提高了0.8%,表明了该网络在识别小样本无人机方面的优越性和可行性。 展开更多
关键词 无人机 声音识别 对数梅尔谱图 神经网络 混合域注意力机制
下载PDF
基于稀疏轻量卷积神经网络的管道泄漏检测 被引量:5
12
作者 刘杰 朱正伟 《电子测量技术》 北大核心 2022年第19期131-135,共5页
针对传统供水管网泄漏检测问题,本文提出了一种基于稀疏轻量卷积神经网络的管道泄漏检测算法。首先通过声音传感器采集管道泄漏的声音信号,经过立体声转换、重采样、长度对齐等预处理操作后,将其转换成梅尔频谱图。然后,构建一种稀疏轻... 针对传统供水管网泄漏检测问题,本文提出了一种基于稀疏轻量卷积神经网络的管道泄漏检测算法。首先通过声音传感器采集管道泄漏的声音信号,经过立体声转换、重采样、长度对齐等预处理操作后,将其转换成梅尔频谱图。然后,构建一种稀疏轻量化的卷积神经网络模型来对梅尔频谱图进行特征抽取和泄漏检测。针对声音特征图的稀疏和时延性质,本文采用Inception网络结构来进行提高模型的特征抽取能力。此外,因为该模型需要被部署到边缘侧,因此设计了一种基于SqueezeNet的轻量化卷积神经网络模型来减少模型的参数,降低模型复杂度。实验结果表明,提出的管道泄漏检测算法在保证复杂度较低的同时具有较高的识别准确率。 展开更多
关键词 管道泄漏检测 卷积神经网络 梅尔频谱图 稀疏特征
下载PDF
鸟鸣叫声特征提取方法的研究 被引量:3
13
作者 伟利国 张小超 吴文彪 《辽宁师范大学学报(自然科学版)》 CAS 2010年第1期108-111,共4页
鸟鸣叫声的研究和分析方法对开展鸟类学工作有极其重要的作用.通过对鸟鸣叫声进行功率谱分析、声谱分析、Mel倒谱分析和主成分分析,从而对鸟鸣叫声特征参数进行提取,为鸟鸣叫声的个体识别以及鸣叫声与鸟类行为的关系研究提供了有力的技... 鸟鸣叫声的研究和分析方法对开展鸟类学工作有极其重要的作用.通过对鸟鸣叫声进行功率谱分析、声谱分析、Mel倒谱分析和主成分分析,从而对鸟鸣叫声特征参数进行提取,为鸟鸣叫声的个体识别以及鸣叫声与鸟类行为的关系研究提供了有力的技术支持. 展开更多
关键词 鸟鸣声 声谱 mel倒谱 主成分分析
下载PDF
基于改进残差网络的低空无人机声音识别方法 被引量:3
14
作者 薛珊 卫立炜 +2 位作者 顾宸瑜 孟宪宇 贾冰 《长春理工大学学报(自然科学版)》 2022年第4期100-107,共8页
“黑飞”无人机的泛滥给人们的生活带来了极大威胁。抵制“黑飞”无人机的首要任务是识别它。针对低空无人机识别问题,设计了一种基于改进残差网络的无人机声音识别方法。首先,采集低空无人机声音数据并进行预处理,建立数据集;其次,研... “黑飞”无人机的泛滥给人们的生活带来了极大威胁。抵制“黑飞”无人机的首要任务是识别它。针对低空无人机识别问题,设计了一种基于改进残差网络的无人机声音识别方法。首先,采集低空无人机声音数据并进行预处理,建立数据集;其次,研究并比较了梅尔频率倒谱系数(MFCC)、对数梅尔谱图(Log-Mel)及其一阶差分等音频特征;然后,设计了基于残差块改进的神经网络(IRBNet);最后,运用设计的IRBNet以及CNN-1、CNN-2、ResNet和IRBNet-1等基准网络对无人机进行识别实验。实验结果表明,IRBNet的识别准确率为97.45%,与其他基准网络相比,准确率更高;设计的IRBNet具有识别无人机的可行性和有效性。 展开更多
关键词 无人机 声音识别 特征提取 对数梅尔谱图 卷积神经网络
下载PDF
基于多模态特征的音乐情感多任务识别研究 被引量:4
15
作者 王昊 刘渊晨 +1 位作者 赵萌 裘靖文 《现代情报》 CSSCI 2022年第11期61-75,共15页
[目的/意义]情感是目前在线音乐平台常用的资源组织与检索方式之一,利用特征融合对歌单、歌曲的情感分类进行探索研究,能够优化音乐资源的管理与利用效果,更好地满足网民对音乐文化生活的需求。[方法/过程]本文引入Hevner音乐情感模型... [目的/意义]情感是目前在线音乐平台常用的资源组织与检索方式之一,利用特征融合对歌单、歌曲的情感分类进行探索研究,能够优化音乐资源的管理与利用效果,更好地满足网民对音乐文化生活的需求。[方法/过程]本文引入Hevner音乐情感模型构建情感词典,利用词典信息、歌单名称、歌单介绍对大粒度歌单情感进行分类;通过预训练模型语义表示、音频信号处理等方法,融合歌词与音频多模态特征对小粒度歌曲情感进行识别。[结果/结论]情感词典的引入有效提升歌单情感分类精度,人工预处理能够帮助算法更好地学习数据特征;歌曲的文本与音频中均含有丰富的情感信息,多模态融合模型在歌曲情感识别中表现最优。 展开更多
关键词 网易云音乐 歌单情感分类 音乐情感分类 梅尔声谱图 多模态融合
下载PDF
CNN-XGBoost混合模型在音频场景分类中的应用 被引量:2
16
作者 杨立东 胡江涛 张壮壮 《小型微型计算机系统》 CSCD 北大核心 2021年第1期213-217,共5页
在拥有海量数据和强大计算能力的人工智能时代,音频场景分类成为了场景理解的重要研究内容之一.针对音频场景分类建模困难和精确率不高的问题,本文提出一种基于卷积神经网络和极端梯度提升算法相结合的系统模型.首先,将预处理后的音频... 在拥有海量数据和强大计算能力的人工智能时代,音频场景分类成为了场景理解的重要研究内容之一.针对音频场景分类建模困难和精确率不高的问题,本文提出一种基于卷积神经网络和极端梯度提升算法相结合的系统模型.首先,将预处理后的音频信号转换成梅尔声谱图,然后输入到卷积神经网络中完成抽象特征提取,最后利用极端梯度提升算法进行分类.为了评估模型的有效性,在城市音频场景UrbanSound8K数据集上进行分类性能测试,结果表明,该混合算法模型对音频场景的分类精确率可以达到89%,优于传统的神经网络算法模型,说明该混合模型对音频场景分类问题的有效性. 展开更多
关键词 音频场景分类 卷积神经网络 极端梯度提升 梅尔声谱图
下载PDF
基于改进Inception网络的语音分类模型 被引量:2
17
作者 张秋余 王煜坤 《计算机应用》 CSCD 北大核心 2023年第3期909-915,共7页
针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,... 针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,使网络模型在加深的同时避免梯度消失;其次,优化Inception模块中的卷积核大小,并利用不同尺寸卷积对原始语音的Log-Mel谱图进行深度特征提取,使模型通过自主学习的方式选择合适的卷积处理数据;同时,在深度与宽度两个维度改进模型以提高分类精度;最后,利用训练好的网络模型对语音数据进行分类预测,并通过Softmax函数得到分类结果。在清华大学汉语语音数据集THCHS-30与环境声音数据集UrbanSound8K数据集上的实验结果表明,改进的Inception网络模型在上述两个数据集上分类准确率分别为92.76%与93.34%。相较于VGG16、InceptionV2、GoogLeNet等模型,所提模型的分类准确率取得了最优,最多提高了27.30个百分点。所提模型具有更强的特征融合能力和更准确的分类结果,能够解决过拟合、梯度消失等问题。 展开更多
关键词 语音分类 卷积神经网络 残差跳连 对数梅尔谱图 深度特征
下载PDF
基于频谱增强和卷积宽度学习的音乐流派分类 被引量:1
18
作者 刘万军 李雨萌 曲海成 《计算机系统应用》 2023年第10期85-95,共11页
针对频谱图对于音乐特征挖掘较弱、深度学习分类模型复杂且训练时间长的问题,设计了一种基于频谱增强和卷积宽度学习(CNNBLS)的音乐流派分类模型.该模型首先通过SpecAugment中随机屏蔽部分频率信道的方法增强梅尔频谱图,再将切割后的梅... 针对频谱图对于音乐特征挖掘较弱、深度学习分类模型复杂且训练时间长的问题,设计了一种基于频谱增强和卷积宽度学习(CNNBLS)的音乐流派分类模型.该模型首先通过SpecAugment中随机屏蔽部分频率信道的方法增强梅尔频谱图,再将切割后的梅尔频谱图作为CNNBLS的输入,同时将指数线性单元函数(ELU)融合进CNNBLS的卷积层,以增强其分类精度.相较于其他机器学习网络框架,CNNBLS能用少量的训练时间获得较高的分类精度.此外,CNNBLS可以对增量数据进行快速学习.实验结果表明:无增量模型CNNBLS在训练400首音乐数据可获得90.06%的分类准确率,增量模型Incremental-CNNBLS在增加400首训练数据后可达91.53%的分类准确率. 展开更多
关键词 梅尔频谱 宽度学习 语音增强 音乐流派分类 指数线性单元函数(ELU)
下载PDF
基于声信号分析的开关柜局部放电检测算法研究 被引量:14
19
作者 唐云辉 胡曦琳 《电子器件》 CAS 北大核心 2018年第3期644-648,共5页
有效检测高压开关柜故障是影响电网安全的因素之一。早期基于超声波检测的方法,存在设备昂贵,有效检测范围小的问题。为此,提出一种基于语谱特征的开关柜局部放电检测算法。算法首先计算放电声信号的语谱图,然后计算其2阶归一化中心矩;... 有效检测高压开关柜故障是影响电网安全的因素之一。早期基于超声波检测的方法,存在设备昂贵,有效检测范围小的问题。为此,提出一种基于语谱特征的开关柜局部放电检测算法。算法首先计算放电声信号的语谱图,然后计算其2阶归一化中心矩;并以此为特征,构建自编码深度学习网络,并通过稀疏化处理提高模型的识别能力。在开关柜局部放电检测实验中,所提的语谱特征有助于改善故障检测效率。相比于基于美尔倒谱特征的算法,放电检测识别率提高2.5%。结合深度学习网络算法后,识别率能达到99.8%。 展开更多
关键词 局部放电 语谱图 深度学习网络 美尔倒谱特征
下载PDF
基于频谱空间域特征注意的音乐流派分类算法
20
作者 刘万军 王佳铭 +2 位作者 曲海成 董利兵 曹欣宇 《计算机应用》 CSCD 北大核心 2022年第7期2072-2077,共6页
为了提升深度卷积神经网络对音乐频谱流派特征的提取效果,提出一种基于频谱空间域特征注意的音乐流派分类算法模型DCNN-SSA。DCNN-SSA模型通过对不同音乐梅尔谱图的流派特征在空间域上进行有效标注,并且改变网络结构,从而在提升特征提... 为了提升深度卷积神经网络对音乐频谱流派特征的提取效果,提出一种基于频谱空间域特征注意的音乐流派分类算法模型DCNN-SSA。DCNN-SSA模型通过对不同音乐梅尔谱图的流派特征在空间域上进行有效标注,并且改变网络结构,从而在提升特征提取效果的同时确保模型的有效性,进而提升音乐流派分类的准确率。首先,将原始音频信号进行梅尔滤波,以模拟人耳的滤波操作对音乐的音强及节奏变化进行有效过滤,所生成的梅尔谱图进行切割后输入网络;然后,通过深化网络层数、改变卷积结构及增加空间注意力机制对模型在流派特征提取上进行增强;最后,通过在数据集上进行多批次的训练与验证来有效提取并学习音乐流派特征,从而得到可以对音乐流派进行有效分类的模型。在GTZAN数据集上的实验结果表明,基于空间注意的音乐流派分类算法与其他深度学习模型相比,在音乐流派分类准确率和模型收敛效果上有所提高,准确率提升了5.36个百分点~10.44个百分点。 展开更多
关键词 音乐流派分类 深度卷积神经网络 深度学习 空间注意力机制 梅尔频谱
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部