期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于梅尔谱图和改进ResNet34模型的鸭蛋裂纹识别算法
1
作者 康俊琪 肖德琴 +2 位作者 刘又夫 孔馨月 殷建军 《华中农业大学学报》 CAS CSCD 北大核心 2023年第3期115-122,共8页
针对鸭蛋裂纹人工检测受主观性影响造成精度波动大等问题,利用ResNet34网络模型,提出1种基于梅尔谱图的鸭蛋裂纹识别算法。首先利用敲蛋装置收集敲蛋声音数据,再将音频转化成梅尔谱图,构建梅尔谱图数据集,然后搭建ResNet34模型,引入迁... 针对鸭蛋裂纹人工检测受主观性影响造成精度波动大等问题,利用ResNet34网络模型,提出1种基于梅尔谱图的鸭蛋裂纹识别算法。首先利用敲蛋装置收集敲蛋声音数据,再将音频转化成梅尔谱图,构建梅尔谱图数据集,然后搭建ResNet34模型,引入迁移学习机制训练模型,再通过Adam优化算法更新梯度,增加注意力机制模块并将卷积结构替换为深度可分离卷积以对网络模型进行改进,并调整参数进行优化,最后利用模型对鸭蛋裂纹进行识别。结果显示:改进的ResNet34DP_CA网络模型检测的平均准确率为92.4%,对比原始ResNet34网络模型,平均准确率提高5.5个百分点,参数量减少32%;对比其他网络模型VGG16、MobileNetv2和EfficientNet,平均准确率分别提高10.9、13.7、16.3个百分点,识别时间为21.5 ms。结果表明,所提出的基于梅尔谱图和改进ResNet34模型的鸭蛋裂纹识别算法,能够有效地对鸭蛋裂纹进行检测识别。 展开更多
关键词 梅尔谱图 无损检测 深度学习 模型优化 卷积神经网络 鸭蛋裂纹识别
下载PDF
基于幅值滤波与分层特征融合策略的语音情感识别
2
作者 喻永振 刘大明 《国外电子测量技术》 2024年第3期35-42,共8页
针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图... 针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图内的高频强增益、低频弱增益;同时,通过概率相乘缩小梅尔谱图内相远幅值之间的差异,以显示谱图内中频的细节部分。在此基础上,使用矩形卷积提取音频信号的时间动态特征,生成梅尔谱图动态特征图,并将其作为分层特征融合策略的输入。分层特征融合策略通过压缩特征图来提取不同尺度的时间动态特征,并提取不同深度中的时间动态特征。在多语言联合数据集CER上取得了84.44%的分类准确率。 展开更多
关键词 语音情感识别 幅值滤波 分层特征融合策略 梅尔谱图动态特征
下载PDF
可变形特征图残差网络用于城市声音识别 被引量:2
3
作者 刘芙伶 李伟红 龚卫国 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2020年第11期1853-1862,共10页
针对城市声音识别过程中时频图像特征提取较困难的问题,提出一种可变形特征图残差网络用于城市声音识别.首先设计可变形特征图残差模块,包括偏移层与卷积层.偏移层将输入特征图的像素点移位,移位后的特征图通过快捷连接与卷积层提取到... 针对城市声音识别过程中时频图像特征提取较困难的问题,提出一种可变形特征图残差网络用于城市声音识别.首先设计可变形特征图残差模块,包括偏移层与卷积层.偏移层将输入特征图的像素点移位,移位后的特征图通过快捷连接与卷积层提取到的特征图叠加,使网络集中在感兴趣的特征图区域采样,并向下级网络传递移位后特征图信息;其次设计可变形卷积残差网络;最后将该网络提取的特征与城市声音的梅尔倒谱系数融合,经压缩激励模块重标定后输入全连接层分类.在城市声音数据集上进行了实验,结果表明,与卷积神经网络的方法相比,该方法用于城市声音识别准确率提高5%以上. 展开更多
关键词 可变形卷积 残差模块 残差网络 城市声音 对数梅尔谱图
下载PDF
基于改进Inception网络的语音分类模型 被引量:1
4
作者 张秋余 王煜坤 《计算机应用》 CSCD 北大核心 2023年第3期909-915,共7页
针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,... 针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,使网络模型在加深的同时避免梯度消失;其次,优化Inception模块中的卷积核大小,并利用不同尺寸卷积对原始语音的Log-Mel谱图进行深度特征提取,使模型通过自主学习的方式选择合适的卷积处理数据;同时,在深度与宽度两个维度改进模型以提高分类精度;最后,利用训练好的网络模型对语音数据进行分类预测,并通过Softmax函数得到分类结果。在清华大学汉语语音数据集THCHS-30与环境声音数据集UrbanSound8K数据集上的实验结果表明,改进的Inception网络模型在上述两个数据集上分类准确率分别为92.76%与93.34%。相较于VGG16、InceptionV2、GoogLeNet等模型,所提模型的分类准确率取得了最优,最多提高了27.30个百分点。所提模型具有更强的特征融合能力和更准确的分类结果,能够解决过拟合、梯度消失等问题。 展开更多
关键词 语音分类 卷积神经网络 残差跳连 对数梅尔谱图 深度特征
下载PDF
基于域泛化的无监督机器设备异常声检测
5
作者 章林柯 许艳武 余永升 《海军工程大学学报》 CAS 北大核心 2023年第6期52-56,70,共6页
在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题... 在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题,提出了基于域泛化技术的无监督机器异常声音检测方法。首先,将声信号的对数梅尔谱图输入深度学习神经网络模型,结合域混合方法和坐标注意力机制模块,提高系统域泛化能力和异常识别性能;然后,在DCASE开源数据集上进行实验,与两种基线评估系统的AUC和pAUC得分进行对比。结果表明,所提出的方法在域泛化条件下的异常检测性能得到明显提升。 展开更多
关键词 无监督深度学习 异常声音检测 域泛化 对数梅尔谱图
下载PDF
基于LBP和Mixup数据增强后的肺音识别
6
作者 古依聪 郭涛 +2 位作者 李成 刘启明 石帅 《计算机与数字工程》 2023年第1期268-272,共5页
肺音蕴含着重要的生理病理信息。对肺音进行智能化识别,是推进医疗现代化的一种重要方式。论文针对肺音分类问题,采用梅尔谱图(Mel)、小波变换(WT)、短时傅里叶变换(STFT)、恒Q变换(CQT)四种方法进行特征提取,并且使用构建的卷积神经网... 肺音蕴含着重要的生理病理信息。对肺音进行智能化识别,是推进医疗现代化的一种重要方式。论文针对肺音分类问题,采用梅尔谱图(Mel)、小波变换(WT)、短时傅里叶变换(STFT)、恒Q变换(CQT)四种方法进行特征提取,并且使用构建的卷积神经网络(CNN)和卷积神经网络与随机子空间判别结合法(CNN-RSM)对肺音进行分类。最终Mel谱图在CNN-RSM的测试集中的准确率为76.01%,特异度为89.7%,ICBHI得分为66.38%。经过与使用同一数据库的其他作者综合对比,本文肺音识别方法更具优势。 展开更多
关键词 梅尔谱图 卷积神经网络 随机子空间判别 局部二值模式 Mixup
下载PDF
采用混合域注意力机制的无人机识别方法 被引量:4
7
作者 薛珊 卫立炜 +1 位作者 顾宸瑜 吕琼莹 《西安交通大学学报》 EI CAS CSCD 北大核心 2022年第10期141-150,共10页
针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(... 针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(ECSANet)的无人机识别方法。首先,建立民用的9大类无人机声音数据集,提取数据集的对数梅尔谱图及其动态特征;其次,为了网络参数量少,避免过拟合,设计了基于分组卷积、通道混洗和残差结构的通道混洗多尺度分组卷积网络(MSSGNet);然后,为了能更多、更有效地提取无人机声音特征,设计了通道空间混合域注意力机制模块(ECSA);最后,将ECSA模块插入MSSGNet网络构成改进的通道空间混合域注意力机制的多尺度分组卷积网络(ECSANet),形成新型声音识别无人机的方法。运用设计的ECSANet网络对自建的民用无人机声音数据集和Urbansound8K环境声音数据集进行了声音识别,识别结果表明:与ResNet18、ResNet34、ResNeXt18和MobileNetV2等基准网络相比,MSSGNet网络参数更少,识别准确率更高,达到了95.1%;ECSA模块可以插入多种网络,在不增加很多参数的情况下令网络模型的识别准确率获得提升,在无人机等声音分类任务上具有很好的效果;与MSSGNet网络相比,改进的ECSANet网络识别准确率能达到95.9%,提高了0.8%,表明了该网络在识别小样本无人机方面的优越性和可行性。 展开更多
关键词 无人机 声音识别 对数梅尔谱图 神经网络 混合域注意力机制
下载PDF
基于改进残差网络的低空无人机声音识别方法 被引量:1
8
作者 薛珊 卫立炜 +2 位作者 顾宸瑜 孟宪宇 贾冰 《长春理工大学学报(自然科学版)》 2022年第4期100-107,共8页
“黑飞”无人机的泛滥给人们的生活带来了极大威胁。抵制“黑飞”无人机的首要任务是识别它。针对低空无人机识别问题,设计了一种基于改进残差网络的无人机声音识别方法。首先,采集低空无人机声音数据并进行预处理,建立数据集;其次,研... “黑飞”无人机的泛滥给人们的生活带来了极大威胁。抵制“黑飞”无人机的首要任务是识别它。针对低空无人机识别问题,设计了一种基于改进残差网络的无人机声音识别方法。首先,采集低空无人机声音数据并进行预处理,建立数据集;其次,研究并比较了梅尔频率倒谱系数(MFCC)、对数梅尔谱图(Log-Mel)及其一阶差分等音频特征;然后,设计了基于残差块改进的神经网络(IRBNet);最后,运用设计的IRBNet以及CNN-1、CNN-2、ResNet和IRBNet-1等基准网络对无人机进行识别实验。实验结果表明,IRBNet的识别准确率为97.45%,与其他基准网络相比,准确率更高;设计的IRBNet具有识别无人机的可行性和有效性。 展开更多
关键词 无人机 声音识别 特征提取 对数梅尔谱图 卷积神经网络
下载PDF
改进卷积神经网络的音频场景分类研究 被引量:5
9
作者 杨立东 张壮壮 《现代电子技术》 2021年第3期91-94,共4页
音频场景分类作为声学场景理解的关键环节,对机器感知复杂环境并做出智能选择有着非常重要的意义。针对音频场景分类性能提升这一问题,提出改进的基于卷积神经网络模型的音频场景分类方法。首先对音频数据重新采样,预处理后得到对数梅... 音频场景分类作为声学场景理解的关键环节,对机器感知复杂环境并做出智能选择有着非常重要的意义。针对音频场景分类性能提升这一问题,提出改进的基于卷积神经网络模型的音频场景分类方法。首先对音频数据重新采样,预处理后得到对数梅尔谱图,随后输入到改进的卷积神经网络模型,进行卷积和池化处理提取谱图的特征,由Softmax分类器对音频场景标签进行分类。实验最后在城市音频数据集上进行十折交叉验证,实验结果表明,所提模型比传统的卷积神经网络模型的分类准确率更高,准确率达到了80%。 展开更多
关键词 音频场景分类 卷积神经网络 Softmax分类器 特征提取 梅尔谱图 准确率
下载PDF
基于3A-RCNN网络的说话人识别研究
10
作者 李建文 赵统军 《电子技术与软件工程》 2020年第14期23-27,共5页
本文为了更加有针对性的从语音信息中筛选出说话人的身份信息,减少冗余信息,提出一种将通道维度、时间维度、频率维度三种维度的多重注意力机制嵌入每个残差块末端的模型(3A-RCNN)。结果表明,3A-RCNN模型收敛后平均准确率达到98.0%。相... 本文为了更加有针对性的从语音信息中筛选出说话人的身份信息,减少冗余信息,提出一种将通道维度、时间维度、频率维度三种维度的多重注意力机制嵌入每个残差块末端的模型(3A-RCNN)。结果表明,3A-RCNN模型收敛后平均准确率达到98.0%。相比于ResCNN和CNN-LSTM模型准确率分别提升5.48%和2.72%。 展开更多
关键词 多维度注意力机制 残差块末端嵌入 说话人识别 3A-RCNN网络 梅尔
下载PDF
基于深度学习模型的电力变压器故障声音诊断方法研究 被引量:8
11
作者 吴帆 刘艳霞 +1 位作者 刘力铭 何彦德 《电声技术》 2020年第1期76-80,共5页
利用声音信号对电力变压器进行故障诊断是一种不停机的设备维护方法,可以诊断变压器故障类型或预测故障产生的时间。声音诊断相对于其他诊断方式有许多优点,但是传统的声音自动诊断方法识别率不够理想。为了探索深度学习技术在声音故障... 利用声音信号对电力变压器进行故障诊断是一种不停机的设备维护方法,可以诊断变压器故障类型或预测故障产生的时间。声音诊断相对于其他诊断方式有许多优点,但是传统的声音自动诊断方法识别率不够理想。为了探索深度学习技术在声音故障诊断方面的可行性,本文采集了真实变压器在正常状态、老化和放电两种故障运行状态下发出的声音信号,对信号分别进行了声谱图转换和梅尔对数谱图的转换,输入一种高效轻量级卷积神经网络--Mobile Net深度学习模型中开展了训练。训练结果表明,将卷积神经网络应用在变压器故障声音诊断上能够得到较高的准确率,尤其是采用梅尔对数谱图对三种状态下识别准确率均能达到99%以上,而采用声谱图进行训练对放电类型的故障识别率较高,老化故障识别率不够理想。 展开更多
关键词 电力变压器声音故障诊断 卷积神经网络 MOBILE NET 梅尔对数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部