期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于Mel声谱图与改进SEResNet的鱼类行为识别 被引量:1
1
作者 杨雨欣 于红 +3 位作者 杨宗轶 涂万 张鑫 林远山 《渔业现代化》 CSCD 北大核心 2024年第1期56-63,共8页
养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造... 养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的Mel声谱图以捕捉鱼类声音的频谱特征。其次针对鱼类声音特征关键信息易丢失的难题,提出在SEResNet模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高识别准确率。为验证所提模型的有效性,分别设计了消融试验和模型性能对比试验,试验结果显示:TAP-SEResNet相比SEResNet在不降低检测速度的条件下准确率提升了3.23%;相比PANNS-CNN14、ECAPA-TDNN及MFCC+ResNet等先进声音识别模型,TAP-SEResNet在准确率上分别提升了5.32%、2.80%和1.64%。所提模型有助于养殖过程中对鱼类行为实现精准监测,对精准养殖具有重要的推动作用。 展开更多
关键词 鱼类行为识别 被动水声信号 Mel声谱图 SEResNet
下载PDF
基于LPDMR-NET的鸟鸣声识别
2
作者 王娅茹 唐璐 +2 位作者 陈爱斌 彭伟雄 沈平 《计算机工程》 CAS CSCD 北大核心 2024年第10期174-184,共11页
为了高效且快速地识别自然环境中的鸟鸣声,提出一种基于轻量级逐点深度的多感受野注意力残差网络(LPDMR-NET)模型。首先,通过Mel滤波器生成Mel频谱图。接着,采用basicblock和downblock连接生成两层残差网络DBNet,堆叠DBNet作为鸟鸣声识... 为了高效且快速地识别自然环境中的鸟鸣声,提出一种基于轻量级逐点深度的多感受野注意力残差网络(LPDMR-NET)模型。首先,通过Mel滤波器生成Mel频谱图。接着,采用basicblock和downblock连接生成两层残差网络DBNet,堆叠DBNet作为鸟鸣声识别的主干网络,以提高训练速度。然后,利用逐点深度卷积网络(PDNet)提取频谱图特征信息,替代主干网络下采样模块,将两个残差模块的basicblock中的3×3卷积替换为分离分支块(DBB),引入不同的感受野,在复杂多分支结构下显著提高网络的识别性能。最后,在两个残差模块间嵌入轻量级高效置换注意力(SA)模块用于传递两层残差模块间的有效信息,增强频谱图波纹特征,进一步提高网络识别性能。在自建的30类鸟鸣声数据集Birdselfdata上的实验结果表明,该模型的识别准确率为96.82%、F1值为96.73%,在识别效率和准确性方面超越了对比模型。 展开更多
关键词 卷积神经网络 鸟鸣声分类 深度学习 Mel频谱图 残差网络 深度可分离卷积
下载PDF
基于Mel-GADF与ConvNeXt-T的变压器铁心松动故障诊断方法
3
作者 万可力 马宏忠 +1 位作者 崔佳嘉 王健 《电力自动化设备》 EI CSCD 北大核心 2024年第3期217-224,共8页
为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经... 为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经过格拉姆角场(GAF)变换得到格拉姆角和场(GASF)与GADF这2种时频谱图;生成Mel-GASF与Mel-GADF这2种特征融合的时频谱图来弥补Mel时频谱图的低频缺失问题;将3种时频谱图放入ConvNeXt-T网络进行训练对比,选出效果最佳的诊断模型。以型号为S13-M-200/10的变压器为对象进行空载试验,对不同铁心松动程度下的声纹信号进行分析,分析结果表明,将Mel-GADF作为特征时频谱图结合ConvNeXt-T网络,可将测试集准确率从传统Mel时频谱图的98.273%提升至99.500%,提升了1.227个百分点。 展开更多
关键词 变压器 铁心松动 Mel时频谱图 格拉姆角场 卷积神经网络 迁移学习
下载PDF
基于Vision Transformer和迁移学习的家庭领域哭声识别
4
作者 王汝旭 王荣燕 +2 位作者 曾科 杨传德 刘超 《智能计算机与应用》 2024年第6期119-126,共8页
针对SVM等传统机器学习算法准确率低和当前使用CNN处理家庭领域哭声识别在不同婴儿间出现泛化能力差的问题,提出了一种基于Vision Transformer和迁移学习的婴儿哭声音频分类算法。首先,为实现数据集样本的扩增,采用了包括梅尔频谱转换... 针对SVM等传统机器学习算法准确率低和当前使用CNN处理家庭领域哭声识别在不同婴儿间出现泛化能力差的问题,提出了一种基于Vision Transformer和迁移学习的婴儿哭声音频分类算法。首先,为实现数据集样本的扩增,采用了包括梅尔频谱转换和数据增强的数据预处理技术,进而达到了增强模型鲁棒性的目的。而后,在微调后的Vision Transformer模型上进行迁移学习训练,同时,训练过程中利用了LookAhead优化器来不断调整模型参数以避免过拟合,最终实验实现了对婴儿哭声音频的自动分类。实验结果表明,本实验模型相比其他深度学习模型具有更高的精确率和更快的收敛速度,同时还能有效地学习到婴儿哭声中更具区分性的特征。可以在新生儿监护、听力筛查和异常检测等领域中发挥重要作用。 展开更多
关键词 Vision Transformer模型 婴儿哭声 迁移学习 梅尔频谱图 LOOKAHEAD
下载PDF
基于轻量级卷积神经网络的车辆声学识别
5
作者 封慧杰 赵红东 +1 位作者 于快快 刘赫 《传感器与微系统》 CSCD 北大核心 2024年第7期136-140,共5页
车型识别技术对交通监测具有重要意义。针对行驶中车辆的视觉信息易受环境干扰等问题,提出了一种基于ShuffleNet V2的车辆声学特征识别模型S-ShuffleNet,包含对ShuffleNet V2网络深度的缩减以及深度可分离卷积(DSC)中卷积(Conv)核大小... 车型识别技术对交通监测具有重要意义。针对行驶中车辆的视觉信息易受环境干扰等问题,提出了一种基于ShuffleNet V2的车辆声学特征识别模型S-ShuffleNet,包含对ShuffleNet V2网络深度的缩减以及深度可分离卷积(DSC)中卷积(Conv)核大小的改进,通过提取车辆声信号的对数—梅尔谱图(LMS)特征作为该模型的输入,进行车型识别。同时,将风、雨、雷暴噪声叠加在车辆音频上,以验证不同环境噪声的影响。实验结果表明:该模型参数量少、训练速度快,在VS10数据集上识别精度比基础网络ShuffleNet V2提高2.4%,识别准确率可达97.5%,与不同分类网络相比,S-ShuffleNet也具有良好性能。 展开更多
关键词 车型识别 声学特征 对数梅尔谱图 轻量级 卷积神经网络 环境噪声
下载PDF
基于子音节表征的苗语语音合成方法
6
作者 蔡姗 王林 +3 位作者 谭棉 郭胜 吴磊 王飞 《科学技术与工程》 北大核心 2024年第19期8176-8185,共10页
少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发... 少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发音信息,以区分学习不同音节间的相似发音。根据文本序列和梅尔谱图之间对齐的单调性,引入单调对齐损失来指导注意力模块进行更准确的对齐学习,以减少因注意力机制的自回归性带来的跳词、重复等合成现象。为验证所提方法的有效性,以自建苗语语音合成语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的语音合成方法进行对比实验。实验结果表明,所提方法能够降低不同声调的相同词发音相似时导致的合成错误率,词错误率仅为0.96%,较基线方法改善了6.25%。 展开更多
关键词 苗语语音合成 子音节 单调对齐 语料库 梅尔谱图
下载PDF
基于幅值滤波与分层特征融合策略的语音情感识别
7
作者 喻永振 刘大明 《国外电子测量技术》 2024年第3期35-42,共8页
针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图... 针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图内的高频强增益、低频弱增益;同时,通过概率相乘缩小梅尔谱图内相远幅值之间的差异,以显示谱图内中频的细节部分。在此基础上,使用矩形卷积提取音频信号的时间动态特征,生成梅尔谱图动态特征图,并将其作为分层特征融合策略的输入。分层特征融合策略通过压缩特征图来提取不同尺度的时间动态特征,并提取不同深度中的时间动态特征。在多语言联合数据集CER上取得了84.44%的分类准确率。 展开更多
关键词 语音情感识别 幅值滤波 分层特征融合策略 梅尔谱图动态特征图
下载PDF
应用无监督最大互信息算法分类鸟类叫声
8
作者 潘婕 《福建电脑》 2024年第2期67-69,共3页
在建立鸟类叫声的分类模型时,由于自然界中具有准确标签的鸟类叫声数据较少,因此需要解决小样本下的模型训练问题。本文研究应用最大互信息的无监督网络来对鸟类叫声进行分类。通过同时提取梅尔图谱的高层语义特征和浅层特征并计算互信... 在建立鸟类叫声的分类模型时,由于自然界中具有准确标签的鸟类叫声数据较少,因此需要解决小样本下的模型训练问题。本文研究应用最大互信息的无监督网络来对鸟类叫声进行分类。通过同时提取梅尔图谱的高层语义特征和浅层特征并计算互信息,减少噪声特征的提取。训练时使用对抗样本,利用先验约束网络拉大不同类别之间的距离,降低模型对数据的依赖。实验证明,与现有无监督方法相比,利用最大互信息方法的无监督学习能够在鸟类叫声分类任务上取得最好的效果。 展开更多
关键词 最大互信息 无监督学习 梅尔图谱 鸟类叫声分类
下载PDF
基于改进Inception网络的语音分类模型 被引量:2
9
作者 张秋余 王煜坤 《计算机应用》 CSCD 北大核心 2023年第3期909-915,共7页
针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,... 针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,使网络模型在加深的同时避免梯度消失;其次,优化Inception模块中的卷积核大小,并利用不同尺寸卷积对原始语音的Log-Mel谱图进行深度特征提取,使模型通过自主学习的方式选择合适的卷积处理数据;同时,在深度与宽度两个维度改进模型以提高分类精度;最后,利用训练好的网络模型对语音数据进行分类预测,并通过Softmax函数得到分类结果。在清华大学汉语语音数据集THCHS-30与环境声音数据集UrbanSound8K数据集上的实验结果表明,改进的Inception网络模型在上述两个数据集上分类准确率分别为92.76%与93.34%。相较于VGG16、InceptionV2、GoogLeNet等模型,所提模型的分类准确率取得了最优,最多提高了27.30个百分点。所提模型具有更强的特征融合能力和更准确的分类结果,能够解决过拟合、梯度消失等问题。 展开更多
关键词 语音分类 卷积神经网络 残差跳连 对数梅尔谱图 深度特征
下载PDF
基于频谱增强和卷积宽度学习的音乐流派分类 被引量:1
10
作者 刘万军 李雨萌 曲海成 《计算机系统应用》 2023年第10期85-95,共11页
针对频谱图对于音乐特征挖掘较弱、深度学习分类模型复杂且训练时间长的问题,设计了一种基于频谱增强和卷积宽度学习(CNNBLS)的音乐流派分类模型.该模型首先通过SpecAugment中随机屏蔽部分频率信道的方法增强梅尔频谱图,再将切割后的梅... 针对频谱图对于音乐特征挖掘较弱、深度学习分类模型复杂且训练时间长的问题,设计了一种基于频谱增强和卷积宽度学习(CNNBLS)的音乐流派分类模型.该模型首先通过SpecAugment中随机屏蔽部分频率信道的方法增强梅尔频谱图,再将切割后的梅尔频谱图作为CNNBLS的输入,同时将指数线性单元函数(ELU)融合进CNNBLS的卷积层,以增强其分类精度.相较于其他机器学习网络框架,CNNBLS能用少量的训练时间获得较高的分类精度.此外,CNNBLS可以对增量数据进行快速学习.实验结果表明:无增量模型CNNBLS在训练400首音乐数据可获得90.06%的分类准确率,增量模型Incremental-CNNBLS在增加400首训练数据后可达91.53%的分类准确率. 展开更多
关键词 梅尔频谱 宽度学习 语音增强 音乐流派分类 指数线性单元函数(ELU)
下载PDF
基于域泛化的无监督机器设备异常声检测
11
作者 章林柯 许艳武 余永升 《海军工程大学学报》 CAS 北大核心 2023年第6期52-56,70,共6页
在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题... 在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题,提出了基于域泛化技术的无监督机器异常声音检测方法。首先,将声信号的对数梅尔谱图输入深度学习神经网络模型,结合域混合方法和坐标注意力机制模块,提高系统域泛化能力和异常识别性能;然后,在DCASE开源数据集上进行实验,与两种基线评估系统的AUC和pAUC得分进行对比。结果表明,所提出的方法在域泛化条件下的异常检测性能得到明显提升。 展开更多
关键词 无监督深度学习 异常声音检测 域泛化 对数梅尔谱图
下载PDF
Profiling of Urban Noise Using Artificial Intelligence
12
作者 Le Quang Thao Duong Duc Cuong +1 位作者 Tran Thi Tuong Anh Tran Duc Luong 《Computer Systems Science & Engineering》 SCIE EI 2023年第5期1309-1321,共13页
Noise pollution tends to receive less awareness compared to other types of pollution,however,it greatly impacts the quality of life for humans such as causing sleep disruption,stress or hearing impairment.Profiling ur... Noise pollution tends to receive less awareness compared to other types of pollution,however,it greatly impacts the quality of life for humans such as causing sleep disruption,stress or hearing impairment.Profiling urban sound through the identification of noise sources in cities could help to benefit livability by reducing exposure to noise pollution through methods such as noise control,planning of the soundscape environment,or selection of safe living space.In this paper,we proposed a self-attention long short-term memory(LSTM)method that can improve sound classification compared to previous baselines.An attention mechanism will be designed solely to capture the key section of an audio data series.This is practical as we only need to process important parts of the data and can ignore the rest,making it applicable when gathering information with long-term dependencies.The dataset used is the Urbansound8k dataset which specifically pertains to urban environments and data augmentation was applied to overcome imbalanced data and dataset scarcity.All audio sources in the dataset were normalized to mono signals.From the dataset above,an experiment was conducted to confirm the suitability of the proposed model when applied to the mel-spectrogram and MFCC(Mel-Frequency Cepstral Coefficients)datasets transformed from the original dataset.Improving the classification accuracy depends on the machine learning models as well as the input data,therefore we have evaluated different class models and extraction methods to find the best performing.By combining data augmentation techniques and various extraction methods,our classification model has achieved state-of-the-art performance,each class accuracy is up to 98%. 展开更多
关键词 Urban noise noise classification mel-spectrogram MFCC LSTM self-attention
下载PDF
一种基于WaveNet的藏语语音合成方法 被引量:4
13
作者 丁云涛 才让卓玛 +1 位作者 贡保加 才智杰 《计算机仿真》 北大核心 2023年第1期295-299,538,共6页
针对Griffin-Lim声码器合成语音保真度低、人工合成痕迹明显的问题,提出了一种基于WaveNet神经网络声码器的藏语语音合成方法。方法基于藏文文本特征及藏语Mel频谱,运用WaveNet的相位恢复能力实现了藏语的语音合成。先将藏文文本经字符... 针对Griffin-Lim声码器合成语音保真度低、人工合成痕迹明显的问题,提出了一种基于WaveNet神经网络声码器的藏语语音合成方法。方法基于藏文文本特征及藏语Mel频谱,运用WaveNet的相位恢复能力实现了藏语的语音合成。先将藏文文本经字符编码转换为相应词向量,并通过卷积运算和注意力权重赋值完成文本特征提取;利用非线性变换和线性投影预测Mel频谱;利用WaveNet声码器合成藏语语音波形。实验数据表明,相对于Griffin-Lim算法合成的语音,所提方法所合成的语音效果更好。 展开更多
关键词 藏语语音合成 梅尔频谱 神经网络声码器
下载PDF
基于Inception-CSA深度学习模型的鸟鸣分类 被引量:2
14
作者 李怀城 杨道武 +2 位作者 温治芳 王亚楠 陈爱斌 《华中农业大学学报》 CAS CSCD 北大核心 2023年第3期97-104,共8页
为进一步提高通过声音识别鸟类的精确度,本研究提出基于Inception-CSA深度学习模型的鸟鸣声分类方法,包含鸟鸣声音频样本预处理、特征提取、分类器分类等步骤。首先将鸟鸣声样本预处理成尺寸相同的梅尔频谱图,作为鸟鸣声特征图;其次利用... 为进一步提高通过声音识别鸟类的精确度,本研究提出基于Inception-CSA深度学习模型的鸟鸣声分类方法,包含鸟鸣声音频样本预处理、特征提取、分类器分类等步骤。首先将鸟鸣声样本预处理成尺寸相同的梅尔频谱图,作为鸟鸣声特征图;其次利用Inception-CSA模型对鸟鸣声特征图进行特征提取,其中Inception模块提取鸟鸣声特征图中的多尺度局部时频域特征,CSA模块获取鸟鸣声特征图的全局注意力权重,将二者的输出结合得到更强的特征图,再次利用最大池化层对特征图进行下采样;最后利用全连接层进行分类,得到最终的分类结果。以采集的华南地区自然环境中的10种野生鸟类的鸣叫声构建数据集,用于实验部分以验证方法的有效性。结果表明,本研究提出的方法在自建数据集上准确率达到了93.11%,相比于基于其他经典模型的分类方法,基于Inception-CSA模型的分类方法在拥有较少模型参数量的同时达到了更高的准确率。 展开更多
关键词 卷积神经网络 鸟鸣声分类 深度学习 梅尔频谱图 INCEPTION
下载PDF
基于ZYNQ的枪声识别系统设计 被引量:2
15
作者 孙袖山 李剑 +3 位作者 贺斌 庞润嘉 马翊翔 郭锦铭 《电子测量技术》 北大核心 2023年第2期1-6,共6页
枪声识别技术在军事环境下可以快速准确地提供战场信息,但是目前大部分枪声识别系统均部署在服务器端,实用性和可行性不高,针对这一问题,本文设计了一种基于ZYNQ的枪声识别系统。该系统以ZYNQ7020芯片为核心,充分利用ZYNQ芯片集ARM与FPG... 枪声识别技术在军事环境下可以快速准确地提供战场信息,但是目前大部分枪声识别系统均部署在服务器端,实用性和可行性不高,针对这一问题,本文设计了一种基于ZYNQ的枪声识别系统。该系统以ZYNQ7020芯片为核心,充分利用ZYNQ芯片集ARM与FPGA于一体的特性,首先在芯片的FPGA部分设计了多通道数据传输链路和声场特征参数提取模块;其次在芯片的ARM部分部署经过PC端训练后的轻量化网络模型,对经过FPGA提取的特征参数进行处理,进而实现对枪声种类的识别;最后使用枪声数据集NIJ Grant 2016-DN-BX-0183中的3种枪声在外场进行试验。试验结果表明,该系统能够准确地对枪声进行分类,枪声的平均识别率达到91.67%。该成果在枪声识别领域具有较强的应用价值。 展开更多
关键词 ZYNQ 对数梅尔谱 枪声识别 神经网络
下载PDF
基于CNN和XLNet的音乐多模态情感分析方法 被引量:1
16
作者 张晶晶 陈伟 李庆珍 《贵阳学院学报(自然科学版)》 2023年第2期34-39,共6页
在情感分析领域,仅依靠文本等单一模态进行情感分析,限制了从多模态数据中提取多样化特征的能力,限制了情感分析结果的准确度和鲁棒性。为此,提出了融合音频分析网络和文本分析网络的多模态情感分析方法。其中,利用预训练卷积神经网络(C... 在情感分析领域,仅依靠文本等单一模态进行情感分析,限制了从多模态数据中提取多样化特征的能力,限制了情感分析结果的准确度和鲁棒性。为此,提出了融合音频分析网络和文本分析网络的多模态情感分析方法。其中,利用预训练卷积神经网络(CNN)和迁移学习技术进行基于Mel频谱图的音频情感分类,通过改进的XLNet模型执行歌词文本的特征提取和情感分类任务。CNN和XLNet输出包含概率权重和不同情感值的情感预测矩阵,最后使用堆叠集成方法合并不同模态的输出结果,完成多模态情感分类。在自建民族音乐数据集的消融实验证明,多模态方法具有良好的互补性,在情感识别任务中的性能显著优于单模态方法。公开数据集结果表明,所提方法的分类准确度达到83.75%,优于其他先进方法。 展开更多
关键词 多模态数据 卷积神经网络 Mel频谱图 堆叠集成法 音乐情感分析
下载PDF
一种新的艺术嗓音客观评价方法
17
作者 李延华 曹辉 +3 位作者 张若雨 陈文韬 曹娜 范翔 《电子设计工程》 2023年第2期156-159,165,共5页
针对目前艺术嗓音评价效率低、主观性强的问题,提出了一种基于卷积神经网络的嗓音质量客观评价方法。在该方法中,将音频信号转化为一定尺寸的梅尔声谱图,并构建了一种多层CNN网络架构的图像特征模型,使得艺术嗓音客观评价问题转化为图... 针对目前艺术嗓音评价效率低、主观性强的问题,提出了一种基于卷积神经网络的嗓音质量客观评价方法。在该方法中,将音频信号转化为一定尺寸的梅尔声谱图,并构建了一种多层CNN网络架构的图像特征模型,使得艺术嗓音客观评价问题转化为图像分类问题。实验表明,通过深度学习方法客观评价艺术嗓音质量,相比于已有提取声学参数和机器学习的评价方法,准确率有一定提高,为客观高效地评估艺术嗓音提供了一种新方法,具有较高的应用价值。 展开更多
关键词 艺术嗓音 梅尔声谱图 卷积神经网络 客观评价
下载PDF
基于CNN的平波电抗器声纹模式识别方法
18
作者 胡锦根 石明垒 +1 位作者 焦晨骅 沈正元 《浙江电力》 2023年第3期88-94,共7页
为实现对平波电抗器运行状态的准确识别,引入一种基于CNN(卷积神经网络)的深度学习方法,建立了使用Mel时频谱的电抗器绕组声纹模式识别模型。以干式平波电抗器作为实验对象采集声音信号,使用Mel滤波器方法将采集到的声音信号转化为时频... 为实现对平波电抗器运行状态的准确识别,引入一种基于CNN(卷积神经网络)的深度学习方法,建立了使用Mel时频谱的电抗器绕组声纹模式识别模型。以干式平波电抗器作为实验对象采集声音信号,使用Mel滤波器方法将采集到的声音信号转化为时频谱图,以不同的工况类型作为数据集的标签,基于CNN算法识别不同信号所对应的工况类型。结果表明,CNN可用于干式平波电抗器声纹模式的准确识别,优化后的神经网络对正弦激励、谐波激励和直流偏磁激励下的声纹信号识别准确率高达98.4%。研究结果为实现电网信号的智能化检测提供了潜在的技术方案。 展开更多
关键词 平波电抗器 运行状态 绕组 Mel时频谱 卷积神经网络
下载PDF
采用混合域注意力机制的无人机识别方法 被引量:7
19
作者 薛珊 卫立炜 +1 位作者 顾宸瑜 吕琼莹 《西安交通大学学报》 EI CAS CSCD 北大核心 2022年第10期141-150,共10页
针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(... 针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(ECSANet)的无人机识别方法。首先,建立民用的9大类无人机声音数据集,提取数据集的对数梅尔谱图及其动态特征;其次,为了网络参数量少,避免过拟合,设计了基于分组卷积、通道混洗和残差结构的通道混洗多尺度分组卷积网络(MSSGNet);然后,为了能更多、更有效地提取无人机声音特征,设计了通道空间混合域注意力机制模块(ECSA);最后,将ECSA模块插入MSSGNet网络构成改进的通道空间混合域注意力机制的多尺度分组卷积网络(ECSANet),形成新型声音识别无人机的方法。运用设计的ECSANet网络对自建的民用无人机声音数据集和Urbansound8K环境声音数据集进行了声音识别,识别结果表明:与ResNet18、ResNet34、ResNeXt18和MobileNetV2等基准网络相比,MSSGNet网络参数更少,识别准确率更高,达到了95.1%;ECSA模块可以插入多种网络,在不增加很多参数的情况下令网络模型的识别准确率获得提升,在无人机等声音分类任务上具有很好的效果;与MSSGNet网络相比,改进的ECSANet网络识别准确率能达到95.9%,提高了0.8%,表明了该网络在识别小样本无人机方面的优越性和可行性。 展开更多
关键词 无人机 声音识别 对数梅尔谱图 神经网络 混合域注意力机制
下载PDF
基于稀疏轻量卷积神经网络的管道泄漏检测 被引量:5
20
作者 刘杰 朱正伟 《电子测量技术》 北大核心 2022年第19期131-135,共5页
针对传统供水管网泄漏检测问题,本文提出了一种基于稀疏轻量卷积神经网络的管道泄漏检测算法。首先通过声音传感器采集管道泄漏的声音信号,经过立体声转换、重采样、长度对齐等预处理操作后,将其转换成梅尔频谱图。然后,构建一种稀疏轻... 针对传统供水管网泄漏检测问题,本文提出了一种基于稀疏轻量卷积神经网络的管道泄漏检测算法。首先通过声音传感器采集管道泄漏的声音信号,经过立体声转换、重采样、长度对齐等预处理操作后,将其转换成梅尔频谱图。然后,构建一种稀疏轻量化的卷积神经网络模型来对梅尔频谱图进行特征抽取和泄漏检测。针对声音特征图的稀疏和时延性质,本文采用Inception网络结构来进行提高模型的特征抽取能力。此外,因为该模型需要被部署到边缘侧,因此设计了一种基于SqueezeNet的轻量化卷积神经网络模型来减少模型的参数,降低模型复杂度。实验结果表明,提出的管道泄漏检测算法在保证复杂度较低的同时具有较高的识别准确率。 展开更多
关键词 管道泄漏检测 卷积神经网络 梅尔频谱图 稀疏特征
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部